10 min. de lectura

 

Asunción, Paraguay. Son las 2 de la tarde de un domingo, día de elecciones municipales, y te estás preparando para salir a votar después de almorzar, cuando te llega este audio al celular:

 

Tiene la voz de Johanna Ortega, actual diputada por Asunción. En los grupos se comparte el audio y corren especulaciones. Intentás revisar las páginas web de los diarios, pero tu pack de datos te limita a las aplicaciones de mensajería. Nada en la televisión o la radio. El desmentido oficial viene horas después, cuando ya habías decidido quedarte en casa, desanimado, y a poco tiempo del cierre del local de votación.

Ese audio era falso, aunque la voz era idéntica a la de la candidata. Había sido clonada con inteligencia artificial y utilizada como parte de una campaña de desinformación por actores desconocidos.

Este escenario es más probable de lo que uno creería. Los deepfakes —falsificaciones ultrarrealistas con inteligencia artificial (IA)— ya están siendo utilizados con fines políticos en varios países.

En enero de 2024, votantes del estado de New Hampshire (EE. UU.) recibieron una llamada con la voz del presidente Joe Biden pidiéndoles que no votaran en las elecciones internas.

En abril, una candidata mexicana a gobernadora fue víctima de clonación de voz para intentar desprestigiarla con dichos polémicos sobre programas sociales. En junio, una serie de audios y videos clonaron la voz de Nayib Bukele para atacar a los presidentes de Ecuador y Argentina.

Paraguay, un país donde el Estado reacciona tarde y mal a los desafíos de la ciencia y tecnología, está sumamente expuesto a los abusos de los deepfakes con inteligencia artificial, especialmente en época electoral.

El ChatGPT de las voces

DIputada Johanna Ortega
Diputada Johanna Ortega: «Si no establecemos una alerta sobre el avance de estas tecnologías, hay mucha gente que no sabe, no se entera lo lejos que llegó. Vemos que cada vez se usa más, sobre todo en el contexto de campañas políticas, como campañas sucias o negativas sobre adversarios. Es importante que la gente sepa para poder diferenciar». (Foto: Facebook).

La clonación de voces con inteligencia artificial ya está al alcance de cualquier persona con mínimos conocimientos de informática. No es necesario saber programar ni conocer a fondo sobre machine learning.

A propuesta de Ciencia del Sur, la diputada accedió a realizar este experimento y autorizó la clonación de su voz con una de las varias herramientas comerciales disponibles para llamar la atención sobre este fenómeno con implicaciones para la democracia y los derechos de las personas.

La herramienta no costó más de 100 mil guaraníes (USD 15) y lo que más demoró fue juntar la cantidad suficiente de grabaciones con su voz, tarea que tampoco fue difícil, siendo ella una personalidad pública.

Para lograr el mejor resultado posible, Ciencia del Sur utilizó casi tres horas de grabaciones de las intervenciones de la diputada en la Cámara de Diputados. Sin embargo, con pocos minutos de grabación —un par de audios de WhatsApp— ya es posible clonar la voz de cualquier persona con aceptable fidelidad. Al ritmo en que avanza esta tecnología, cada vez será más fácil y accesible.

Una vez clonada la voz, es posible generar innumerables audios con ella. A partir de interfaces similares a chatbots como ChatGPT o Claude (el método text-to-speech o texto a voz), podemos hacer que esta nos lea un libro entero. O bien, con el método voz a voz (speech-to-speech), podemos convertir la voz de una persona en otra y crear audios maliciosos altamente convincentes, como las recurrentes estafas de «familiares» que piden dinero por alguna emergencia.

Víctimas invisibles de una carrera tecnológica

marcha de mujeres en Corea del Sur por epidemia de deepfakes
En septiembre, miles de mujeres marcharon en Seúl, Corea del Sur, para protestar contra los deepfakes de pornografía (Foto: AllyJung).

La generación de voz por computadoras no es nueva —esta línea de investigación de la ciencia de la computación empezó en los años 50— pero no fue hasta inicios de este siglo que se cruzó la línea de no saber si lo que estamos escuchando es real o artificial.

Esto fue posible gracias al impulso de una subrama de la IA, el deep learning (aprendizaje profundo). El deep learning es el método innovador detrás del boom de la IA generativa en los últimos años, con aplicaciones multiformato: texto, imágenes, video y sonido.

Su vertiginoso desarrollo está afectando a todas las esferas sociales, desde lo laboral —¿qué trabajos serán reemplazados por robots?— pasando por la ciencia —los nóbeles de física y química de este año— y lo político —¿cómo regular y prevenir su abuso?—.

Escuchar su propia voz clonada, dijo la diputada a Ciencia del Sur, fue “como un sentimiento de invasión a la privacidad, como que te sacan algo. Si pueden emular mi voz pueden decir cualquier cosa en mi nombre, aunque no sea real. Y sobre todo la sensación de que se puede poner en riesgo la credibilidad o confianza”.

Para Luis Benítez, analista de sistemas, magíster en Asuntos Públicos y Gobernabilidad y secretario de la Sociedad Paraguaya de Inteligencia Artificial (SOPAIA), estamos en medio de una carrera desenfrenada de las empresas tecnológicas por lograr el mejor modelo posible de IA generativa en todos los formatos. “Está mejorando al extremo la generación. Este último año nada más la diferencia entre GPT-4 y GPT-4o es brutal.”

Foto de la reunión de la Sociedad Paraguaya de Inteligencia Artificial
Luis Benítez (centro, agachado), secretario de la Sociedad Paraguaya de Inteligencia Artificial, fundada en 2023 (Foto: SOPAIA).

La seguridad y las repercusiones, entonces, son una preocupación secundaria en esa carrera. Graves casos de deepfakes pornográficos no autorizados con imágenes y videos han impactado especialmente a menores y mujeres en España y Corea del Sur.

Para Benítez, a estas empresas no les interesa mucho evitar los abusos de sus servicios por dos razones: “Por el costo que implica esa trazabilidad. También es una realidad el hecho de que todavía no se tiene control sobre el comportamiento de la mayoría de los algoritmos”.

Un problema conocido de los modelos de deep learning es el de la caja negra: pese a sus extraordinarios resultados, no se sabe a ciencia cierta por qué hacen lo que hacen. Con una misma instrucción pueden generarse resultados distintos cada vez.

“Está siendo muy difícil hacer o generar un modelo que permita trazabilidad y transparencia. Se está hablando mucho en los papers científicos últimamente de colocar watermarks en todo lo que se genere, ya sea texto, video o audio”. Es decir, insertar algún tipo de código o marca invisible que ayude a detectar posteriormente aquello que fue generado por algún modelo de IA.

Pero aún está por verse si será posible o, si además de ser posible, se encontrará un método que no sea derrotado fácilmente por actores maliciosos.

La salvación no será tecnológica

La dificultad teórica no ha sido un impedimento para que empresas —a veces las mismas que crearon los modelos— lancen al mercado productos que afirman detectar contenido generado por IA.

Con ChatGPT aparecieron casi al mismo tiempo varias herramientas que prometían detectar texto generado por esta herramienta. La mayoría son fácilmente burlables, y hoy en día no se considera ninguna como fiable. Hasta la propia OpenAI reconoció esto y dio de baja la suya.

Para audio existen algunos de uso individual: Speech Classifier, AI or Not? o AI Voice Detector. Sin embargo, una prueba hecha por el medio estadounidense NPR encontró que estos detectores varían bastante en su efectividad, detectando apenas el 50 % de las muestras en un caso. Los detectores se vuelven mucho menos fiables cuando a la voz clonada se le añade música o ruido de fondo, algo sencillo de hacer con cualquier herramienta gratuita.

Para complicar aún más el escenario, tanto los modelos de IA generativa como sus posibles detectores vienen con un sesgo de origen: fueron entrenados con caras, voces y texto en inglés, principalmente, y son mucho menos eficaces en lidiar con, por ejemplo, el castellano latinoamericano.

Así también, un texto real en inglés redactado por una persona que no es hablante nativo de ese idioma, por cuestiones de sintaxis o errores gramaticales, tiende a ser marcado erróneamente como generado por IA.

Sin tecnología, es posible —todavía— reconocer los deepfakes de audio porque carecen de algunas particularidades del habla normal: repeticiones, suspiros, énfasis, etc. Para eso, no obstante, el oyente debe prestar mucha atención y conocer de antemano cómo habla la otra persona, condiciones que pocas veces se cumplen en nuestro contexto actual de consumo rápido y viralización de la información.

Una reforma legal quién sabe cuándo

En Paraguay los casos de deepfakes con IA circulan desde hace varios meses. No son pocas las personalidades, influencers y políticos que han sido blancos de intentos de utilizar sus rostros o voces.

publicación del Dr. David Mussi
Denuncia del médico David Mussi sobre un deepfake suyo (Captura: Instagram).

En junio pasado, el médico David Mussi alertó en un video sobre una publicidad fraudulenta en redes sociales que intentaba vender supuestos medicamentos milagrosos usando un deepfake de su rostro. Lo mismo le sucedió al infectólogo Tomás Mateo Balmelli. Los montajes eran poco convincentes, pero es cuestión de tiempo hasta que sea posible generar videos y audios indistinguibles de la realidad para efectos prácticos e inmediatos. La Fiscalía paraguaya recibe cada vez más denuncias de suplantación de identidad con IA, principalmente en redes sociales y aplicaciones de mensajería.

Pero los deepfakes no están tipificados en la legislación paraguaya. Antonia Bogado, abogada paraguaya que cursa una maestría en Gobernanza Ética de la Inteligencia Artificial en la Universidad Pontificia de Salamanca, opina que es necesaria una actualización tanto de la ley como de la práctica del derecho en el país.

“Si bien podría asimilarse a la figura del uso no autorizado de la imagen, fraude o daño al honor de una persona, especialmente si se emplean rostros o voces sin consentimiento, la aplicación presentaría desafíos significativos en términos de interpretación de sus elementos en relación con las características de estas manipulaciones digitales”, aseguró.

Según la especialista, puede ser extremadamente difícil para una víctima demostrar que el contenido se ha producido sin su consentimiento o que es falso, porque esto requeriría pruebas técnicas complejas, sin contar el costo de recurrir a la justicia paraguaya.

Antonia Bogado
Antonia Bogado, abogada y magíster (Foto: gentileza).

Servicios comerciales como el utilizado en este experimento generalmente requieren un registro y pago con tarjeta bancaria, lo cual eventualmente podría servir para rastrear la generación de un audio malicioso. También incorporan filtros de moderación o controles para evitar la clonación no autorizada de voces. Sin embargo, existen modelos de código abierto que pueden ser descargados gratuitamente para utilizarlos en computadoras de mediana gama. Si bien requieren un poco más de conocimiento técnico, pueden ser utilizados sin rastreo ni filtro alguno.

Para Bogado, fellow de la clínica del Center for AI and Digital Policy, es necesario “considerar un marco normativo específico que aborde las particularidades de este fenómeno, ya que la legislación actual puede no ser suficiente para afrontar las complejidades y efectos de la desinformación generada por estos de sistemas de IA”.

Es fundamental abordar las iniciativas legislativas al respecto con mucha cautela, según la abogada, sobre todo considerando que pueden tender a generar censura o colisionar con el derecho a la libertad de expresión. «Esto es importante, porque el contenido manipulado puede, en ocasiones, servir a propósitos legítimos y no engañosos, como la creación de sátira u otras formas de comentario o arte».

Por ejemplo, una campaña de Amnistía Internacional utilizó deepfakes de políticos españoles —claramente identificados como tales— para ironizar y llamar la atención sobre los derechos humanos en las elecciones generales de 2023.

Los esfuerzos regulatorios y legislativos en otros países no se han hecho esperar. La Comisión Federal de Comunicaciones de EE. UU. prohibió en febrero las llamadas telefónicas robotizadas que usen voces generadas por inteligencia artificial para evitar el spam de telemarketing y posibles abusos durante los comicios.

En Argentina y México se presentaron proyectos de ley para penalizar específicamente la creación de deepfakes sin autorización. En Paraguay, la Cámara de Senadores realizó una audiencia pública en octubre de 2023 para discutir un posible anteproyecto de ley de regulación de la IA. No obstante, consultado por Ciencia del Sur, la oficina del senador José Oviedo, impulsor de la iniciativa, respondió que no ha habido avances desde entonces.

Ortega aseguró a Ciencia del Sur que es urgente una regulación en Paraguay: “Solo con el avance de las fake news ya se ha hecho mucho daño. Si además se suman otros elementos, sin la regulación suficiente, puede conllevar que el uso de estas tecnologías desemboque en prácticas abusivas, autoritarias, y por supuesto, antidemocráticas”.

El uso de deepfakes políticos tal vez más delicado y complejo es durante elecciones como parte de campañas de desinformación; el tiempo de respuesta necesario es clave para evitar consecuencias irreversibles.

En las últimas elecciones parlamentarias de Eslovaquia, una serie de deepfakes de audio y video que aparecieron días antes probablemente contribuyeron a la victoria de un partido pro-Rusia, pese al desmentido. En Estados Unidos, funcionarios del sistema electoral están siendo entrenados para detectar y prepararse en las próximas elecciones presidenciales de noviembre.

El futuro de las elecciones con IA se puede ver en India. Los candidatos para las elecciones generales de abril enviaron más de 50 millones de llamadas telefónicas automatizadas con sus voces clonadas. En muchos casos la tecnología ayudó con la traducción, a conectar con votantes en un país de miles de dialectos, pero ¿sabían que estaban hablando con un clon de su candidato? ¿Quién velaba por la veracidad de las informaciones transmitidas?

Para Leonardo Gómez Berniga, abogado, docente y consultor en tecnopolítica y derechos humanos, “se están generando condiciones de desconfianza generalizada que podrían socavar directamente el funcionamiento de la institucionalidad democrática”.

Leonardo Gómez Berniga
Leonardo Gómez (Foto: @leoberniga).

Recordó que las últimas elecciones en Paraguay “nos llevó a ver que hay un volumen enorme de recursos que están entrando en el espacio digital y que no están teniendo rendición clara, transparente y desglosada. Tenemos actores que no son electorales, que no está registrando la Justicia Electoral y que influyen en elecciones, con cuentas de administración en otros países que forman parte de la industria de la influencia”.

Señaló también la responsabilidad de actores clave, las plataformas digitales donde se propaga la desinformación.

“Paraguay, por ser un país pequeño en el estadio de las naciones, no debe ser tímido en plantar exigencias. Necesitamos que estas plataformas tengan idealmente una presencia [física], una oficina y responsable, donde la justicia pueda diligenciar de manera pronta y activa cualquier preocupación frente a lo que a lo que acontece […] Para proteger la democracia —en un sentido amplio— necesitamos que estas plataformas también tengan prácticas democráticas en Paraguay y rindan cuentas”.

Desde el Tribunal Superior de Justicia Electoral (TSJE) hay una tímida iniciativa. En agosto anunció la creación de una “unidad de lucha contra la desinformación” en alianza con Meta, dueña de Facebook e Instagram, pero no está claro el alcance ni las acciones concretas de dicha unidad. En el proyecto de ley de reforma electoral presentado por el TSJE recientemente brillan por su ausencia mecanismos para transparentar el financiamiento político.

Más allá de lo regulatorio, Gómez y Luis Benítez coinciden en la necesidad de un nuevo pacto ético que involucre al Estado, las empresas, los medios de comunicación y la sociedad civil. La alfabetización digital deberá ser una piedra fundamental en cualquier esfuerzo.

“El tema está en aprender cómo tomar la información válida en internet. Es un proceso que de alguna manera se tiene que reeducar a toda la población”, explicó Benítez con una sensación de urgencia de quien no ve avances a nivel técnico. “El lobby de las corporaciones está haciendo que este proceso se dilate aún más. Nada se está implementando desde el punto de vista algorítmico”.

En un artículo académico, Benítez argumentó que no podemos esperar a la acción gubernamental para la gobernanza de la IA en Paraguay. “Si el gobierno no logra implementar las reformas necesarias con la rapidez requerida, es vital que la sociedad civil tome la iniciativa de manera urgente”, concluyó.

Una carga pesada para tiempos difíciles. La sociedad civil organizada se encuentra en abierta persecución por parte del partido de gobierno, más preocupado por amenazas ilusorias que por preparar al país para un futuro que ya llegó.

 

¿Qué te pareció este artículo?

1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (2 votos, promedio: 5,00 de 5)

Cofundador y editor general de Ciencia del Sur. Comunicador, docente universitario, traductor y divulgador, estudió filosofía en la Universidad Nacional de Asunción y ciencias de la computación en la Universidad París XI. Ha sido reportero y editor de portales de noticias latinoamericanos en español e inglés.

Compartir artículo:

1 COMENTARIO

Dejar un comentario

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí