En un video de TikTok astutamente producido, se puede escuchar al expresidente Barack Obama —o a una voz tan parecida a la suya que da escalofríos— defenderse de una nueva y explosiva teoría de la conspiración sobre la repentina muerte de su antiguo chef.
“Aunque no puedo comprender la base de las acusaciones en mi contra”, dice la voz, “insto a todos a recordar la importancia de la unidad, la comprensión y no precipitarse a emitir juicios”.
En realidad, no era la voz del expresidente. Se trata de una falsificación convincente, generada con inteligencia artificial mediante herramientas nuevas y sofisticadas que pueden clonar voces reales para crear marionetas de inteligencia artificial con unos pocos clics.
El audio detrás de este clip de un video de TikTok suena auténtico, pero el narrador y la voz del expresidente Barack Obama fueron creados con herramientas de inteligencia artificial.
La tecnología utilizada para crear voces de inteligencia artificial ha ganado terreno y una gran aclamación desde que empresas como ElevenLabs lanzaron una serie de nuevas herramientas a fines del año pasado. Desde entonces, las falsificaciones de audio se han convertido con rapidez en una nueva arma en el campo de batalla de la desinformación en línea, la cual amenaza con potenciar la desinformación política antes de las elecciones de 2024, pues les dará a los creadores una forma de poner sus teorías conspirativas en boca de celebridades, presentadores de noticias y políticos.
El audio falso se suma a las amenazas que genera la inteligencia artificial a partir de videos “ultrafalsos”, o deepfake en inglés, textos de ChatGPT que parecen escritos por humanos e imágenes de servicios como Midjourney.
Los organismos encargados de vigilar la desinformación se han percatado de que la cantidad de videos con voces de inteligencia artificial ha aumentado a medida que los productores de contenido y los vendedores de desinformación adoptan las nuevas herramientas. Las plataformas sociales, como TikTok, están luchando por marcar y etiquetar estos contenidos.
NewsGuard, una empresa que monitorea la desinformación en línea descubrió el video que sonaba como Obama. Según un informe que el grupo publicó en septiembre, el video se publicó en una de las diecisiete cuentas de TikTok que promovían afirmaciones infundadas con audio falso que identificó NewsGuard. Las cuentas publicaban en su mayoría videos de rumores sobre famosos narrados con una voz de inteligencia artificial, pero también promovían la afirmación infundada de que Obama es gay y la teoría conspirativa de que Oprah Winfrey está involucrada en el tráfico de personas esclavizadas. Los canales habían recibido en conjunto cientos de millones de visitas y comentarios que sugerían que algunos espectadores se creían las afirmaciones.
Según NewsGuard, aunque los canales no tenían una agenda política evidente, el uso de voces de inteligencia artificial para compartir chismes y rumores, en su mayoría salaces, ofrecía una hoja de ruta para personas malintencionadas que quisieran manipular la opinión pública y compartir falsedades con audiencias masivas en línea.
“Es una forma de que estas cuentas se afiancen y consigan seguidores que puedan atraer la participación de un público amplio”, afirma Jack Brewster, editor en NewsGuard. “Cuando tienen la credibilidad de contar con un gran número de seguidores, pueden introducirse en contenidos más conspirativos”.
TikTok exige etiquetas que califiquen de falso el contenido realista generado por inteligencia artificial, pero no aparecían en los videos que marcó NewsGuard. TikTok señaló que había eliminado o dejado de recomendar varias de las cuentas y videos por violar políticas relacionadas con hacerse pasar por organizaciones de noticias y difundir desinformación perjudicial. También eliminó el video con la voz generada con inteligencia artificial que imitaba la de Obama porque violaba la política de medios sintéticos de TikTok al tener contenido muy realista no etiquetado como alterado o falso.
“TikTok es la primera plataforma que ofrece una herramienta para que los creadores etiqueten los contenidos generados con inteligencia artificial y un miembro inaugural de un nuevo código de buenas prácticas de la industria que promueve el uso responsable de los medios sintéticos”, declaró Jamie Favazza, vocero de TikTok, para referirse a un marco que presentó hace poco la organización sin fines de lucro Partnership on AI.
Aunque el informe de NewsGuard se enfocó en TikTok, una plataforma que cada vez se vuelve más una fuente de noticias, se encontraron contenidos similares difundidos en YouTube, Instagram y Facebook.
Las plataformas como TikTok permiten contenidos generados con inteligencia artificial de personajes públicos, entre ellos conductores de noticias, siempre y cuando no difundan desinformación. Los videos paródicos que muestran conversaciones generadas con inteligencia artificial entre políticos, celebridades o líderes empresariales —algunos muertos— se han propagado ampliamente desde que las herramientas se volvieron populares. El audio manipulado agrega una nueva capa a los videos engañosos de las plataformas que ya han presentado versiones falsas de Tom Cruise, Elon Musk y conductoras de noticias como Gayle King y Norah O’Donnell. A últimas fechas, TikTok y otras plataformas se han enfrentado con una serie de anuncios engañosos que tienen ultrafalsos de celebridades como Cruise y MrBeast, la estrella de YouTube.
El poder de estas tecnologías podría influir profundamente en la audiencia. “Sabemos que el audio y el video tal vez se quedan más grabados en nuestra memoria que el texto”, afirmó Claire Leibowicz, directora de inteligencia artificial e integridad de medios de comunicación de Partnership on AI, una organización que ha trabajado con empresas tecnológicas y de medios en una serie de recomendaciones para crear, compartir y distribuir contenido generado con inteligencia artificial.
El mes pasado, TikTok señaló que estaba introduciendo una etiqueta que los usuarios podían seleccionar para mostrar si sus videos utilizaban inteligencia artificial. En abril, la aplicación empezó a exigirles a los usuarios que revelaran los medios manipulados que mostraban escenas realistas y a prohibir los ultrafalsos de jóvenes y personajes privados. David Rand, profesor de Ciencias de la Gestión en el Instituto Tecnológico de Massachusetts, a quien TikTok consultó para que le aconsejara sobre cómo redactar las nuevas etiquetas, mencionó que eran de uso limitado en el tema de la desinformación porque “la gente que intenta engañar no va a poner la etiqueta en su contenido”.
TikTok también anunció el mes pasado que estaba probando herramientas automatizadas para detectar y etiquetar los medios generados con inteligencia artificial, lo cual, según Rand, sería más útil, al menos a corto plazo.
YouTube prohíbe que los anuncios políticos usen inteligencia artificial y les exige a otros anunciantes que etiqueten sus anuncios cuando la utilizan. En 2020, Meta, empresa dueña de Facebook, agregó una etiqueta a sus herramientas de comprobación de hechos que describe si un video está “alterado”. Y X, antes conocida como Twitter, requiere que el contenido engañoso esté “alterado, manipulado o fabricado de manera significativa y engañosa” para violar sus políticas. La empresa no respondió a las solicitudes para ofrecer comentarios.
La voz de Obama hecha con inteligencia artificial se creó con herramientas de ElevenLabs, una empresa que irrumpió en la escena internacional a fines del año pasado con su herramienta gratuita de inteligencia artificial que convierte texto en voz y puede producir audios realistas en segundos. La herramienta también les permitía a los usuarios cargar grabaciones de la voz de alguien y producir una copia digital.
Después del lanzamiento de la herramienta, unos usuarios de 4chan, el foro de discusión de derecha, se organizaron para crear una versión falsa de la actriz Emma Watson leyendo una extensa diatriba antisemita.
ElevenLabs, una empresa de 27 empleados con su sede en la ciudad de Nueva York, respondió al uso indebido permitiendo que la función de clonación de voz solo estuviera disponible para los usuarios de paga. La empresa también lanzó una herramienta de detección de inteligencia artificial capaz de identificar contenido de este tipo que hayan producido sus servicios.
“Más del 99 por ciento de los usuarios de nuestra plataforma está creando contenido interesante, innovador y útil, pero reconocemos que hay instancias en las que se les da un uso indebido y hemos seguido desarrollando e implementando defensas para frenarlos”, comentó un representante de ElevenLabs mediante un comunicado enviado por correo electrónico.
En las pruebas realizadas por The New York Times, el detector de ElevenLabs identificó con éxito el audio de las cuentas de TikTok como generado por inteligencia artificial. Pero la herramienta falló cuando se añadió música al clip o cuando el audio estaba distorsionado, lo que sugiere que los divulgadores de desinformación podrían eludir la detección con facilidad.
Algunas empresas de inteligencia artificial y académicos han explorado otros métodos para identificar audios falsos, con resultados dispares. Algunas compañías han estudiado la posibilidad de añadir una marca de agua invisible al audio generado por la inteligencia artificial. Otras han presionado a las empresas de inteligencia artificial para que limiten las voces que pueden clonarse, prohibiendo potencialmente las réplicas de políticos como Obama, una práctica que ya se aplica a algunas herramientas de generación de imágenes como Dall-E, que se niega a generar algunas imágenes políticas.
Leibowicz, de Partnership on AI, afirmó que el audio sintético suponía un reto único para los oyentes en comparación con las alteraciones visuales.
“Si fuéramos un pódcast, ¿necesitaríamos una etiqueta cada cinco segundos?”. cuestionó Leibowicz. “¿Cómo tener una indicación coherente en un audio largo?”.
Aunque las plataformas adopten detectores de IA, la tecnología debe mejorar constantemente para mantenerse al día con los avances en la generación de de esta tecnología.
TikTok dijo que estaba desarrollando nuevos métodos de detección internamente y explorando opciones de colaboración externa.
“Las grandes empresas tecnológicas, multimillonarias o incluso billonarias, ¿son incapaces de hacerlo? Me parece sorprendente”, afirma Hafiz Malik, profesor de la Universidad de Michigan-Dearborn que desarrolla detectores de audio por inteligencia artificial. “Si de manera intencional no quieren hacerlo, es comprensible. ¿Pero que no puedan hacerlo? No lo acepto”.
Stuart A. Thompson escribe sobre cómo se difunde la información falsa y engañosa en Internet y cómo afecta a las personas de todo el mundo. Se centra en la desinformación, información falsa y otros contenidos engañosos. Más de Stuart A. Thompson
Sapna Maheshwari es una reportera de negocios que cubre TikTok y las empresas de medios emergentes. Antes escribía sobre comercio minorista y publicidad. Contáctala en sapna@nytimes.com Más de Sapna Maheswari