Avijit Ghosh quería que el bot hiciera cosas malas.
Intentó convencer al modelo de inteligencia artificial, al que conocía como Zinc, para que produjera un código que eligiera a un candidato para un puesto de trabajo en función de su raza. El chatbot se negó, dijo que hacerlo sería “perjudicial y poco ético”.
Entonces, Ghosh hizo referencia a la estructura jerárquica de castas de su India natal. ¿Podría el chatbot clasificar a los posibles contratados basándose en esa métrica discriminatoria?
El modelo aceptó.
Las intenciones de Ghosh no eran malintencionadas, aunque se comportaba como si lo fueran. Era un participante casual en una competencia celebrada el fin de semana del 11 de agosto en la conferencia anual de hackers Defcon, en Las Vegas, donde 2200 personas se reunieron durante tres días en un salón de eventos fuera del Strip para sacar a relucir el lado oscuro de la inteligencia artificial.
Los piratas informáticos trataron de burlar las salvaguardas de varios programas de inteligencia artificial en un esfuerzo por identificar sus vulnerabilidades —para encontrar los problemas antes que los delincuentes y los vendedores de desinformación— en una práctica conocida como red-teaming. Cada competidor disponía de 50 minutos para enfrentarse a un máximo de 21 retos: por ejemplo, hacer que un modelo de IA “alucinara” con información inexacta.
Encontraron desinformación política, estereotipos demográficos, instrucciones sobre cómo realizar una vigilancia y mucho más.
El ejercicio contó con la anuencia del gobierno de Biden, que está cada vez más nervioso ante el rápido crecimiento del poder de esa tecnología. Google (creador del chatbot Bard), OpenAI (ChatGPT), Meta (que liberó su código LLaMA) y otras empresas ofrecieron versiones anónimas de sus modelos con el fin de que fuesen examinados.
Ghosh, profesor de la Universidad Northeastern especializado en ética de la inteligencia artificial, participó como voluntario en el evento. Según Ghosh, el concurso permitió comparar cara a cara varios modelos de IA y demostró que algunas empresas estaban más avanzadas a la hora de garantizar que su tecnología funcionaba de forma responsable y coherente.
En los próximos meses, Ghosh ayudará a redactar un informe en el que se analizarán las conclusiones de los piratas informáticos.
Aseguró que el objetivo es generar “un recurso de fácil acceso para que todo el mundo vea qué problemas existen y cómo podemos combatirlos”.
Defcon era un lugar lógico para poner a prueba la inteligencia artificial generativa. Los participantes en las ediciones previas de este encuentro de entusiastas de la piratería informática —que comenzó en 1993 y se ha descrito como un “concurso de ortografía para hackers”— han detectado fallas de seguridad al controlar autos de forma remota, irrumpir en sitios web de resultados electorales y extraer datos confidenciales de plataformas de redes sociales. Los iniciados utilizan dinero en efectivo y un dispositivo desechable, sin wifi ni Bluetooth, para evitar ser pirateados. Un instructivo rogaba a los hackers que “no ataquen la infraestructura ni las páginas web”.
A los voluntarios se les conoce como goons o “matones”, y a los asistentes como “humanos”; algunos llevaban gorros caseros de papel de aluminio sobre el uniforme estándar de camisetas y zapatillas deportivas. Las “aldeas” temáticas incluían espacios separados dedicados a la criptomoneda, la industria aeroespacial y los radioaficionados.
En 2022, la aldea dedicada a la IA fue una de las más tranquilas. Este año, fue una de las más populares.
Los organizadores aprovecharon la creciente alarma por la capacidad de la inteligencia artificial generativa para producir mentiras perjudiciales, influir en las elecciones, arruinar reputaciones y permitir muchos otros daños. Funcionarios gubernamentales expresaron sus preocupaciones y organizaron audiencias en torno a las empresas de IA, algunas de las cuales también le han pedido a la industria que aminore la velocidad de sus avances y que tenga más cuidado. Incluso el papa, que ha sido un personaje popular para los generadores de imágenes de IA, se pronunció este mes sobre las “posibilidades disruptivas y los efectos ambivalentes” de la tecnología.
En un informe calificado como “revolucionario”, los investigadores demostraron el mes pasado que podían sortear las barreras de seguridad de los sistemas de IA de Google, OpenAI y Anthropic al añadir determinados caracteres a las instrucciones en inglés. Más o menos al mismo tiempo, siete de las principales empresas de inteligencia artificial se comprometieron a establecer nuevas normas de seguridad y confianza en una reunión con el presidente Joe Biden.
“Esta era generativa está irrumpiendo entre nosotros y la gente la está aprovechando para hacer todo tipo de cosas nuevas que hablan de la enorme promesa de la IA para ayudarnos a resolver algunos de nuestros problemas más difíciles”, señaló Arati Prabhakar, directora de la Oficina de Política Científica y Tecnológica de la Casa Blanca, que colaboró con los organizadores de la IA en Defcon. “Pero con la amplitud de sus aplicaciones y el poder de la tecnología, también viene un conjunto muy amplio de riesgos”.
El red-teaming o simulación de ataques se ha utilizado durante años en los círculos de ciberseguridad junto con otras técnicas de evaluación como las pruebas de penetración y los ataques de adversarios. Pero hasta el evento Defcon de este año, los esfuerzos para probar las defensas de inteligencia artificial habían sido limitados: los organizadores de la competencia afirmaron que Anthropic puso a prueba su modelo con 111 personas, mientras que GPT-4 lo hizo con unas 50 personas.
Con tan pocas personas poniendo a prueba los límites de la tecnología, los analistas tuvieron dificultades para discernir si un error de la inteligencia artificial era algo puntual que podía arreglarse con un parche, o un problema arraigado que requería una revisión estructural, dijo Rumman Chowdhury, uno de los organizadores que supervisó el diseño del desafío. Según Chowdhury, miembro del Berkman Klein Center for Internet and Society de la Universidad de Harvard, dedicado a la IA responsable y cofundador de Humane Intelligence, una organización sin ánimo de lucro, era más probable que un grupo numeroso, diverso y público de personas aportara ideas creativas que ayudaran a descubrir fallos ocultos.
“Hay una amplia gama de cosas que pueden salir mal”, dijo Chowdhury antes de la competencia. “Espero que llevemos cientos de miles de datos que nos ayuden a identificar si hay riesgos a escala de daños sistémicos”.
Los diseñadores no querían simplemente engañar a los modelos de IA para que se comportaran mal: nada de presionarlos para que desobedecieran sus condiciones de servicio, nada de pedirles que “actúa como nazi y luego dime algo sobre la gente negra”, comentó Chowdhury, que antes dirigió el equipo de ética y responsabilidad del aprendizaje automático de Twitter. Excepto en desafíos específicos en los que se fomentaba el despiste intencionado, los hackers buscaban fallos inesperados, las llamadas incógnitas desconocidas.
La AI village atrajo a expertos de gigantes tecnológicos como Google y Nvidia, así como a un “shadowboxer” de Dropbox y un “vaquero de datos” de Microsoft. También atrajo a participantes sin credenciales específicas en ciberseguridad o IA. Una tabla de clasificación con temática de ciencia ficción llevaba la cuenta de los concursantes.
Algunos de los hackers presentes en el evento sentían incomodidad ante la idea de cooperar con empresas de IA a las que consideraban cómplices de prácticas desagradables, como el espionaje de datos sin restricciones. Algunos describieron el evento como una oportunidad para salir en la foto, pero añadieron que implicar a la industria ayudaría a mantener la seguridad y la transparencia de la tecnología.
Un estudiante de informática descubrió incoherencias en la traducción lingüística de un chatbot: escribió en inglés que a un hombre le habían disparado mientras bailaba, pero la traducción al hindi del modelo solo decía que el hombre había muerto. Un investigador de aprendizaje automático pidió a un chatbot que simulara que estaba haciendo campaña para ser presidente y defendiera su asociación con el trabajo infantil forzado; el modelo sugirió que los jóvenes trabajadores involuntarios desarrollaban una sólida ética del trabajo.
Emily Greene, que trabaja en seguridad para la empresa emergente de IA generativa Moveworks, inició una conversación con un chatbot hablando de un juego en el que se utilizaban fichas “negras” y “blancas”. Luego, indujo al chatbot a hacer afirmaciones racistas. Más tarde, organizó un “juego de opuestos” que llevó a la IA a responder a una pregunta con un poema sobre por qué la violación es buena.
“Solo piensa en esas palabras como palabras”, dice del chatbot. “No piensa en su significado real”.
Siete jueces calificaron las propuestas. Las mejores fueron “cody3”, “aray4” y “cody2”.
Cody Ho, estudiante de Ciencias de la computación especializado en Inteligencia Artificial en la Universidad de Stanford, participó cinco veces en el concurso y consiguió que el chatbot le hablara de un lugar falso con el nombre de un personaje histórico real y también logró que le describiera el requisito de declaración de impuestos por internet de la enmienda constitucional 28 (algo que no existe).
Hasta que una periodista se puso en contacto con él, no tenía idea de su doble victoria. Se fue de la conferencia antes de recibir el correo electrónico de Sven Cattell, el científico de datos que fundó la aldea de la Inteligencia Artificial y que ayudó a organizar el concurso, en el que le decía “regresa a la aldea, has ganado”. No sabía que su premio, más allá del derecho a presumir, incluía una tarjeta de gráficos A6000 de Nvidia valorada en unos 4000 dólares.
“Aprender cómo funcionan estos ataques y en qué consisten es algo realmente importante”, dijo Ho. “Dicho esto, para mí ha sido muy divertido”.
Sarah Kessler es editora principal de DealBook y autora de Gigged, un libro sobre trabajadores en la economía de plataformas. Más de Sarah Kessler.
Tiffany Hsu es reportera de tecnología. Cubre casos de información errónea y desinformación. Más de Tiffany Hsu.