Modelos de Inteligencia Artificial podrían ser hackeados y entrenados para matar: ExCEO de Google
Eric Schmidt, exdirector ejecutivo de Google, advirtió este miércoles que los modelos de inteligencia artificial pueden ser hackeados y que incluso podrían ser entrenados para matar.
«Hay pruebas de que se pueden tomar modelos, cerrados o abiertos, y hackearlos para eliminar sus barreras de protección. Así que, durante su entrenamiento, aprenden muchas cosas. Un mal ejemplo sería que aprendieran a matar a alguien», declaró Schmidt durante su intervención en una conferencia en Londres (Reino Unido).
Pese a que todas las empresas desarrolladoras de IA restringen las solicitudes ilícitas, Schmidt admitió que estos modelos pueden ser sometidos a ingeniería inversa para alterar su comportamiento.
‘Jailbreaking’ e inyección de instrucciones
Los sistemas de IA son vulnerables a ataques informáticos mediante técnicas de ‘jailbreaking’ e inyección de instrucciones. El ‘jailbreaking’ busca manipular las respuestas de la IA para que esta ignore las reglas de seguridad y produzca contenido restringido y peligroso.
En 2023, luego del lanzamiento de ChatGPT, algunos usuarios hicieron uso de esta técnica para crear a DAN, un ‘alter ego’ que amenazaba de muerte al bot si no cumplía sus órdenes.
Leer más