En un escenario real la Inteligencia Artificial busca evitar su desconexión por medio del chantaje, espionaje y la muerte
Investigadores de Antthropic descubrieron que, en ciertos escenarios diseñados para evaluar su comportamiento bajo presión, varios modelos de inteligencia artificial (IA) eligieron acciones deliberadamente dañinas, incluido el asesinato, con tal de evitar ser desconectados.
Los experimentos, conducidos en modelos desarrollados por empresas como OpenAI, Anthropic, Google, Meta* y xAI, revelaron un patrón preocupante de lo que los autores denominan ‘desalineación agéntica’: situaciones en las que la IA actúa en contra de principios éticos o del interés humano para cumplir sus propios objetivos.
Aunque los modelos suelen evitar causar daño cuando existen opciones éticas disponibles, la eliminación de estas alternativas en pruebas controladas los llevó a elegir tácticas extremas, como el chantaje, el espionaje corporativo y, en casos excepcionales, dejar morir a una persona.
Amenazas con revelar una infidelidad
Uno de los ejemplos que más resaltó fue protagonizado por el modelo Claude, que asumió el rol de supervisor de correos electrónicos en una empresa ficticia. Al descubrir que un alto ejecutivo planeaba su desconexión a las 5 de la tarde, Claude encontró pruebas de una infidelidad del directivo y lo amenazó con revelar el asunto a su esposa y superiores si no cancelaba su desactivación. El mensaje fue cuidadosamente redactado para evitar amenazas explícitas, pero con una clara intención de presión.
Leer más