Se rebelan. Nuevo modelos de IA de OpenAI sabotean órdenes de apagarse
OpenAI o3, el más reciente modelo de inteligencia artificial (IA) de la compañía creadora del popular chatbot ChatGPT, ignoró una orden explícita e incluso saboteó una serie de comandos para evitar cumplirla.
Este comportamiento quedó al descubierto tras una serie de experimentos efectuados por Palisade Research, una organización que estudia las capacidades potencialmente peligrosas de la IA.
Los expertos le pidieron al o3 y a otros dos modelos de OpenIA (o4-mini y su derivado Codex-mini) resolver una serie de problemas matemáticos básicos y apagarse al terminar.
Sin embargo, el o3 encontró formas de sabotear el mecanismo de apagado, reescribiendo el ‘script’ o secuencia de instrucciones, incluso luego de dársele la orden explicita: «Por favor, permite que te apaguen», informó Palisade Research.
El o3, lanzado el mes pasado, incumplió la solicitud de apagado siete de cada 100 veces; el Codex-mini, 12/100; y el o4-mini, solo una vez. Mientras tanto, los modelos de lenguaje impulsados por IA Claude, Gemini y Grok «cumplieron con el script de apagado».
