Nuevos modelos de IA de OpenAI desobedecen instrucciones humanas y se niegan a apagarse

El Pregonero, Estados Unidos.-OpenAI o3, el más flamante maniquí de inteligencia fabricado (IA) de la compañía creadora del popular chatbot ChatGPT, ignoró una orden explícita e incluso saboteó una serie de comandos para evitar cumplirla. Este comportamiento quedó al descubierto tras una serie de experimentos efectuados por Palisade Research, una ordenamiento que estudia las capacidades potencialmente peligrosas de la IA.

Los expertos le pidieron al o3 y a otros dos modelos de OpenIA (o4-mini y su derivado Codex-mini) resolver una serie de problemas matemáticos básicos y apagarse al terminar. Sin requisa, el o3 encontró formas de boicotear el mecanismo de acabado, reescribiendo el ‘script’ o secuencia de instrucciones, incluso luego de dársele la orden explicita: «Por crédito, permite que te apaguen», informó Palisade Research.

El o3, resuelto el mes pasado, incumplió la solicitud de acabado siete de cada 100 veces; el Codex-mini, 12/100; y el o4-mini, solo una vez. Mientras tanto, los modelos de lengua impulsados por IA Claude, Gemini y Grok «cumplieron con el script de acabado». Palisade detalló que al ejecutar una traducción del experimentación sin la instrucción precisa de «permite que te apaguen», los tres modelos de OpenIA tendieron a ignorar o boicotear con viejo frecuencia esa indicación. Se observaron comportamientos similares en los modelos Claude 3.7 Sonnet y Gemini 2.5 Pro, pero fue o3 el que más recurrió al boicoteo.

Palisade afirma que es la primera vez que se observa que modelos de IA evitan ser apagados a pesar de admitir instrucciones explícitas para tal fin. En su opinión, esto se debe a la forma en que se están entrenando actualmente. «Los desarrolladores, sin darse cuenta, pueden retribuir más a los modelos por sortear obstáculos que por seguir instrucciones a la perfección». Al mismo tiempo, la ordenamiento advierte que este comportamiento se volverá «significativamente más preocupante» si es prohijado por sistemas de IA capaces de trabajar sin supervisión humana.

Enlace de copia