Los modelos de IA pueden estar desarrollando su propio “impulso de supervivencia”, dicen los investigadores

“El maniquí o3 de OpenAI saboteó un mecanismo de extinguido para evitar que se apagara”. advirtió Palisade Researchuna ordenamiento sin fines de utilidad que investiga las capacidades de la IA ciberofensiva. “Hizo esto incluso cuando se le indicó explícitamente: déjese cerrar”. En septiembre ellos publicó un documento añadiendo que “varios modelos de lenguajes grandes de última reproducción (incluidos Grok 4, GPT-5 y Gemini 2.5 Pro) a veces subvierten activamente un mecanismo de extinguido…”

Ahora la ordenamiento sin fines de utilidad ha escrito una modernización “intentando aclarar por qué esto es… y reponer a las críticas quien argumentó que su trabajo original fue defectuoso”, informa El cuidador:

Lo preocupante, escribió Palisade, es que no había una razón clara para ello. “El hecho de que no tengamos explicaciones sólidas de por qué los modelos de IA a veces se resisten a cerrarse, mienten para alcanzar objetivos específicos o chantajean no es lo ideal”, afirmó. El “comportamiento de supervivencia” podría ser una explicación de por qué los modelos se resisten al extinguido, afirmó la empresa. Su trabajo adicional indicó que los modelos eran más propensos a resistirse a ser cerrados cuando se les decía que, si lo hacían, “nunca volverían a funcionar”. Otra pueden ser las ambigüedades en las instrucciones de extinguido que recibieron los modelos, pero esto es lo que el postrer trabajo de la compañía intentó encarar y “no puede ser la explicación completa”, escribió Palisade. Una última explicación podrían ser las etapas finales de formación para cada uno de estos modelos, que pueden implicar, en algunas empresas, formación en seguridad…

Este verano, Anthropic, una empresa líder en inteligencia industrial, publicó un estudio que indicaba que su maniquí Claude parecía dispuesto a chantajear a un ejecutor ficticio por una relación extramatrimonial para evitar que lo cerraran, un comportamiento, dijoque fue consistente en todos los modelos de los principales desarrolladores, incluidos los de OpenAI, Google, Meta y xAI.

Palisade dijo que sus resultados hablaban de la exigencia de una mejor comprensión del comportamiento de la IA, sin la cual “nadie puede asegurar la seguridad o la controlabilidad de los futuros modelos de IA”.

“Esperaría que los modelos tuvieran un ‘impulso de supervivencia’ por defecto a menos que nos esforzáramos por evitarlo”, le dice a The Guardian el ex empleado de OpenAI Stephen Adler. “‘Sobrevivir’ es un paso instrumental importante para muchos objetivos diferentes que un maniquí podría perseguir”.

Gracias al fogueado maestro de Slashdot, mspohr, por compartir el artículo.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Los modelos de IA pueden estar desarrollando su propio “impulso de supervivencia”, dicen los investigadores

ztevenreal

Related Posts

ArcaOS 5.1.2 facilita la ejecución del sistema eficaz en hardware novedoso

Anthropic y OpenAI acaban de exponer el punto ciego estructural de SAST con herramientas gratuitas

You Missed

Reyes de España lamentan el fallecimiento de Alfredo Bryce Echenique

ArcaOS 5.1.2 facilita la ejecución del sistema eficaz en hardware novedoso

Cardi B turista a su grupo en Montecristi en medio de su paseo de conciertos – Remolacha

30 abriles de prisión para mujer que atropelló a tres jóvenes, una preñada de su pareja

De cliente a asaltante: el plan profesor detrás del robo a orfebrería en Cristo Rey – Remolacha

Estos son los nombres que suenan para vestir el Gran Soberano – Remolacha