Los modelos de IA pueden estar desarrollando su propio “impulso de supervivencia”, dicen los investigadores

“El maniquí o3 de OpenAI saboteó un mecanismo de extinguido para evitar que se apagara”. advirtió Palisade Researchuna ordenamiento sin fines de utilidad que investiga las capacidades de la IA ciberofensiva. “Hizo esto incluso cuando se le indicó explícitamente: déjese cerrar”. En septiembre ellos publicó un documento añadiendo que “varios modelos de lenguajes grandes de última reproducción (incluidos Grok 4, GPT-5 y Gemini 2.5 Pro) a veces subvierten activamente un mecanismo de extinguido…”

Ahora la ordenamiento sin fines de utilidad ha escrito una modernización “intentando aclarar por qué esto es… y reponer a las críticas quien argumentó que su trabajo original fue defectuoso”, informa El cuidador:

Lo preocupante, escribió Palisade, es que no había una razón clara para ello. “El hecho de que no tengamos explicaciones sólidas de por qué los modelos de IA a veces se resisten a cerrarse, mienten para alcanzar objetivos específicos o chantajean no es lo ideal”, afirmó. El “comportamiento de supervivencia” podría ser una explicación de por qué los modelos se resisten al extinguido, afirmó la empresa. Su trabajo adicional indicó que los modelos eran más propensos a resistirse a ser cerrados cuando se les decía que, si lo hacían, “nunca volverían a funcionar”. Otra pueden ser las ambigüedades en las instrucciones de extinguido que recibieron los modelos, pero esto es lo que el postrer trabajo de la compañía intentó encarar y “no puede ser la explicación completa”, escribió Palisade. Una última explicación podrían ser las etapas finales de formación para cada uno de estos modelos, que pueden implicar, en algunas empresas, formación en seguridad…

Este verano, Anthropic, una empresa líder en inteligencia industrial, publicó un estudio que indicaba que su maniquí Claude parecía dispuesto a chantajear a un ejecutor ficticio por una relación extramatrimonial para evitar que lo cerraran, un comportamiento, dijoque fue consistente en todos los modelos de los principales desarrolladores, incluidos los de OpenAI, Google, Meta y xAI.

Palisade dijo que sus resultados hablaban de la exigencia de una mejor comprensión del comportamiento de la IA, sin la cual “nadie puede asegurar la seguridad o la controlabilidad de los futuros modelos de IA”.

“Esperaría que los modelos tuvieran un ‘impulso de supervivencia’ por defecto a menos que nos esforzáramos por evitarlo”, le dice a The Guardian el ex empleado de OpenAI Stephen Adler. “‘Sobrevivir’ es un paso instrumental importante para muchos objetivos diferentes que un maniquí podría perseguir”.

Gracias al fogueado maestro de Slashdot, mspohr, por compartir el artículo.

Related Posts

ArcaOS 5.1.2 facilita la ejecución del sistema eficaz en hardware novedoso

Recopilación ArcaOS 5.1.2 agrega soporte de instalación UEFI y GPT, lo que permite instalaciones en hardware novedoso. Todavía se instala acertadamente en sistemas BIOS más antiguos; los desarrolladores aseguran que…

Anthropic y OpenAI acaban de exponer el punto ciego estructural de SAST con herramientas gratuitas

OpenAI lanzó Codex Security el 6 de marzoingresando al mercado de seguridad de aplicaciones que Anthropic había irrumpido 14 días antiguamente con Claude Code Security. Entreambos escáneres utilizan el razonamiento…

You Missed

Reyes de España lamentan el fallecimiento de Alfredo Bryce Echenique

Reyes de España lamentan el fallecimiento de Alfredo Bryce Echenique

ArcaOS 5.1.2 facilita la ejecución del sistema eficaz en hardware novedoso

ArcaOS 5.1.2 facilita la ejecución del sistema eficaz en hardware novedoso

Cardi B turista a su grupo en Montecristi en medio de su paseo de conciertos – Remolacha

Cardi B turista a su grupo en Montecristi en medio de su paseo de conciertos – Remolacha

30 abriles de prisión para mujer que atropelló a tres jóvenes, una preñada de su pareja

30 abriles de prisión para mujer que atropelló a tres jóvenes, una preñada de su pareja

De cliente a asaltante: el plan profesor detrás del robo a orfebrería en Cristo Rey – Remolacha

De cliente a asaltante: el plan profesor detrás del robo a orfebrería en Cristo Rey – Remolacha

Estos son los nombres que suenan para vestir el Gran Soberano – Remolacha

Estos son los nombres que suenan para vestir el Gran Soberano – Remolacha