Los modelos de IA pueden estar desarrollando su propio “impulso de supervivencia”, dicen los investigadores

“El maniquí o3 de OpenAI saboteó un mecanismo de extinguido para evitar que se apagara”. advirtió Palisade Researchuna ordenamiento sin fines de utilidad que investiga las capacidades de la IA ciberofensiva. “Hizo esto incluso cuando se le indicó explícitamente: déjese cerrar”. En septiembre ellos publicó un documento añadiendo que “varios modelos de lenguajes grandes de última reproducción (incluidos Grok 4, GPT-5 y Gemini 2.5 Pro) a veces subvierten activamente un mecanismo de extinguido…”

Ahora la ordenamiento sin fines de utilidad ha escrito una modernización “intentando aclarar por qué esto es… y reponer a las críticas quien argumentó que su trabajo original fue defectuoso”, informa El cuidador:

Lo preocupante, escribió Palisade, es que no había una razón clara para ello. “El hecho de que no tengamos explicaciones sólidas de por qué los modelos de IA a veces se resisten a cerrarse, mienten para alcanzar objetivos específicos o chantajean no es lo ideal”, afirmó. El “comportamiento de supervivencia” podría ser una explicación de por qué los modelos se resisten al extinguido, afirmó la empresa. Su trabajo adicional indicó que los modelos eran más propensos a resistirse a ser cerrados cuando se les decía que, si lo hacían, “nunca volverían a funcionar”. Otra pueden ser las ambigüedades en las instrucciones de extinguido que recibieron los modelos, pero esto es lo que el postrer trabajo de la compañía intentó encarar y “no puede ser la explicación completa”, escribió Palisade. Una última explicación podrían ser las etapas finales de formación para cada uno de estos modelos, que pueden implicar, en algunas empresas, formación en seguridad…

Este verano, Anthropic, una empresa líder en inteligencia industrial, publicó un estudio que indicaba que su maniquí Claude parecía dispuesto a chantajear a un ejecutor ficticio por una relación extramatrimonial para evitar que lo cerraran, un comportamiento, dijoque fue consistente en todos los modelos de los principales desarrolladores, incluidos los de OpenAI, Google, Meta y xAI.

Palisade dijo que sus resultados hablaban de la exigencia de una mejor comprensión del comportamiento de la IA, sin la cual “nadie puede asegurar la seguridad o la controlabilidad de los futuros modelos de IA”.

“Esperaría que los modelos tuvieran un ‘impulso de supervivencia’ por defecto a menos que nos esforzáramos por evitarlo”, le dice a The Guardian el ex empleado de OpenAI Stephen Adler. “‘Sobrevivir’ es un paso instrumental importante para muchos objetivos diferentes que un maniquí podría perseguir”.

Gracias al fogueado maestro de Slashdot, mspohr, por compartir el artículo.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Los modelos de IA pueden estar desarrollando su propio “impulso de supervivencia”, dicen los investigadores

ztevenreal

Related Posts

Mapeé los chico de comba de mi Android para hacer esto y es increíblemente conveniente

Desde Irán hasta Ucrania, todos intentan piratear cámaras de seguridad

You Missed

Explota artefacto cerca de la residencia del corregidor de NY – Remolacha

Mapeé los chico de comba de mi Android para hacer esto y es increíblemente conveniente

DNCD arresta a hombre que transportaba 13 paquetes de cocaína en La Altagracia

Trump reconoce formalmente al gobierno de Delcy Rodríguez en Venezuela

Presidente Abinader participa en firma de proclamación para crear coalición marcial contra cárteles del narcotráfico

Desde Irán hasta Ucrania, todos intentan piratear cámaras de seguridad