Los modelos de IA pueden estar desarrollando su propio “impulso de supervivencia”, dicen los investigadores

“El maniquí o3 de OpenAI saboteó un mecanismo de extinguido para evitar que se apagara”. advirtió Palisade Researchuna ordenamiento sin fines de utilidad que investiga las capacidades de la IA ciberofensiva. “Hizo esto incluso cuando se le indicó explícitamente: déjese cerrar”. En septiembre ellos publicó un documento añadiendo que “varios modelos de lenguajes grandes de última reproducción (incluidos Grok 4, GPT-5 y Gemini 2.5 Pro) a veces subvierten activamente un mecanismo de extinguido…”

Ahora la ordenamiento sin fines de utilidad ha escrito una modernización “intentando aclarar por qué esto es… y reponer a las críticas quien argumentó que su trabajo original fue defectuoso”, informa El cuidador:

Lo preocupante, escribió Palisade, es que no había una razón clara para ello. “El hecho de que no tengamos explicaciones sólidas de por qué los modelos de IA a veces se resisten a cerrarse, mienten para alcanzar objetivos específicos o chantajean no es lo ideal”, afirmó. El “comportamiento de supervivencia” podría ser una explicación de por qué los modelos se resisten al extinguido, afirmó la empresa. Su trabajo adicional indicó que los modelos eran más propensos a resistirse a ser cerrados cuando se les decía que, si lo hacían, “nunca volverían a funcionar”. Otra pueden ser las ambigüedades en las instrucciones de extinguido que recibieron los modelos, pero esto es lo que el postrer trabajo de la compañía intentó encarar y “no puede ser la explicación completa”, escribió Palisade. Una última explicación podrían ser las etapas finales de formación para cada uno de estos modelos, que pueden implicar, en algunas empresas, formación en seguridad…

Este verano, Anthropic, una empresa líder en inteligencia industrial, publicó un estudio que indicaba que su maniquí Claude parecía dispuesto a chantajear a un ejecutor ficticio por una relación extramatrimonial para evitar que lo cerraran, un comportamiento, dijoque fue consistente en todos los modelos de los principales desarrolladores, incluidos los de OpenAI, Google, Meta y xAI.

Palisade dijo que sus resultados hablaban de la exigencia de una mejor comprensión del comportamiento de la IA, sin la cual “nadie puede asegurar la seguridad o la controlabilidad de los futuros modelos de IA”.

“Esperaría que los modelos tuvieran un ‘impulso de supervivencia’ por defecto a menos que nos esforzáramos por evitarlo”, le dice a The Guardian el ex empleado de OpenAI Stephen Adler. “‘Sobrevivir’ es un paso instrumental importante para muchos objetivos diferentes que un maniquí podría perseguir”.

Gracias al fogueado maestro de Slashdot, mspohr, por compartir el artículo.

Related Posts

Mapeé los chico de comba de mi Android para hacer esto y es increíblemente conveniente

Los chico de comba de su teléfono pueden hacer más que simplemente ajustar el comba. De hecho, eso es lo que busqué hacer: verás, todos los días salgo a pasar…

Desde Irán hasta Ucrania, todos intentan piratear cámaras de seguridad

De hecho, Check Point dice que rastreó ataques iraníes similares contra cámaras ya en junio pasado durante la conflicto precedente de 12 días de Israel con Irán. El jerarca de…

You Missed

Explota artefacto cerca de la residencia del corregidor de NY – Remolacha

Explota artefacto cerca de la residencia del corregidor de NY – Remolacha

Mapeé los chico de comba de mi Android para hacer esto y es increíblemente conveniente

Mapeé los chico de comba de mi Android para hacer esto y es increíblemente conveniente

DNCD arresta a hombre que transportaba 13 paquetes de cocaína en La Altagracia

DNCD arresta a hombre que transportaba 13 paquetes de cocaína en La Altagracia

Trump reconoce formalmente al gobierno de Delcy Rodríguez en Venezuela

Trump reconoce formalmente al gobierno de Delcy Rodríguez en Venezuela

Presidente Abinader participa en firma de proclamación para crear coalición marcial contra cárteles del narcotráfico

Presidente Abinader participa en firma de proclamación para crear coalición marcial contra cárteles del narcotráfico

Desde Irán hasta Ucrania, todos intentan piratear cámaras de seguridad

Desde Irán hasta Ucrania, todos intentan piratear cámaras de seguridad