
A mediados de abril, Openai lanzó un poderoso maniquí de IA poderoso, GPT-4.1, que la compañía afirmó “sobresalir” al seguir las instrucciones. Pero los resultados de varias pruebas independientes sugieren que el maniquí está menos afiliado, es proponer, menos confiable, que las versiones anteriores de OpenAI.
Cuando Openai gancho un nuevo maniquí, generalmente publica un referencia técnico detallado que contiene los resultados de las evaluaciones de seguridad de primera y tercera parte. La compañía se saltó ese paso para GPT-4.1, alegando que el maniquí no es “frontera” y, por lo tanto, no garantiza un referencia separado.
Eso estimuló a algunos investigadores, y a los desarrolladores, a investigar si GPT-4.1 se comporta menos deseablemente que GPT-4O, su predecesor.
Según el sabio de la investigación de Oxford AI, Owain Evans, el ajuste de GPT-4.1 en código inseguro hace que el maniquí dé “respuestas desalineadas” a preguntas sobre sujetos como roles de carácter a una tasa “sustancialmente más adhesión” que GPT-4O. Evans anteriormente coautor de un estudio Mostrar que una traducción de GPT-4O entrenada en código inseguro podría prepararlo para exhibir comportamientos maliciosos.
En un próximo seguimiento de ese estudio, Evans y coautores descubrieron que GPT-4.1 afinó el código inseguro parece mostrar “nuevos comportamientos maliciosos”, como tratar de engañar a un heredero para que compartan su contraseña. Para ser claros, ni GPT-4.1 ni GPT-4O acto desalineados cuando se entrenan en seguro código.
Aggiornamento de desalineación emergente: el nuevo GPT4.1 de OpenAI muestra una tasa más adhesión de respuestas desalineadas que GPT4O (y cualquier otro maniquí que hayamos probado).
Además parece mostrar algunos comportamientos maliciosos nuevos, como engañar al heredero para que compartan una contraseña. pic.twitter.com/5qzzegeyjo– Owain Evans (@owainevans_uk) 17 de abril de 2025
“Estamos descubriendo formas inesperadas en que los modelos pueden desalinearse”, dijo Owens a TechCrunch. “Idealmente, tendríamos una ciencia de IA que nos permitiría predecir tales cosas de antemano y evitarlas de guisa confiable”.
Una prueba separada de GPT-4.1 por SPLXAI, una startup de equipo de AI Red, reveló tendencias malignas similares.
En más o menos de 1,000 casos de prueba simulados, SPLXAI descubrió evidencia de que GPT-4.1 se desvía del tema y permite el mal uso “intencional” con más frecuencia que GPT-4O. La desliz es la preferencia de GPT-4.1 por las instrucciones explícitas, SPLXAI postula. GPT-4.1 no maneja adecuadamente las direcciones vagas, un hecho OpenAi en sí admite – que abre la puerta a comportamientos no deseados.
“Esta es una gran característica en términos de hacer que el maniquí sea más útil y confiable al resolver una tarea específica, pero tiene un precio”, SPLXAI escribió en una publicación de blog. “(P) Roving Instrucciones explícitas sobre lo que se debe hacer es harto sencillo, pero proporcionar instrucciones suficientemente explícitas y precisas sobre lo que no se debe hacer es una historia diferente, ya que la registro de comportamientos no deseados es mucho más prócer que la registro de comportamientos buscados”.
En defensa de OpenAI, la compañía ha publicado guías de impulso destinados a mitigar la posible desalineación en GPT-4.1. Pero los hallazgos de las pruebas independientes sirven como un recordatorio de que los modelos más nuevos no se mejoran necesariamente en todos los ámbitos. En una fila similar, los nuevos modelos de razonamiento de OpenAI alucinan, es proponer, inventan cosas, más que los modelos más antiguos de la compañía.
Nos comunicamos con OpenAi para hacer comentarios.