El GPT-4.1 de OpenAI puede estar menos afiliado que los modelos de IA anteriores de la compañía

A mediados de abril, Openai lanzó un poderoso maniquí de IA poderoso, GPT-4.1, que la compañía afirmó “sobresalir” al seguir las instrucciones. Pero los resultados de varias pruebas independientes sugieren que el maniquí está menos afiliado, es proponer, menos confiable, que las versiones anteriores de OpenAI.

Cuando Openai gancho un nuevo maniquí, generalmente publica un referencia técnico detallado que contiene los resultados de las evaluaciones de seguridad de primera y tercera parte. La compañía se saltó ese paso para GPT-4.1, alegando que el maniquí no es “frontera” y, por lo tanto, no garantiza un referencia separado.

Eso estimuló a algunos investigadores, y a los desarrolladores, a investigar si GPT-4.1 se comporta menos deseablemente que GPT-4O, su predecesor.

Según el sabio de la investigación de Oxford AI, Owain Evans, el ajuste de GPT-4.1 en código inseguro hace que el maniquí dé “respuestas desalineadas” a preguntas sobre sujetos como roles de carácter a una tasa “sustancialmente más adhesión” que GPT-4O. Evans anteriormente coautor de un estudio Mostrar que una traducción de GPT-4O entrenada en código inseguro podría prepararlo para exhibir comportamientos maliciosos.

En un próximo seguimiento de ese estudio, Evans y coautores descubrieron que GPT-4.1 afinó el código inseguro parece mostrar “nuevos comportamientos maliciosos”, como tratar de engañar a un heredero para que compartan su contraseña. Para ser claros, ni GPT-4.1 ni GPT-4O acto desalineados cuando se entrenan en seguro código.

“Estamos descubriendo formas inesperadas en que los modelos pueden desalinearse”, dijo Owens a TechCrunch. “Idealmente, tendríamos una ciencia de IA que nos permitiría predecir tales cosas de antemano y evitarlas de guisa confiable”.

Una prueba separada de GPT-4.1 por SPLXAI, una startup de equipo de AI Red, reveló tendencias malignas similares.

En más o menos de 1,000 casos de prueba simulados, SPLXAI descubrió evidencia de que GPT-4.1 se desvía del tema y permite el mal uso “intencional” con más frecuencia que GPT-4O. La desliz es la preferencia de GPT-4.1 por las instrucciones explícitas, SPLXAI postula. GPT-4.1 no maneja adecuadamente las direcciones vagas, un hecho OpenAi en sí admite – que abre la puerta a comportamientos no deseados.

“Esta es una gran característica en términos de hacer que el maniquí sea más útil y confiable al resolver una tarea específica, pero tiene un precio”, SPLXAI escribió en una publicación de blog. “(P) Roving Instrucciones explícitas sobre lo que se debe hacer es harto sencillo, pero proporcionar instrucciones suficientemente explícitas y precisas sobre lo que no se debe hacer es una historia diferente, ya que la registro de comportamientos no deseados es mucho más prócer que la registro de comportamientos buscados”.

En defensa de OpenAI, la compañía ha publicado guías de impulso destinados a mitigar la posible desalineación en GPT-4.1. Pero los hallazgos de las pruebas independientes sirven como un recordatorio de que los modelos más nuevos no se mejoran necesariamente en todos los ámbitos. En una fila similar, los nuevos modelos de razonamiento de OpenAI alucinan, es proponer, inventan cosas, más que los modelos más antiguos de la compañía.

Nos comunicamos con OpenAi para hacer comentarios.


Related Posts

Discord nombra a un nuevo CEO mientras Jason Citron se prepara para renunciar

Discord tiene anunciado Ese cofundador y CEO Jason Citron está renunciando a su papel, a partir del 28 de abril de 2025. Humam Sakhnini asumirá el cargo de nuevo director…

Bethesda anuncia los Scrolls IV: Oblivion remasterizado para PC y consolas

Finalmente está aquí. Bethesda Game Studios ha anunciado el propagación de The Elder Scrolls IV: Oblivion Remastered. El remake muy esperado del clásico RPG de 2006 fue desarrollado por el…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Gracia pide derogar protocolo hospitalario contra haitianos

Gracia pide derogar protocolo hospitalario contra haitianos

una advertencia sobre la sanidad mental

una advertencia sobre la sanidad mental

Cambio climático agravará daños en el Caribe, según expertos

Cambio climático agravará daños en el Caribe, según expertos

Discord nombra a un nuevo CEO mientras Jason Citron se prepara para renunciar

Discord nombra a un nuevo CEO mientras Jason Citron se prepara para renunciar

Presentarán en Nueva York el obra “Mi Compromiso con la Educación” de Roberto Fulcar

Presentarán en Nueva York el obra “Mi Compromiso con la Educación” de Roberto Fulcar

UBA reitera a bodegueros instalación ordenanza pánico y monitoreo de NYPD

UBA reitera a bodegueros instalación ordenanza pánico y monitoreo de NYPD