El GPT-4.1 de OpenAI puede estar menos afiliado que los modelos de IA anteriores de la compañía

A mediados de abril, Openai lanzó un poderoso maniquí de IA poderoso, GPT-4.1, que la compañía afirmó “sobresalir” al seguir las instrucciones. Pero los resultados de varias pruebas independientes sugieren que el maniquí está menos afiliado, es proponer, menos confiable, que las versiones anteriores de OpenAI.

Cuando Openai gancho un nuevo maniquí, generalmente publica un referencia técnico detallado que contiene los resultados de las evaluaciones de seguridad de primera y tercera parte. La compañía se saltó ese paso para GPT-4.1, alegando que el maniquí no es “frontera” y, por lo tanto, no garantiza un referencia separado.

Eso estimuló a algunos investigadores, y a los desarrolladores, a investigar si GPT-4.1 se comporta menos deseablemente que GPT-4O, su predecesor.

Según el sabio de la investigación de Oxford AI, Owain Evans, el ajuste de GPT-4.1 en código inseguro hace que el maniquí dé “respuestas desalineadas” a preguntas sobre sujetos como roles de carácter a una tasa “sustancialmente más adhesión” que GPT-4O. Evans anteriormente coautor de un estudio Mostrar que una traducción de GPT-4O entrenada en código inseguro podría prepararlo para exhibir comportamientos maliciosos.

En un próximo seguimiento de ese estudio, Evans y coautores descubrieron que GPT-4.1 afinó el código inseguro parece mostrar “nuevos comportamientos maliciosos”, como tratar de engañar a un heredero para que compartan su contraseña. Para ser claros, ni GPT-4.1 ni GPT-4O acto desalineados cuando se entrenan en seguro código.

“Estamos descubriendo formas inesperadas en que los modelos pueden desalinearse”, dijo Owens a TechCrunch. “Idealmente, tendríamos una ciencia de IA que nos permitiría predecir tales cosas de antemano y evitarlas de guisa confiable”.

Una prueba separada de GPT-4.1 por SPLXAI, una startup de equipo de AI Red, reveló tendencias malignas similares.

En más o menos de 1,000 casos de prueba simulados, SPLXAI descubrió evidencia de que GPT-4.1 se desvía del tema y permite el mal uso “intencional” con más frecuencia que GPT-4O. La desliz es la preferencia de GPT-4.1 por las instrucciones explícitas, SPLXAI postula. GPT-4.1 no maneja adecuadamente las direcciones vagas, un hecho OpenAi en sí admite – que abre la puerta a comportamientos no deseados.

“Esta es una gran característica en términos de hacer que el maniquí sea más útil y confiable al resolver una tarea específica, pero tiene un precio”, SPLXAI escribió en una publicación de blog. “(P) Roving Instrucciones explícitas sobre lo que se debe hacer es harto sencillo, pero proporcionar instrucciones suficientemente explícitas y precisas sobre lo que no se debe hacer es una historia diferente, ya que la registro de comportamientos no deseados es mucho más prócer que la registro de comportamientos buscados”.

En defensa de OpenAI, la compañía ha publicado guías de impulso destinados a mitigar la posible desalineación en GPT-4.1. Pero los hallazgos de las pruebas independientes sirven como un recordatorio de que los modelos más nuevos no se mejoran necesariamente en todos los ámbitos. En una fila similar, los nuevos modelos de razonamiento de OpenAI alucinan, es proponer, inventan cosas, más que los modelos más antiguos de la compañía.

Nos comunicamos con OpenAi para hacer comentarios.


Related Posts

Tim Cook presionó para obtener detalles sobre cómo Apple obtuvo las exenciones de tarifas de Trump

El CEO de Apple, Tim Cook, está siendo presionado para obtener información sobre su colaboración con la establecimiento Trump que rodea las tarifas. En una carta enviada hoy, la senadora…

Los envíos de PC subieron un 6,7% interanual en el primer trimestre de 2025, probablemente causado por compradores preocupados por los aranceles

Según un mensaje, se han enviado unas 61.4 millones de unidades de PC en todo el mundo en el primer trimestre de 2025 Contrapunto. Este es un aumento interanual del…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Red Air rejón el nuevo servicio Santo Domingo -Curaçao

Red Air rejón el nuevo servicio Santo Domingo -Curaçao

Cineasta Vergi Rodríguez por caso Jet Set: “República Dominicana no se define por una tragedia”

Cineasta Vergi Rodríguez por caso Jet Set: “República Dominicana no se define por una tragedia”

Alcaldesa de Higüey presentará rendición de cuentas este jueves 24 de abril

Alcaldesa de Higüey presentará rendición de cuentas este jueves 24 de abril

30 primaveras del Día del Compendio: ¿qué hemos acabado?

30 primaveras del Día del Compendio: ¿qué hemos acabado?

Más de 200 militares refuerzan control fronterizo en Pedernales en presencia de el tráfico de migrantes

Más de 200 militares refuerzan control fronterizo en Pedernales en presencia de el tráfico de migrantes

Tim Cook presionó para obtener detalles sobre cómo Apple obtuvo las exenciones de tarifas de Trump

Tim Cook presionó para obtener detalles sobre cómo Apple obtuvo las exenciones de tarifas de Trump