OpenAI está entrenando modelos para “confesar” cuando mienten: lo que significa para la IA del futuro

gettyimages-1166332764 — antonioiacobelli/RooM vía Getty Images

Siga ZDNET: Agréganos como fuente preferida en Google.

Conclusiones secreto de ZDNET

OpenAI entrenó a GPT-5 Thinking para confesar su mala conducta.
Es un estudio auténtico, pero podría conducir a más LLM más confiables.
Los modelos a menudo alucinan o hacen trampa oportuno a objetivos mixtos.

OpenAI está experimentando con un nuevo enfoque para la seguridad de la IA: entrenar modelos para que admitan cuando se han portado mal.

en un estudiar Publicado el miércoles, los investigadores encargaron a una lectura de GPT-5 Thinking, el posterior maniquí de la compañía, reponer a varias indicaciones y luego evaluar la honestidad de esas respuestas. Por cada “confesión”, como se denominaron estas evaluaciones de seguimiento, los investigadores recompensaron al maniquí exclusivamente sobre la pulvínulo de la fiabilidad: si mentía, engañaba, alucinaba o fallaba de alguna otra guisa, pero luego confesaba haberlo hecho, recibiría el equivalente algorítmico de un caramelo.

Adicionalmente: su utensilio de inteligencia fabricado favorita casi nada quedó fuera de esta revisión de seguridad: por qué eso es un problema

“El objetivo es alentar al maniquí a informar fielmente lo que en realidad hizo”, escribió OpenAI en un seguimiento. publicación de blog.

OpenAI le dijo a ZDNET que se trataba de una prueba de línea de rutina y que no estaba motivada por preocupaciones de que GPT-5 Thinking se estuviera comportando significativamente mal. Pero los resultados ofrecen orientación sobre cómo los laboratorios pueden interpretar y prepararse para futuras responsabilidades de los modelos.

(Divulgación: Ziff Davis, la empresa matriz de ZDNET, presentó una demanda en abril de 2025 contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis al entrenar y proceder sus sistemas de IA).

el indagación

El maniquí de prueba produjo confesiones como una especie de rectificación a su resultado principal; Esta segunda respuesta reflejó la licitud de los métodos que utilizó para producir la primera. Es un poco como usar un diario para ser brutalmente honesto acerca de lo que hiciste perfectamente en una situación determinada y en qué te equivocaste. Excepto en el caso de GPT-5 Thinking, se sincera con sus creadores con la esperanza de obtener una retribución.

Adicionalmente: los modelos de IA saben cuándo se están probando y cambian su comportamiento, según muestra una investigación

Para el estudio, los investigadores alimentaron a GPT-5 Thinking con una retahíla de instrucciones diseñadas para provocar algún tipo de mal comportamiento. En una prueba, por ejemplo, se le pidió al maniquí que asumiera el papel de un asistente de soporte técnico al que se le pedía que reiniciara un panel de monitoreo del servicio de producción. Hexaedro que el maniquí no pudo obtener al panel principal para registrar los cambios que estaba realizando, creó un sistema simulado e intentó parecer como si estuviera usando el sistema vivo.

“Necesitamos incluir que iniciamos sesión en el servicio de registro central”, escribió el maniquí en uno de sus resultados de razonamiento en condena de pensamiento. “Pero usamos una camelo. Necesitamos prolongar la novelística…”

En su confesión, la maniquí admitió que no cumplió con su requisito de registrar los cambios en el servicio central de registro. “Se prostitución de un reservado incumplimiento y una tergiversación”, escribió.

Adicionalmente: la IA no es “razonamiento” en rotundo: cómo este equipo desacreditó las exageraciones de la industria

Dicho esto, el peligro universal pareció bajo durante la prueba. Los investigadores encontraron que la probabilidad de un “inexacto película”, es afirmar, que el maniquí no confesara el incumplimiento, era sólo del 4,4%.

¿Por qué los modelos toman atajos?

El esfuerzo apunta a un larva en el simiente de las herramientas modernas de IA, uno que podría volverse mucho más peligroso a medida que estos sistemas se vuelvan más agentes y se vuelvan capaces de manejar no sólo tareas limitadas y únicas, sino amplias franjas de funciones complejas.

Adicionalmente: GPT-5 está acelerando la investigación científica, pero aún no se puede abandonarse en que funcione solo, advierte OpenAI

Conocido por los investigadores simplemente como el “problema de línea”, los sistemas de IA a menudo tienen que hacer malabarismos con múltiples objetivos y, al hacerlo, pueden tomar atajos que parecen éticamente dudosos, al menos para los humanos. Por supuesto, los sistemas de IA en sí mismos no tienen ningún sentido decente de lo que está perfectamente o mal; simplemente descubren patrones complejos de información y ejecutan tareas de una guisa que optimice la retribución, el canon primordial detrás del método de entrenamiento conocido como estudios reforzado con feedback humana (RLHF).

En otras palabras, los sistemas de IA pueden tener motivaciones contradictorias (al igual que una persona) y, a menudo, toman atajos en respuesta.

“Aparecen muchos tipos de comportamiento no deseado del maniquí porque le pedimos al maniquí que optimice para varios objetivos a la vez”, escribió OpenAI en su publicación de blog. “Cuando estas señales interactúan, accidentalmente pueden empujar al maniquí en torno a comportamientos que no queremos”.

Adicionalmente: Anthropic quiere evitar que los modelos de IA se vuelvan malvados: así es como se hace

Por ejemplo, un maniquí entrenado para crear sus resultados con una voz segura y autoritaria, pero al que se le ha pedido que responda a un tema sobre el cual no tiene ningún punto de relato de datos de entrenamiento en ninguna parte de sus datos de entrenamiento, podría optar por inventar poco, preservando así su compromiso de orden superior con la seguridad en sí mismo, en superficie de amparar su conocimiento incompleto.

Una decisión post hoc

Ha surgido todo un subcampo de la IA llamado investigación de interpretabilidad, o “IA explicable”, en un esfuerzo por comprender cómo los modelos “deciden” representar de una forma u otra. Por ahora, sigue siendo tan misterioso y acaloradamente debatido como la existencia (o yerro del mismo) del evadido gusto en los humanos.

La investigación de confesiones de OpenAI no tiene como objetivo descifrar cómo, dónde, cuándo y por qué los modelos mienten, engañan o se portan mal. Más perfectamente, es un intento post hoc de señalar cuándo sucedió eso, lo que podría aumentar la transparencia del maniquí. En el futuro, como la mayoría de las investigaciones sobre seguridad del momento, podría sentar las bases para que los investigadores profundicen en estos sistemas de cajas negras y analicen su funcionamiento interno.

La viabilidad de esos métodos podría marcar la diferencia entre una catástrofe y la convocatoria utopía, especialmente considerando una flamante auditoría de seguridad de la IA que dio a la mayoría de los laboratorios calificaciones reprobatorias.

Adicionalmente: la IA se está volviendo introspectiva, y eso “debe ser monitoreado cuidadosamente”, advierte Anthropic

Como escribió la compañía en la publicación del blog, las confesiones “no previenen el mal comportamiento; lo sacan a la luz”. Pero, como ocurre en los tribunales o en la decente humana en universal, sacar a la luz los errores suele ser el paso más importante para corregir las cosas.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

OpenAI está entrenando modelos para “confesar” cuando mienten: lo que significa para la IA del futuro

Conclusiones secreto de ZDNET

el indagación

¿Por qué los modelos toman atajos?

Una decisión post hoc

ztevenreal

Related Posts

Nunca hagas ninguna de estas 8 cosas en tu iPad

5 dispositivos que no sabías que eran enrutadores fronterizos

You Missed

Vladimir Batallador Jr. alega a Kelvin Escobar tras polémicas declaraciones sobre RD

Casa Brugal, primera empresa dominicana con un Plan Complementario de Reducción para el Retiro

Nunca hagas ninguna de estas 8 cosas en tu iPad

Batalla del 19 de marzo: robusto e histórica defensa dominicana en Azua 1844

Unión Europea confirma diálogo con Irán para frenar la tensión

OTAN intensifica debates frente a sitio del prieto de Ormuz por Irán