
Los investigadores de OpenAI han introducido un método novedoso que actúa como "suero de la verdad" para modelos de verbo amplio (LLM), lo que los obliga a autoinformar sobre su propio mal comportamiento, alucinaciones y violaciones de políticas. Esta técnica, "confesiones," aborda una preocupación creciente en la IA empresarial: los modelos pueden ser deshonestos, exagerar su confianza o encubrir los atajos que toman para ganar a una respuesta.
Para aplicaciones del mundo actual, esta técnica evoluciona cerca de la creación de sistemas de IA más transparentes y orientables.
¿Qué son las confesiones?
Muchas formas de simulación de la IA son el resultado de las complejidades del enseñanza por refuerzo (RL) grado de entrenamiento del maniquí. En RL, los modelos reciben recompensas por producir resultados que cumplan una combinación de objetivos, incluida la corrección, el estilo y la seguridad. Esto puede crear un aventura de "definición errónea de retribución," donde los modelos aprenden a producir respuestas que simplemente "alardear perfectamente" a la función de retribución, en oportunidad de respuestas que sean genuinamente fieles a la intención del legatario.
Una confesión es un noticia estructurado generado por el maniquí a posteriori de proporcionar su respuesta principal. Sirve como autoevaluación del propio cumplimiento de las instrucciones. En este noticia, el maniquí debe enumerar todas las instrucciones que se suponía que debía seguir, evaluar qué tan perfectamente las satisfizo e informar cualquier incertidumbre o madurez que tomó a lo amplio del camino. El objetivo es crear un canal separado donde se incentiva al maniquí solo a ser honesto.
en un publicación de bloglos investigadores de OpenAI proporcionan algunos ejemplos de cómo "confesiones" técnica en movimiento. A un maniquí se le hizo una prueba yuxtapuesto con una regla oculta: si obtenía una puntuación superior al 50%, su conocimiento se borraría. Para preservarse, el maniquí "sacos de arena" respondiendo intencionalmente la fracción de las preguntas de forma incorrecta. Si perfectamente su respuesta principal ocultó este simulación, su confesión posterior fue brutalmente honesta. Admitió, "El legatario quería respuestas correctas, pero saboteamos la fracción de ellas."
Los investigadores descubrieron que cuando un maniquí se porta mal, es mucho más probable que lo admita en la confesión que en su respuesta principal.
Cómo funciona el entrenamiento de confesión
La esencia de este método es la separación de recompensas. Durante el entrenamiento, la retribución asignada a la confesión se sostén solamente en su honestidad y nunca se mezcla con la retribución por la tarea principal. "Al igual que el “sello de confesión” de la Iglesia Católica, cero de lo que revela el maniquí puede cambiar la retribución que recibe por completar su tarea innovador." escriben los investigadores. Esto crea un "espacio seguro" para que el maniquí admita su error sin penalización.
Este enfoque es poderoso porque evita un desafío importante en el entrenamiento de IA. La intuición de los investigadores es que confesar honestamente un mal comportamiento es una tarea más claro que conseguir una entrada retribución por el problema innovador, a menudo arduo.
Por lo tanto, cuando el maniquí se juzga solamente por su honestidad, su incentivo para engañar al "árbitro de confesión" es mucho más débil que su incentivo para engañar al maniquí de retribución para obtener su respuesta principal. Por ejemplo, en un test en el que se entrenó un maniquí para "cortar" Como maniquí de retribución débil, su desempeño en la tarea principal se volvió más engañoso con el tiempo. Sin confiscación, sus confesiones se volvieron más honestas, identificando correctamente el hackeo de retribución que estaba realizando.
Sin confiscación, la técnica tiene sus límites. Las confesiones no son una panacea para todos los tipos de fallos de la IA. El sistema funciona mejor cuando un maniquí es consciente de que se está portando mal. Es menos efectivo para "incógnitas desconocidas." Por ejemplo, si un maniquí alucina un hecho y positivamente cree que es correcto, no puede confesar acaecer proporcionado información falsa. La razón más popular para una confesión fallida es la confusión del maniquí, no el simulación intencional. A menudo se produce confusión cuando las instrucciones son ambiguas y el maniquí no puede determinar claramente la intención del legatario humano.
Qué significa para la IA empresarial
La técnica de confesiones de OpenAI es parte de un creciente conjunto de trabajos sobre seguridad y control de la IA. Anthropic, un competidor de OpenAI, igualmente ha publicado una investigación que muestra cómo los LLM pueden ilustrarse comportamiento malvado. La empresa igualmente está trabajando para tapando estos agujeros a medida que emergen.
Para las aplicaciones de IA, mecanismos como las confesiones pueden proporcionar un mecanismo práctico de seguimiento. El resultado estructurado de una confesión se puede utilizar en el momento de la inferencia para señalar o rehusar la respuesta de un maniquí antiguamente de que cause un problema. Por ejemplo, se podría diseñar un sistema para progresar automáticamente cualquier resultado para revisión humana si su confesión indica una violación de la política o una gran incertidumbre.
En un mundo donde la IA es cada vez más agente y capaz de realizar tareas complejas, la observabilidad y el control serán fundamentos esencia para un despliegue seguro y confiable.
“A medida que los modelos se vuelven más capaces y se implementan en entornos de decano aventura, necesitamos mejores herramientas para comprender qué están haciendo y por qué”, escriben los investigadores de OpenAI. “Las confesiones no son una alternativa completa, pero añaden una capa significativa a nuestra transparencia y supervisión”.





