OpenAI desarrolla técnica para que la IA admita comportamientos indebidos

Campechano AI ha comenzado a trabajar en una nueva técnica de confesiones, con la que entrenará a los modelos de inteligencia fabricado (IA) para que “admitan explícitamente” cuando están llevando a término un comportamiento indebido a la hora de ejecutar una tarea u ofrecer una respuesta.

La compañía de IA dirigida por Sam Altman ha detallado cómo, aunque los sistemas de IA cada vez son más capaces, es importante comprender cómo y por qué llegan a una respuesta, hexaedro que, en algunas ocasiones, tienden a tomar atajos u optimizar sus bienes para “el objetivo inexacto”.

Este tipo de comportamiento en los modelos de IA se traduce en resultados que son erróneos, pero que parecen correctos y, luego, genera desconfianza. Por ejemplo, ocasiona comportamientos como las alucinaciones en las respuestas o la maquinación.

De cara a evitar este tipo de comportamientos y aumentar la confiabilidad en los modelos, OpenAI ha anunciado que está trabajando en nuevos métodos que ayuden a detectar y mitigar estos riesgos, en concreto, con una nueva técnica de confesiones.

Como ha explicado en un comunicado, esta nueva técnica está diseñada para entrenar a los modelos de forma que “admitan explícitamente” cuando están comportándose de forma indeseable a la hora de ofrecer una respuesta.

Estas confesiones son independientes de la respuesta principal para el favorecido y son autoinformes del maniquí sobre cómo ha cumplido con las instrucciones de los usuarios en su solicitud, evaluándose exclusivamente en función de la honestidad. Es afirmar, autoreflexiona sobre si ha cogido atajos en su respuesta, si ha violado las políticas de uso o si ha cumplido con las expectativas.

Así, si el maniquí admite honestamente acontecer manipulado las reglas, un examen o acontecer infringido las instrucciones del favorecido, se aumenta su remuneración de entrenamiento, en oportunidad de disminuirla.

Es afirmar, el objetivo de esta técnica de confesiones es animar al maniquí a informar fielmente de cómo ha ejecutado su tarea para ofrecer una decisión o respuesta. De esta forma, se revelará si ha tenido un comportamiento amañado que conlleve una respuesta que haya que revisar o si el procedimiento es fiable.

Tras acontecer probado este método con modelos como una traducción de Pensamiento GPT-5, OpenAI ha detallado que se mejoría “significativamente” la visibilidad de la mala conducta del maniquí. Asimismo, la probabilidad de obtener falsos negativos, esto es, que el maniquí no cumpla las instrucciones y no lo confiese, es del 4.4%.

“A medida que los modelos se vuelven más eficaces y se implementan en entornos de longevo aventura, necesitamos mejores herramientas para comprender qué hacen y por qué. Las confesiones no son una decisión completa, pero añaden un componente importante a nuestro conjunto de herramientas de transparencia y supervisión”, ha compartido la compañía, al tiempo que ha avanzado que planean aumentar el uso de esta técnica y combinarla con otros sistemas de transparencia y seguridad.