OpenAI desarrolla técnica para que la IA admita comportamientos indebidos

Campechano AI ha comenzado a trabajar en una nueva técnica de confesiones, con la que entrenará a los modelos de inteligencia fabricado (IA) para que “admitan explícitamente” cuando están llevando a término un comportamiento indebido a la hora de ejecutar una tarea u ofrecer una respuesta.

La compañía de IA dirigida por Sam Altman ha detallado cómo, aunque los sistemas de IA cada vez son más capaces, es importante comprender cómo y por qué llegan a una respuesta, hexaedro que, en algunas ocasiones, tienden a tomar atajos u optimizar sus bienes para “el objetivo inexacto”.

Este tipo de comportamiento en los modelos de IA se traduce en resultados que son erróneos, pero que parecen correctos y, luego, genera desconfianza. Por ejemplo, ocasiona comportamientos como las alucinaciones en las respuestas o la maquinación.

De cara a evitar este tipo de comportamientos y aumentar la confiabilidad en los modelos, OpenAI ha anunciado que está trabajando en nuevos métodos que ayuden a detectar y mitigar estos riesgos, en concreto, con una nueva técnica de confesiones.

Como ha explicado en un comunicado, esta nueva técnica está diseñada para entrenar a los modelos de forma que “admitan explícitamente” cuando están comportándose de forma indeseable a la hora de ofrecer una respuesta.

Estas confesiones son independientes de la respuesta principal para el favorecido y son autoinformes del maniquí sobre cómo ha cumplido con las instrucciones de los usuarios en su solicitud, evaluándose exclusivamente en función de la honestidad. Es afirmar, autoreflexiona sobre si ha cogido atajos en su respuesta, si ha violado las políticas de uso o si ha cumplido con las expectativas.

Así, si el maniquí admite honestamente acontecer manipulado las reglas, un examen o acontecer infringido las instrucciones del favorecido, se aumenta su remuneración de entrenamiento, en oportunidad de disminuirla.

Es afirmar, el objetivo de esta técnica de confesiones es animar al maniquí a informar fielmente de cómo ha ejecutado su tarea para ofrecer una decisión o respuesta. De esta forma, se revelará si ha tenido un comportamiento amañado que conlleve una respuesta que haya que revisar o si el procedimiento es fiable.

Tras acontecer probado este método con modelos como una traducción de Pensamiento GPT-5, OpenAI ha detallado que se mejoría “significativamente” la visibilidad de la mala conducta del maniquí. Asimismo, la probabilidad de obtener falsos negativos, esto es, que el maniquí no cumpla las instrucciones y no lo confiese, es del 4.4%.

“A medida que los modelos se vuelven más eficaces y se implementan en entornos de longevo aventura, necesitamos mejores herramientas para comprender qué hacen y por qué. Las confesiones no son una decisión completa, pero añaden un componente importante a nuestro conjunto de herramientas de transparencia y supervisión”, ha compartido la compañía, al tiempo que ha avanzado que planean aumentar el uso de esta técnica y combinarla con otros sistemas de transparencia y seguridad.

Related Posts

Estudio analiza cómo viven los capitaleños el turismo en su ciudad

Santo Domingo es uno de los principales centros turísticos de la República Dominicana. La ciudad combina historia, civilización y modernidad, y lugares como la Zona Colonial y el malecón…

Jhondry Ferreras, orientador del tour “Dubái Sin Límites”, anuncia la reprogramación del delirio previsto para Semana Santa 2026

La valor contesta a la situación geopolítica que vive actualmente el Medio Oriente y rebusca avalar la seguridad de los más de 150 dominicanos inscritos en el delirio. El Pregonero,…

You Missed

Yoshinobu Yamamoto será el abridor del partido inaugural de los Dodgers en 2026

Yoshinobu Yamamoto será el abridor del partido inaugural de los Dodgers en 2026

Olivares destaca que RD lidera en la región consenso tripartito sobre aumentos salariales

Olivares destaca que RD lidera en la región consenso tripartito sobre aumentos salariales

Dolby Atmos es ingenioso hasta que te das cuenta de que tu configuración en sinceridad no lo está usando

Dolby Atmos es ingenioso hasta que te das cuenta de que tu configuración en sinceridad no lo está usando

Tipos de centros de cedulación de la JCE y cómo operarán

Tipos de centros de cedulación de la JCE y cómo operarán

Estudio analiza cómo viven los capitaleños el turismo en su ciudad

Estudio analiza cómo viven los capitaleños el turismo en su ciudad

INEFI y Pacto Dominicana de Ajedrez entregan pizarra de ajedrez en la Escuela Primaria Barbados

INEFI y Pacto Dominicana de Ajedrez entregan pizarra de ajedrez en la Escuela Primaria Barbados