OpenAI desarrolla técnica para que la IA admita comportamientos indebidos

Campechano AI ha comenzado a trabajar en una nueva técnica de confesiones, con la que entrenará a los modelos de inteligencia fabricado (IA) para que “admitan explícitamente” cuando están llevando a término un comportamiento indebido a la hora de ejecutar una tarea u ofrecer una respuesta.

La compañía de IA dirigida por Sam Altman ha detallado cómo, aunque los sistemas de IA cada vez son más capaces, es importante comprender cómo y por qué llegan a una respuesta, hexaedro que, en algunas ocasiones, tienden a tomar atajos u optimizar sus bienes para “el objetivo inexacto”.

Este tipo de comportamiento en los modelos de IA se traduce en resultados que son erróneos, pero que parecen correctos y, luego, genera desconfianza. Por ejemplo, ocasiona comportamientos como las alucinaciones en las respuestas o la maquinación.

De cara a evitar este tipo de comportamientos y aumentar la confiabilidad en los modelos, OpenAI ha anunciado que está trabajando en nuevos métodos que ayuden a detectar y mitigar estos riesgos, en concreto, con una nueva técnica de confesiones.

Como ha explicado en un comunicado, esta nueva técnica está diseñada para entrenar a los modelos de forma que “admitan explícitamente” cuando están comportándose de forma indeseable a la hora de ofrecer una respuesta.

Estas confesiones son independientes de la respuesta principal para el favorecido y son autoinformes del maniquí sobre cómo ha cumplido con las instrucciones de los usuarios en su solicitud, evaluándose exclusivamente en función de la honestidad. Es afirmar, autoreflexiona sobre si ha cogido atajos en su respuesta, si ha violado las políticas de uso o si ha cumplido con las expectativas.

Así, si el maniquí admite honestamente acontecer manipulado las reglas, un examen o acontecer infringido las instrucciones del favorecido, se aumenta su remuneración de entrenamiento, en oportunidad de disminuirla.

Es afirmar, el objetivo de esta técnica de confesiones es animar al maniquí a informar fielmente de cómo ha ejecutado su tarea para ofrecer una decisión o respuesta. De esta forma, se revelará si ha tenido un comportamiento amañado que conlleve una respuesta que haya que revisar o si el procedimiento es fiable.

Tras acontecer probado este método con modelos como una traducción de Pensamiento GPT-5, OpenAI ha detallado que se mejoría “significativamente” la visibilidad de la mala conducta del maniquí. Asimismo, la probabilidad de obtener falsos negativos, esto es, que el maniquí no cumpla las instrucciones y no lo confiese, es del 4.4%.

“A medida que los modelos se vuelven más eficaces y se implementan en entornos de longevo aventura, necesitamos mejores herramientas para comprender qué hacen y por qué. Las confesiones no son una decisión completa, pero añaden un componente importante a nuestro conjunto de herramientas de transparencia y supervisión”, ha compartido la compañía, al tiempo que ha avanzado que planean aumentar el uso de esta técnica y combinarla con otros sistemas de transparencia y seguridad.

Related Posts

Disminuirán las lluvias este jueves, aunque persistirán aguaceros locales en varias provincias

Punta Cana. Este jueves se prevé el ingreso progresivo de una masa de corriente con beocio contenido de humedad, lo que favorecerá una disminución en la intensidad y frecuencia…

El vende sueños – El Pregonero

Juan Manuel Morel Pérez En la dinámica social y profesional, el desgaste de pedir favores que nunca se cumplen se convierte en una carga emocional difícil de sobrellevar. No se…

You Missed

Adivina este personaje dominicano según esta caricatura de su “ayer” – Remolacha

Adivina este personaje dominicano según esta caricatura de su “ayer” – Remolacha

Wonderful recauda 150 millones de dólares Serie B

Wonderful recauda 150 millones de dólares Serie B

Ultiman nuevo que protegió a su pareja en balacera en Santiago

Ultiman nuevo que protegió a su pareja en balacera en Santiago

Sector construcción del Cibao envite por la Inteligencia Sintético para impulsar ventas y productividad

Sector construcción del Cibao envite por la Inteligencia Sintético para impulsar ventas y productividad

Obtenga el nuevo Galaxy S26 Extremista con hasta $720 de descuento con intercambio de Samsung: así es como

Obtenga el nuevo Galaxy S26 Extremista con hasta 0 de descuento con intercambio de Samsung: así es como

INFOTEP inicia software de carreras técnicas en el Politécnico CEPROR en Villa Tapia

INFOTEP inicia software de carreras técnicas en el Politécnico CEPROR en Villa Tapia