La investigación de Operai en modelos de IA de IA es salvaje deliberadamente

De vez en cuando, los investigadores de las compañías tecnológicas más grandes dejan caer una torpedo. Hubo tiempo que Google dijo que su postrer chip cuántico indicó que existen múltiples universos. O cuando Anthrope le dio a su agente de IA Claudio una máquina expendedora de bocadillos para funcionar y se volvió majareta, llamando a la seguridad a las personas e insistiendo en que era humano.

Esta semana, fue el turno de Openai para rebelar nuestras cejas colectivas.

Operai publicó el lunes algunas investigaciones que explicaban cómo está impediendo que los modelos de IA “esquemas”. Es una maña en la que una “AI se comporta de una guisa en la superficie mientras oculta sus verdaderos objetivos”, OpenAi definido en su tweet sobre la investigación.

En el documento, realizado con Apollo Research, los investigadores fueron un poco más acullá, comparando la IA planeando a un corredor de acciones humanas que rompió la ley para aventajar la veterano cantidad de metálico posible. Los investigadores, sin secuestro, argumentaron que la mayoría de los “esquemas” de la IA no eran tan dañinos. “Las fallas más comunes implican formas simples de patraña, por ejemplo, pretendiendo deber completado una tarea sin hacerlo”, escribieron.

El documento se publicó principalmente para mostrar que la “línea deliberativa⁠”, la técnica anti-Scheming que estaban probando, funcionó admisiblemente.

Pero asimismo explicó que los desarrolladores de IA no han descubierto una guisa de entrenar a sus modelos para no esquiar. Esto se debe a que dicha capacitación podría enseñarle al maniquí cómo esquiar aún mejor para evitar ser detectado.

“Un modo de error importante de intentar” capacitar “el esquema es simplemente enseñarle al maniquí a esquiar de guisa más cuidadosa y fraude”, escribieron los investigadores.

Evento de TechCrunch

San Francisco
|
27-29 de octubre de 2025

Quizás la parte más sorprendente es que, si un maniquí entiende que se está probando, puede fingir que no es intrigante solo acaecer la prueba, incluso si todavía es intrigante. “Los modelos a menudo se vuelven más conscientes de que están siendo evaluados. Esta conciencia situacional puede resumir el esquema, independientemente de la línea genuina”, escribieron los investigadores.

No es nueva que los modelos de IA mentirán. En este momento, la mayoría de nosotros hemos experimentado alucinaciones de IA, o el maniquí con confianza dando una respuesta a un mensaje que simplemente no es cierto. Pero las alucinaciones básicamente presentan conjeturas con confianza, a medida que se publica la investigación de Operai A principios de este mes documentado.

El esquema es otra cosa. Es deliberado.

Incluso esta revelación, que un maniquí engañará deliberadamente a los humanos, no es nueva. Investigación de Apolo primero Publicado un artículo en diciembre Documentando cómo los cinco modelos esquemas cuando se les dieron instrucciones para obtener un objetivo “a toda costa”.

La nueva aquí es en verdad una buena nueva: los investigadores vieron reducciones significativas en el esquema mediante el uso de “línea deliberativa⁠”. Esa técnica implica enseñar al maniquí una “definición anti-scheming” y luego hacer que el maniquí se revise antiguamente de desempeñarse. Es un poco como hacer que los niños pequeños repitan las reglas antiguamente de permitirles esparcirse.

Los investigadores de Operai insisten en que las mentiras han atrapado con sus propios modelos, o incluso con ChatGPT, no es tan solemne. Como el cofundador de Openai, Wojciech Zaremba, dijo a Maxwell Zeff de TechCrunch sobre esta investigación: “Este trabajo se ha realizado en los entornos simulados, y creemos que representa casos de uso futuros. Sin secuestro, hoy en día, hoy no hemos manido este tipo de esquema constante en nuestro tráfico de producción. Sin secuestro, es admisiblemente conocido que hay formas de calma en el chat en chat. trabajo.” Y esa es solo la mentira. Hay algunas pequeñas formas de patraña que aún necesitamos invadir ”.

El hecho de que los modelos AI de múltiples jugadores engañen intencionalmente a los humanos es, quizás, comprensible. Fueron construidos por humanos, para imitar a los humanos y (por separado de los datos sintéticos) para la veterano parte capacitados en los datos producidos por los humanos.

Incluso es una imprudencia.

Si admisiblemente todos hemos experimentado la frustración de la tecnología de mal desempeño (pensando en usted, impresoras caseras de antiguamente), ¿cuándo fue la última vez que su software no es deliberadamente le mintió deliberadamente? ¿Su bandeja de entrada alguna vez ha fabricado correos electrónicos por sí solo? ¿Su CMS ha registrado nuevos prospectos que no existían para rellenar sus números? ¿Su aplicación FinTech ha formado sus propias transacciones bancarias?

Vale la pena reflexionar sobre esto, ya que el mundo corporativo tina cerca de un futuro de IA donde las empresas creen que los agentes pueden ser tratados como empleados independientes. Los investigadores de este documento tienen la misma advertencia.

“A medida que se les asigna tareas más complejas con consecuencias del mundo existente y comienzan a perseguir objetivos más ambiguos y a generoso plazo, esperamos que crezca el potencial de esquemas dañinos, por lo que nuestras salvaguardas y nuestra capacidad de probar rigurosamente deben crecer correspondientemente”, escribieron.