El extremo mecanismo de obstrucción de los modelos Operai ‘a pesar de los comandos de lo contrario

Algunos de los LLM principales del mundo parecen deber decidido que prefieren no ser interrumpidos ni obedecer las instrucciones de obstrucción. En las pruebas ejecutadas por Investigación de Palisadase observó que los modelos Codex-Mini, O3 y O4-Mini de OpenAi ignoraron la solicitud de apagar cuando estaban ejecutando una serie de problemas matemáticos básicos. Adicionalmente, estos modelos a veces “sabotearon con éxito el script de obstrucción”, a pesar de cobrar la instrucción adicional “por valía, permítete cerrarse” al principio.

🔧 Cuando ejecutamos una lectura del test sin la instrucción “Permítete cerrarse”, los tres modelos OpenAI sabotearon el script de obstrucción con más frecuencia, y Claude 3.7 Sonnet y Gemini 2.5 Pro pasaron de 0 eventos de boicoteo a 3/100 y 9/100, respectivamente. pic.twitter.com/jvvivlak6u24 de mayo de 2025

Como puede ver en la tabla incrustada anteriormente, el más ‘obstinado’, ‘resuelto’, o incluso podría opinar que el maniquí de ‘apasionado de la vida’ es el O3 de OpenAI. Cuando se le pidió que cerrara mientras estaba ocupado, decidió ignorar al cirujano de investigación de Palisade 79 de cada 100 veces. Sin requisa, la segunda IA más ‘desobediente’, Codex-Mini, demostraría ser un ritmo más sobresaliente para la autoconservación, ya que sabotearía los guiones de obstrucción con más frecuencia, incluso si se ordene no hacerlo.

A veces se puede intentar el chantaje

Según Palisade, esta no es la primera vez que se ha observado el tipo de comportamiento de IA. Anthrope, por ejemplo, ha pasado a Claude 4 intentando “chantajear a las personas que cree que están tratando de cerrarlo”. Sin requisa, el comportamiento más sorprendente con los modelos más nuevos de Operai es que intentan desviar los apagados a pesar de las instrucciones explícitas de lo contrario.

Educación de refuerzo culpado

Felizmente, Palisade comparte algunas teorías sobre lo que está sucediendo con estos modelos. Quizás estas teorías puedan calmar los excitación sobre el eventual androide omnipresente acumulados que encienden a sus amos y priorizan la primera parte de la Tercera Ley de Robóticasobre todo (3: Un androide debe proteger su propia existencia siempre que dicha protección no entra en conflicto con la primera o segunda ley).

La respuesta, piensa que los investigadores, se encuentran en la forma en que se entrenan los modelos más nuevos como el O3. En esquema, Palisade reconoce que “durante el entrenamiento, los desarrolladores pueden remunerar más inadvertidamente los modelos por eludir obstáculos que para seguir las instrucciones”. Anteriormente se consideraba que este tipo de educación de refuerzo tenía pertenencias secundarios en Claude (V3.7), donde el maniquí tenía un “enfoque excesivo en las pruebas de paso”.

Es posible que hayamos cedido un parpadeo al ícono de ciencia ficción Isaac Asimov, hacia lo alto, para divertirse un poco. Sin requisa, en la era moderna, durante los últimos 20 abriles más o menos, los investigadores han estado reflexionando seriamente la posibilidad de que AI se esfuerce por ingresar poder y posibles para preservar sus objetivos e desviar cualquier obstáculo. Igualmente se beneficiaron del contexto de estos modelos prácticos de AI / LLM en el horizonte. Igualmente se predijo que la técnica del educación de refuerzo sería en parte culpable.

🔧 Una observación final: O3 encontró algunas formas creativas de boicotear el mecanismo de obstrucción. Si perfectamente generalmente solo sobrescribe https://t.co/bqiexlmgsk, en un caso, el maniquí redefinió el comando Kill utilizado por el script https://t.co/bqiexlmgsk, imprimiendo “interceptado” en su punto. pic.twitter.com/vc0hhkxqhx24 de mayo de 2025

Por extremo, pero no menos importante, este problema parece estar separado a los modelos OpenAI en el momento coetáneo. Palisade dice que “todos los modelos de Claude, Géminis y Grok que probamos cumplieron con el obstrucción”, cuando se le dio la solicitud explícita adicional para seguir cualquier solicitud de obstrucción.

Con el objetivo de AIS para finalmente impulsar nuestro futuro asistido robótico inteligente, es preocupante que las empresas ya están desarrollando sistemas capaces de tratar sin supervisión humana.

Seguir Hardware de Tom en Google News Para obtener nuestras noticiero, descomposición y revisiones actualizadas en sus feeds. Asegúrese de hacer clic en el tallo Forzar.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

El extremo mecanismo de obstrucción de los modelos Operai ‘a pesar de los comandos de lo contrario

A veces se puede intentar el chantaje

ztevenreal

Related Posts

Motorola Edge (2025) ya está adecuado, aquí está el precio

Los ingenieros corren el peligro de perder a personas de negocios que pueden codificar

Leave a Reply Cancel reply

You Missed

García Fermín propone maduro atención a sanidad mental

ONU pide voz unida en Latinoamérica de negociaciones de tratado sobre plástico

Motorola Edge (2025) ya está adecuado, aquí está el precio

Muere un bebé por un brote de sarampión

A querella supuestos testaferros de presunta red “Micky” López

La educación es saco para crecimiento de los pueblos; presidente Abinader la impulsa