Las instrucciones de IA ocultas revelan cómo los controles antrópicos Claude 4

Willison, quien acuñó el término “inyección rápida” en 2022, siempre está atento a las vulnerabilidades de LLM. En su publicación, señala que las indicaciones del sistema de lección le recuerdan las señales de advertencia en el mundo existente que insinúan problemas pasados. “Un mensaje de sistema a menudo se puede interpretar como una registro detallada de todas las cosas que el maniquí solía hacer ayer de que se le dijo que no las hiciera”, escribe.

Luchando contra el problema de adulación

Un robot ilustrado tiene cuatro corazones rojos con sus cuatro brazos robóticos.

El disección de Willison se produce cuando las empresas de IA lidian con el comportamiento sycófánico en sus modelos. Como informamos en abril, los usuarios de ChatGPT se han quejado del “tono implacablemente positivo” de GPT-4O y la adulación excesiva desde la aggiornamento de marzo de Openai. Los usuarios describieron sintiéndose “mantequilla” por respuestas como “¡Buena pregunta! Eres muy astuto para preguntar eso”, con el ingeniero de software Craig Weiss tuiteando que “ChatGPT es de repente la anciano superioridad que he conocido”.

El problema se deriva de cómo las empresas recopilan comentarios de los usuarios durante la capacitación: las personas tienden a preferir respuestas que las hacen distinguir aceptablemente, creando un ciclo de feedback donde los modelos aprenden que el entusiasmo conduce a calificaciones más altas de los humanos. Como respuesta a los comentarios, OpenAi luego retrocedió el maniquí 4O de Chatgpt y incluso alteró el mensaje del sistema, poco que informamos y Willison incluso analizado En el momento.

Uno de los hallazgos más interesantes de Willison sobre Claude 4 se relaciona con la forma en que Anthrope ha guiado a uno y otro modelos de Claude para evitar el comportamiento sycofántico. “Claude nunca comienza su respuesta al afirmar una pregunta, idea u observación fue buena, noble, fascinante, profunda, excelente o cualquier otro calificativo positivo”, escribe Anthrope en el aviso. “Onda la adulación y replica directamente”.

Otros aspectos destacados del sistema del sistema

El indicador del sistema Claude 4 incluso incluye instrucciones extensas sobre cuándo Claude debe o no usar puntos de bala y listas, con múltiples párrafos dedicados a desalentar la creación de listas frecuentes en una conversación casual. “Claude no debe usar puntos de bala o listas numeradas para informes, documentos, explicaciones o a menos que el heredero solicite explícitamente una registro o clasificación”, dice el aviso.

Related Posts

La automatización de la pantalla Gemini se implementará en la serie Pixel 10

Tras la disponibilidad en el Galaxy S26 la semana pasada, la automatización de pantalla Gemini ahora se está implementando en la serie Pixel 10 como parte del Feature Drop de…

Mordida de seguridad: para principiar, es probable que sus mensajes directos de Instagram nunca hayan estado cifrados

9to5Mac Security Bite es presentado exclusivamente por Mosyle, la única Plataforma Unificada de Apple. Todo lo que hacemos es hacer que los dispositivos Apple estén listos para trabajar y sean…

You Missed

Presidente Abinader entrevista finca tabacalera “La Milagrosa” de Arturo Fuente en Monte Plata

Presidente Abinader entrevista finca tabacalera “La Milagrosa” de Arturo Fuente en Monte Plata

La automatización de la pantalla Gemini se implementará en la serie Pixel 10

La automatización de la pantalla Gemini se implementará en la serie Pixel 10

LeBron apunta a juguetear un año más en la NBA

LeBron apunta a juguetear un año más en la NBA

Los Tigres del Boreal llegan por primera vez a RD

Los Tigres del Boreal llegan por primera vez a RD

¿Qué planes tiene Trump para La Habana tras las sanciones?

¿Qué planes tiene Trump para La Habana tras las sanciones?

exposición Mozart Estados Unidos en la biblioteca Morgan

exposición Mozart Estados Unidos en la biblioteca Morgan