Las instrucciones de IA ocultas revelan cómo los controles antrópicos Claude 4

Willison, quien acuñó el término “inyección rápida” en 2022, siempre está atento a las vulnerabilidades de LLM. En su publicación, señala que las indicaciones del sistema de lección le recuerdan las señales de advertencia en el mundo existente que insinúan problemas pasados. “Un mensaje de sistema a menudo se puede interpretar como una registro detallada de todas las cosas que el maniquí solía hacer ayer de que se le dijo que no las hiciera”, escribe.

Luchando contra el problema de adulación

Un robot ilustrado tiene cuatro corazones rojos con sus cuatro brazos robóticos. — Crédito:

alashi a través de Getty Images

El disección de Willison se produce cuando las empresas de IA lidian con el comportamiento sycófánico en sus modelos. Como informamos en abril, los usuarios de ChatGPT se han quejado del “tono implacablemente positivo” de GPT-4O y la adulación excesiva desde la aggiornamento de marzo de Openai. Los usuarios describieron sintiéndose “mantequilla” por respuestas como “¡Buena pregunta! Eres muy astuto para preguntar eso”, con el ingeniero de software Craig Weiss tuiteando que “ChatGPT es de repente la anciano superioridad que he conocido”.

El problema se deriva de cómo las empresas recopilan comentarios de los usuarios durante la capacitación: las personas tienden a preferir respuestas que las hacen distinguir aceptablemente, creando un ciclo de feedback donde los modelos aprenden que el entusiasmo conduce a calificaciones más altas de los humanos. Como respuesta a los comentarios, OpenAi luego retrocedió el maniquí 4O de Chatgpt y incluso alteró el mensaje del sistema, poco que informamos y Willison incluso analizado En el momento.

Uno de los hallazgos más interesantes de Willison sobre Claude 4 se relaciona con la forma en que Anthrope ha guiado a uno y otro modelos de Claude para evitar el comportamiento sycofántico. “Claude nunca comienza su respuesta al afirmar una pregunta, idea u observación fue buena, noble, fascinante, profunda, excelente o cualquier otro calificativo positivo”, escribe Anthrope en el aviso. “Onda la adulación y replica directamente”.

Otros aspectos destacados del sistema del sistema

El indicador del sistema Claude 4 incluso incluye instrucciones extensas sobre cuándo Claude debe o no usar puntos de bala y listas, con múltiples párrafos dedicados a desalentar la creación de listas frecuentes en una conversación casual. “Claude no debe usar puntos de bala o listas numeradas para informes, documentos, explicaciones o a menos que el heredero solicite explícitamente una registro o clasificación”, dice el aviso.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Las instrucciones de IA ocultas revelan cómo los controles antrópicos Claude 4

Luchando contra el problema de adulación

Otros aspectos destacados del sistema del sistema

ztevenreal

Related Posts

La automatización de la pantalla Gemini se implementará en la serie Pixel 10

Mordida de seguridad: para principiar, es probable que sus mensajes directos de Instagram nunca hayan estado cifrados

You Missed

Presidente Abinader entrevista finca tabacalera “La Milagrosa” de Arturo Fuente en Monte Plata

La automatización de la pantalla Gemini se implementará en la serie Pixel 10

LeBron apunta a juguetear un año más en la NBA

Los Tigres del Boreal llegan por primera vez a RD

¿Qué planes tiene Trump para La Habana tras las sanciones?

exposición Mozart Estados Unidos en la biblioteca Morgan