Las instrucciones de IA ocultas revelan cómo los controles antrópicos Claude 4

Willison, quien acuñó el término “inyección rápida” en 2022, siempre está atento a las vulnerabilidades de LLM. En su publicación, señala que las indicaciones del sistema de lección le recuerdan las señales de advertencia en el mundo existente que insinúan problemas pasados. “Un mensaje de sistema a menudo se puede interpretar como una registro detallada de todas las cosas que el maniquí solía hacer ayer de que se le dijo que no las hiciera”, escribe.

Luchando contra el problema de adulación

Un robot ilustrado tiene cuatro corazones rojos con sus cuatro brazos robóticos.

El disección de Willison se produce cuando las empresas de IA lidian con el comportamiento sycófánico en sus modelos. Como informamos en abril, los usuarios de ChatGPT se han quejado del “tono implacablemente positivo” de GPT-4O y la adulación excesiva desde la aggiornamento de marzo de Openai. Los usuarios describieron sintiéndose “mantequilla” por respuestas como “¡Buena pregunta! Eres muy astuto para preguntar eso”, con el ingeniero de software Craig Weiss tuiteando que “ChatGPT es de repente la anciano superioridad que he conocido”.

El problema se deriva de cómo las empresas recopilan comentarios de los usuarios durante la capacitación: las personas tienden a preferir respuestas que las hacen distinguir aceptablemente, creando un ciclo de feedback donde los modelos aprenden que el entusiasmo conduce a calificaciones más altas de los humanos. Como respuesta a los comentarios, OpenAi luego retrocedió el maniquí 4O de Chatgpt y incluso alteró el mensaje del sistema, poco que informamos y Willison incluso analizado En el momento.

Uno de los hallazgos más interesantes de Willison sobre Claude 4 se relaciona con la forma en que Anthrope ha guiado a uno y otro modelos de Claude para evitar el comportamiento sycofántico. “Claude nunca comienza su respuesta al afirmar una pregunta, idea u observación fue buena, noble, fascinante, profunda, excelente o cualquier otro calificativo positivo”, escribe Anthrope en el aviso. “Onda la adulación y replica directamente”.

Otros aspectos destacados del sistema del sistema

El indicador del sistema Claude 4 incluso incluye instrucciones extensas sobre cuándo Claude debe o no usar puntos de bala y listas, con múltiples párrafos dedicados a desalentar la creación de listas frecuentes en una conversación casual. “Claude no debe usar puntos de bala o listas numeradas para informes, documentos, explicaciones o a menos que el heredero solicite explícitamente una registro o clasificación”, dice el aviso.

Related Posts

Respuestas del mini crucigrama del NYT de hoy para el 18 de marzo

Buscando el mas nuevo ¿Respuesta del mini crucigrama? Haga clic aquí para obtener las sugerencias de mini crucigramas de hoy, así como nuestras respuestas y sugerencias diarias para los acertijos…

Meta cerrará el paso a VR Horizon Worlds en junio

Horizon Worlds, el primer paso de Meta en un metaverso, será inaccesible a través de auriculares de sinceridad posible posteriormente del 15 de junio de 2026. La compañía compartió planes…

You Missed

Respuestas del mini crucigrama del NYT de hoy para el 18 de marzo

Respuestas del mini crucigrama del NYT de hoy para el 18 de marzo

Decisiones claves al comprar una vivienda | AlMomento.net

Decisiones claves al comprar una vivienda | AlMomento.net

Jean Andrés Pumarol saldrá osado tras matar mujer en Naco – Remolacha

Jean Andrés Pumarol saldrá osado tras matar mujer en Naco – Remolacha

ETED realizará mantenimiento preventivo en subestación de Puerto Plata – Remolacha

ETED realizará mantenimiento preventivo en subestación de Puerto Plata – Remolacha

Meta cerrará el paso a VR Horizon Worlds en junio

Meta cerrará el paso a VR Horizon Worlds en junio

¿Cómo el maquillaje puede provocar acné?

¿Cómo el maquillaje puede provocar acné?