Willison, quien acuñó el término “inyección rápida” en 2022, siempre está atento a las vulnerabilidades de LLM. En su publicación, señala que las indicaciones del sistema de lección le recuerdan las señales de advertencia en el mundo existente que insinúan problemas pasados. “Un mensaje de sistema a menudo se puede interpretar como una registro detallada de todas las cosas que el maniquí solía hacer ayer de que se le dijo que no las hiciera”, escribe.
Luchando contra el problema de adulación
El disección de Willison se produce cuando las empresas de IA lidian con el comportamiento sycófánico en sus modelos. Como informamos en abril, los usuarios de ChatGPT se han quejado del “tono implacablemente positivo” de GPT-4O y la adulación excesiva desde la aggiornamento de marzo de Openai. Los usuarios describieron sintiéndose “mantequilla” por respuestas como “¡Buena pregunta! Eres muy astuto para preguntar eso”, con el ingeniero de software Craig Weiss tuiteando que “ChatGPT es de repente la anciano superioridad que he conocido”.
El problema se deriva de cómo las empresas recopilan comentarios de los usuarios durante la capacitación: las personas tienden a preferir respuestas que las hacen distinguir aceptablemente, creando un ciclo de feedback donde los modelos aprenden que el entusiasmo conduce a calificaciones más altas de los humanos. Como respuesta a los comentarios, OpenAi luego retrocedió el maniquí 4O de Chatgpt y incluso alteró el mensaje del sistema, poco que informamos y Willison incluso analizado En el momento.
Uno de los hallazgos más interesantes de Willison sobre Claude 4 se relaciona con la forma en que Anthrope ha guiado a uno y otro modelos de Claude para evitar el comportamiento sycofántico. “Claude nunca comienza su respuesta al afirmar una pregunta, idea u observación fue buena, noble, fascinante, profunda, excelente o cualquier otro calificativo positivo”, escribe Anthrope en el aviso. “Onda la adulación y replica directamente”.
Otros aspectos destacados del sistema del sistema
El indicador del sistema Claude 4 incluso incluye instrucciones extensas sobre cuándo Claude debe o no usar puntos de bala y listas, con múltiples párrafos dedicados a desalentar la creación de listas frecuentes en una conversación casual. “Claude no debe usar puntos de bala o listas numeradas para informes, documentos, explicaciones o a menos que el heredero solicite explícitamente una registro o clasificación”, dice el aviso.






