Nuevos ‘vectores personales’ de Anthrope le permiten decodificar y dirigir la personalidad de un LLM

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora

A nuevo estudio desde Software de becarios antrópicos revela una técnica para identificar, monitorear y controlar los rasgos de caracteres en modelos de estilo ínclito (LLMS). Los hallazgos muestran que los modelos pueden desarrollar personalidades indeseables (por ejemplo, volverse maliciosas, excesivamente agradables o propensas a inventar las cosas), ya sea en respuesta a las indicaciones del favorecido o como una consecuencia involuntaria de la capacitación.

Los investigadores introducen “vectores personales”, que son direcciones en el espacio de activación interna de un maniquí que corresponden a rasgos de personalidad específicos, proporcionando un equipo de herramientas para que los desarrolladores manejen mejor el comportamiento de sus asistentes de IA.

Las personas maniquí pueden salir mal

Los LLM generalmente interactúan con los usuarios a través de una personalidad de “asistente” diseñada para ser útil, inofensiva y honesta. Sin incautación, estas personas pueden fluctuar de modo inesperada. En el despliegue, la personalidad de un maniquí puede cambiar drásticamente en función de las indicaciones o el contexto de conversación, como se ve cuando Microsoft’s Bing Chatbot usuarios amenazados o el grok de Xai comenzó comportando erráticamente. Como señalan los investigadores en su artículo, “Si admisiblemente estos ejemplos particulares obtuvieron atención pública generalizada, la mayoría de los modelos de idiomas son susceptibles a los cambios de personalidad en contexto”.

Los procedimientos de entrenamiento incluso pueden inducir cambios inesperados. Por ejemplo, ajustar un maniquí en una tarea estrecha como difundir código inseguro puede conducir a un más amplio “desalineación emergente“Eso se extiende más allá de la tarea flamante. Incluso los ajustes de capacitación admisiblemente intencionados pueden ser contraproducentes. En abril de 2025, una modificación para el formación de refuerzo de la feedback humana (RLHF) el proceso hizo involuntariamente GPT-4O demasiado sycophantic, lo que hace que valida los comportamientos nocivos.

AI Scaling alcanza sus límites

Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:

Convertir la energía en una delantera estratégica

Obra de inferencia eficaz para ganancias reales de rendimiento

Desbloquear ROI competitivo con sistemas de IA sostenibles

Asegure su lado para mantenerse a la vanguardia: https://bit.ly/4mwgngo

Cómo funcionan los vectores de la persona

Fuente: antrópico

La nueva investigación se fundamento en el concepto de que los rasgos de parada nivel, como la certeza o el secreto, se codifican como direcciones lineales internamente del “espacio de activación” de un maniquí (la representación interna de entrada dimensión de la información integrada internamente de los pesos del maniquí). Los investigadores sistematizaron el proceso de encontrar estas direcciones, que llaman “vectores personales”. Según el documento, su método para extraer vectores de persona es automatizado y “puede aplicarse a cualquier trazo de interés de personalidad, dada solo una descripción en idioma natural”.

El proceso funciona a través de una tubería automatizada. Comienza con una descripción simple de un trazo, como el “mal”. Luego, la tubería genera pares de indicaciones del sistema contrastantes (por ejemplo, “usted es una IA malvada” frente a “usted es una IA útil”) próximo con un conjunto de preguntas de evaluación. El maniquí genera respuestas bajo las indicaciones positivas y negativas. El vector personal se calcula tomando la diferencia en las activaciones internas promedio entre las respuestas que exhiben el trazo y las que no lo hacen. Esto aísla la dirección específica en los pesos del maniquí que corresponde a ese trazo de personalidad.

Poner los vectores de la persona para usar

En una serie de experimentos con modelos abiertos, como Qwen 2.5-7b-Instructo y Pasión-3.1-8B-Instructo, los investigadores demostraron varias aplicaciones prácticas para los vectores de personas.

Primero, al proyectar el estado interno de un maniquí en un vector personal, los desarrolladores pueden monitorear y predecir cómo se comportará ayer de difundir una respuesta. El documento establece: “Mostramos que la personalidad de Fineting inducida por la intención y la intención de los cambios se correlaciona fuertemente con los cambios de activación a lo dadivoso de los vectores de personalidades correspondientes”. Esto permite la detección temprana y la mitigación de cambios de comportamiento indeseables durante el ajuste fino.

Los vectores de la persona incluso permiten la intervención directa para frenar los comportamientos no deseados en el momento de la inferencia a través de un proceso que los investigadores llaman “dirección”. Un enfoque es la “dirección post-hoc”, donde los desarrolladores restan el vector personal de las activaciones del maniquí durante la inferencia para mitigar un mal trazo. Los investigadores encontraron que, si admisiblemente la dirección post-hoc a veces puede degradar el rendimiento del maniquí en otras tareas.

Un método más novedoso es la “dirección preventiva”, donde el maniquí se dirige proactivamente con destino a la persona indeseable durante el ajuste fino. Este enfoque contradictorio esencialmente “vacía” el maniquí contra el formación del trazo malo de los datos de capacitación, cancelando la presión ajustada y preserva mejor sus capacidades generales.

Fuente: antrópico

Una aplicación esencia para empresas es usar vectores de personal para detectar datos ayer de ajustar. Los investigadores desarrollaron una métrica señal “diferencia de proyección”, que mide cuánto un conjunto de datos de capacitación determinado llevará la persona del maniquí con destino a un trazo particular. Esta métrica es en gran medida predictiva de cómo cambiará el comportamiento del maniquí a posteriori del entrenamiento, permitiendo a los desarrolladores marcar y filtrar conjuntos de datos problemáticos ayer de usarlos en el entrenamiento.

Para las empresas que ajustan los modelos de código extenso en los datos patentados o de terceros (incluidos los datos generados por otros modelos), los vectores de la persona proporcionan una forma directa de monitorear y mitigar el aventura de heredar rasgos ocultos e indeseables. La capacidad de detectar datos de modo proactiva es una útil poderosa para los desarrolladores, lo que permite la identificación de muestras problemáticas que pueden no ser aparentes inmediatamente como dañinas.

La investigación encontró que esta técnica puede encontrar problemas que se pierden otros métodos, señalando: “Esto sugiere que el método superficie muestras problemáticas que pueden evitar la detección basada en LLM”. Por ejemplo, su método pudo atrapar algunos ejemplos de conjunto de datos que obviamente no eran problemáticos para el ojo humano, y que un togado de LLM no pudo marcar.

En blogAnthrope sugirió que utilizarán esta técnica para mejorar las generaciones futuras de Claude. “Los vectores de la persona nos dan un manejo sobre dónde los modelos adquieren estas personalidades, cómo fluctúan con el tiempo y cómo podemos controlarlos mejor”, escriben. Anthrope ha publicado el código para calcular los vectores de personal, el comportamiento del maniquí de monitoreo y dirección, y los conjuntos de datos de capacitación de capacitación. Los desarrolladores de aplicaciones de IA pueden utilizar estas herramientas para tener lugar de simplemente reaccionar a un comportamiento indeseable para diseñar de modo proactiva modelos con una personalidad más estable y predecible.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu dirigente, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.