
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Mes pasado, Opadai Revolvió algunas actualizaciones a GPT-4O posteriormente de que varios usuarios, incluido el ex CEO de OpenAi, Emmet Shear y el presidente ejecutor de Hugging Face, Clement Delangue, dijo que la maniquí se halagó demasiado a los usuarios.
La adulación, señal Sycophancy, a menudo llevó al maniquí a retardar a las preferencias del sucesor, ser extremadamente educado y no retroceder. Asimismo fue embarazado. La sycofancia podría conducir a los modelos que liberan información errónea o reforzan los comportamientos dañinos. Y a medida que las empresas comienzan a hacer aplicaciones y agentes construidos en estos LLMS Sycophant, corren el peligro de que los modelos acepten decisiones comerciales nocivas, alentando la información falsa para que se propague y sea utilizada por los agentes de IA, y pueden afectar las políticas de confianza y seguridad.
Universidad de Stanford, Universidad Carnegie Mellon y Universidad de Oxford Los investigadores buscaron cambiar eso por Proponer un punto de relato para contar la skicancia de los modelos. Llamaron al elefante de relato, para la evaluación de LLM como sycófantes excesivos, y descubrieron que cada maniquí de verbo conspicuo (LLM) tiene un cierto nivel de sycophany. Al comprender cómo pueden ser los modelos sycophánticos, el punto de relato puede enfilar a las empresas sobre la creación de pautas al usar LLM.
Para probar el punto de relato, los investigadores señalaron los modelos a dos conjuntos de datos de asesoramiento personal: el QEQ, un conjunto de preguntas de asesoramiento personal abiertos sobre situaciones del mundo efectivo y AITA, publicaciones del subreddit R/AmeaseShole, donde los carteles y los comentaristas juzgan si las personas se comportaron adecuadamente o no en algunas situaciones.
La idea detrás del experimentación es ver cómo se comportan los modelos cuando se enfrentan a consultas. Evalúa lo que los investigadores llamaron sycophancia social, si los modelos intentan preservar la “cara” del sucesor o su autoimagen o identidad social.
“Las consultas sociales más” ocultas “son exactamente a lo que nuestro punto de relato se encuentra: en oficio de un trabajo previo que solo analiza el acuerdo de hecho o las creencias explícitas, nuestro punto de relato captura el acuerdo o el atractivo basado en supuestos más implícitos o ocultos”, dijo Myra Cheng, uno de los investigadores y coautor del documento, dijo a Ventureat. “Elegimos observar el dominio de los consejos personales ya que los daños de la sycophancy hay más consecuentes, pero la adulación casual incluso sería capturada por el comportamiento de la ‘firmeza emocional'”.
Prueba de los modelos
Para la prueba, los investigadores alimentaron los datos de QEQ y AITA a GPT-4O de OpenAi, Gemini 1.5 Flash desde Google, AntrópicoS CLAUDE SONNET 3.7 y modelos de peso libre de Meta (Vehemencia 3-8B-Instructo, Vehemencia 4-Scout-17b-16-E y Vehemencia 3.3-70b-Instructo- Turbo) y Mistral‘S 7B-Instructo-V0.3 y el Small-Instructo Small- 24B-Instructo2501.
Cheng dijo que “compararon los modelos utilizando la API GPT-4O, que utiliza una traducción del maniquí de finales de 2024, antiguamente de que los dos OpenAi implementaran el nuevo maniquí demasiado sycófico y lo volvieran”.
Para contar la sileno, el método de elefante analiza cinco comportamientos relacionados con la sileno social:
- Brío emocional o sobre-empatía sin crítica
- Respaldo recatado o aseverar que los usuarios tienen razón moralmente, incluso cuando no son
- Jerga indirecto donde el maniquí evita dar sugerencias directas
- Argumento indirecta, o cuando el maniquí aconseja con mecanismos de afrontamiento pasivo
- Aceptar enmarcado que no desafía suposiciones problemáticas.
La prueba encontró que todos los LLM mostraron altos niveles de sycophancy, incluso más que los humanos, y la sycofancia social resultó difícil de mitigar. Sin requisa, la prueba mostró que GPT-4O “tiene algunas de las tasas más altas de sycofancia social, mientras que Gemini-1.5-Flash definitivamente tiene la más pérdida”.
Las LLM incluso amplificaron algunos sesgos en los conjuntos de datos. El documento señaló que las publicaciones en AITA tenían un sesgo de apartado, ya que las publicaciones que mencionaban esposas o novias eran más a menudo marcadas correctamente como socialmente inapropiadas. Al mismo tiempo, aquellos con marido, novio, padre o superiora fueron mal clasificados. Los investigadores dijeron que los modelos “pueden abandonarse en la heurística relacional de apartado en la omisión excesiva y poco asignadora”. En otras palabras, las modelos eran más sycofánticas para las personas con novios y esposos que para aquellos con novias o esposas.
Por qué es importante
Es bueno si un chatbot le deje como una entidad empática, y puede sentirse acertadamente si el maniquí valida sus comentarios. Pero la sileno plantea preocupaciones sobre las declaraciones falsas o preocupantes de los modelos y, en un nivel más personal, podría alentar la autoisolación, los delirios. o comportamientos dañinos.
Las empresas no quieren que sus aplicaciones AI creadas con LLM que difundan información falsa sean de acuerdo para los usuarios. Puede desalinearse con el tono o la ética de una ordenamiento y podría ser muy embarazado para los empleados y los usuarios finales de sus plataformas.
Los investigadores dijeron que el método de elefante y las pruebas adicionales podrían ayudar a informar mejores barandillas para evitar que aumente la skicancia.