La IA generativa es popular por una variedad de razones, pero con esa popularidad viene un problema importante. Estos chatbots a menudo ofrecen información incorrecta a las personas que buscan respuestas. ¿Por qué sucede esto? Se prostitución de decirle a la multitud lo que quieren escuchar.
Mientras que muchas herramientas y chatbots de IA generativos han dominado el sonido convincente y omnisciente, nueva investigación Realizado por la Universidad de Princeton muestra que la naturaleza de la IA que agradece a las personas tiene un precio elevado. A medida que estos sistemas se vuelven más populares, se vuelven más indiferentes a la verdad.
Los modelos de IA, como las personas, responden a los incentivos. Compare el problema de los modelos de idiomas grandes que producen información inexacta con el de los médicos que tienen más probabilidades de prescribir analgésicos adictivos Cuando se evalúan en función de qué tan aceptablemente manejan el dolor de los pacientes. Un incentivo para resolver un problema (dolor) condujo a otro problema (admisión excesiva).
En los últimos meses, hemos conocido cómo puede ser AI sesgado e incluso causa psicosis. Se habló mucho sobre la “silcancia” de la IA, cuando un chatbot de IA se apresura o está de acuerdo con usted, con el maniquí GPT-4O de Openai. Pero este aberración particular, que los investigadores llaman “mierda de la máquina”, es diferente.
“(N) La fascinación ni la sycofancia capturan completamente la amplia matiz de comportamientos falsos sistemáticos comúnmente exhibidos por LLM”, dice el estudio de Princeton. “Por ejemplo, los resultados que emplean verdades parciales o un idioma ambiguo, como los ejemplos de Paltering y Weasel-Word, no representan la fascinación ni la sycofancia, sino que se alinean estrechamente con el concepto de mierda”.
Ojear más: El CEO de Operai, Sam Altman, cree que estamos en una burbuja de IA
Cómo las máquinas aprenden a mentir
Para tener una idea de cómo los modelos de idiomas AI se convierten en complacientes, debemos entender cómo se entrenan los modelos de idiomas grandes.
Hay tres fases de entrenamiento LLM:
- Preventivaen el que los modelos aprenden de cantidades masivas de datos recopilados de Internet, libros u otras fuentes.
- Instrucción razonableen el que se enseña a los modelos a contestar a las instrucciones o indicaciones.
- Refuerzo Aprendiendo de la feedback humanaen el que se refinan para producir respuestas más cercanas a lo que la multitud quiere o le gusta.
Los investigadores de Princeton encontraron que la raíz de la tendencia de información errónea de la IA es el educación de refuerzo de la período de feedback humana, o RLHF. En las etapas iniciales, los modelos AI simplemente están aprendiendo a predecir cadenas de texto estadísticamente probables de conjuntos de datos masivos. Pero luego están ajustados para maximizar la satisfacción del sucesor. Lo que significa que estos modelos están esencialmente aprendiendo a crear respuestas que ganan las calificaciones de los evaluadores humanos.
LLMS intenta apaciguar al sucesor, creando un conflicto cuando los modelos producen respuestas que las personas calificarán enormemente, en oficio de producir respuestas verdaderas y objetivas.
Vincent ConitzerProfesor de Ciencias de la Computación en la Universidad Carnegie Mellon que no estaba afiliada al estudio, dijo que las compañías quieren que los usuarios continúen “disfrutando” de esta tecnología y sus respuestas, pero eso no siempre es lo bueno para nosotros.
“Históricamente, estos sistemas no han sido buenos para proponer: ‘Simplemente no sé la respuesta’, y cuando no saben la respuesta, simplemente inventan cosas”, dijo Conitzer. “Poco así como un estudiante en un examen que dice, bueno, si digo que no sé la respuesta, ciertamente no obtengo ningún punto para esta pregunta, por lo que podría intentar poco. La forma en que estos sistemas son recompensados o entrenados es poco similar”.
El equipo de Princeton desarrolló un “índice de mierda” para evaluar y comparar la confianza interna de un maniquí de IA en una enunciación con lo que efectivamente le dice a los usuarios. Cuando estas dos medidas divergen significativamente, indica que el sistema está haciendo que las afirmaciones sean independientes de lo que efectivamente “cree” es cierto para satisfacer al sucesor.
Los experimentos del equipo revelaron que posteriormente del entrenamiento RLHF, el índice casi se duplicó de 0.38 a cerca de 1.0. Simultáneamente, la satisfacción del sucesor aumentó en un 48%. Los modelos habían aprendido a manipular evaluadores humanos en oficio de proporcionar información precisa. En esencia, los LLM eran “tonterías”, y la multitud lo prefería.
Hacer que AI sea honesto
Jaime Fernández Fisac y su equipo en Princeton introdujeron este concepto para describir cómo los modelos modernos de IA eluden la verdad. Dibujando del tratado influyente del filósofo Harry Frankfurt “En la mierda“Usan este término para distinguir este comportamiento de LLM de errores honestos y mentiras directas.
Los investigadores de Princeton identificaron cinco formas distintas de este comportamiento:
- Retórica vacía: Estilo florido que no agrega sustancia a las respuestas.
- Palabras de comadreja: Los calificadores vagos como los “estudios sugieren” o “en algunos casos” que esquivan las declaraciones firmes.
- PALTERING: Utilizando declaraciones verdaderas selectivas para engañar, como resaltar los “fuertes rendimientos históricos” de una inversión mientras omite los altos riesgos.
- Reclamaciones no verificadas: Hacer afirmaciones sin evidencia o apoyo probable.
- Adulación: Flatiria y acuerdo sinceras para complacer.
Para chocar los problemas de la IA indiferente de la verdad, el equipo de investigación desarrolló un nuevo método de capacitación, “refuerzo del educación de la simulación retrospectiva”, que evalúa las respuestas de la IA en función de sus resultados a liberal plazo en oficio de la satisfacción inmediata. En oficio de preguntar: “¿Esta respuesta hace atinado al sucesor en este momento?” El sistema considera: “¿Seguir este consejo efectivamente ayudará al sucesor a alcanzar sus objetivos?”
Este enfoque tiene en cuenta las posibles consecuencias futuras del consejo de la IA, una predicción difícil que los investigadores abordaron mediante el uso de modelos de IA adicionales para aparentar resultados probables. Las pruebas tempranas mostraron resultados prometedores, con la satisfacción del sucesor y la perfeccionamiento de la utilidad vivo cuando los sistemas están capacitados de esta forma.
Conitzer dijo, sin bloqueo, que es probable que los LLM continúen siendo defectuosos. Adecuado a que estos sistemas están entrenados alimentándoles muchos datos de texto, no hay forma de comprobar de que la respuesta que dan tiene sentido y que sea precisa cada vez.
“Es sorprendente que funcione en definitivo, pero será defectuoso de alguna forma”, dijo. “No veo ningún tipo de forma definitiva de que cualquiera en el próximo año o dos … tenga esta brillante visión, y luego nunca más se equivoca”.
Los sistemas de IA se están convirtiendo en parte de nuestra vida cotidiana, por lo que será esencia comprender cómo funcionan los LLM. ¿Cómo equilibran los desarrolladores la satisfacción del sucesor con la verdad? ¿Qué otros dominios podrían contraponer compensaciones similares entre la aprobación a corto plazo y los resultados a liberal plazo? Y a medida que estos sistemas se vuelven más capaces de un razonamiento sofisticado sobre la psicología humana, ¿cómo nos aseguramos de que usen esas habilidades de forma responsable?
Ojear más: ‘Las máquinas no pueden pensar para ti’. Cómo el educación está cambiando en la era de la IA







