La IA generativa es tremendamente popular, con millones de usuarios cada día, entonces, ¿por qué los chatbots a menudo hacen las cosas tan mal? En parte, se debe a que están capacitados para realizar como si el cliente siempre tuviera la razón. Básicamente, te dice lo que cree que quieres escuchar.
Si perfectamente muchas herramientas de inteligencia fabricado generativa y chatbots han conseguido sonar convincentes y omniscientes, nueva investigación Un estudio realizado por la Universidad de Princeton muestra que la naturaleza de la IA para complacer a las personas tiene un precio elevado. A medida que estos sistemas se vuelven más populares, se vuelven más indiferentes a la verdad.
No se pierda nadie de nuestro contenido tecnológico imparcial y reseñas de laboratorio. Añadir CNET como fuente preferida de Google.
Los modelos de IA, al igual que las personas, responden a incentivos. Compare el problema de los grandes modelos de verbo que producen información inexacta con el de los médicos que tienen más probabilidades de prescribir analgésicos adictivos cuando se los evalúa en función de qué tan perfectamente manejan el dolor de los pacientes. Un incentivo para resolver un problema (dolor) condujo a otro problema (prescripción excesiva).
En los últimos meses, hemos manido cómo la IA puede ser sesgado e incluso causar psicosis. Se habló mucho sobre la “adulación” de la IA, cuando un chatbot de IA se apresura a adularte o estar de acuerdo contigo, con el maniquí GPT-4o de OpenAI. Pero este aberración particular, que los investigadores llaman “tonterías de las máquinas”, es diferente.
“(N)ni la ilusión ni la adulación capturan completamente la amplia serie de comportamientos mentirosos sistemáticos comúnmente exhibidos por los LLM”, se lee en el estudio de Princeton. “Por ejemplo, los resultados que emplean verdades parciales o verbo ambiguo, como los ejemplos de palabrería y palabras de comadreja, no representan ni ilusión ni adulación, pero se alinean estrechamente con el concepto de mierda”.
Repasar más: El director ejecutante de OpenAI, Sam Altman, cree que estamos en una burbuja de IA
Cómo las máquinas aprenden a mentir
Para tener una idea de cómo los modelos de verbo de IA agradan a la multitud, debemos comprender cómo se entrenan los modelos de verbo de gran tamaño.
Hay tres fases de formación de LLM:
- Preentrenamientoen el que los modelos aprenden de cantidades masivas de datos recopilados de Internet, libros u otras fuentes.
- Ajuste de instruccionesen el que se enseña a los modelos a replicar a instrucciones o indicaciones.
- Formación reforzado a partir de la feedback humanaen el que se refinan para producir respuestas más cercanas a lo que la masa quiere o le gusta.
Los investigadores de Princeton descubrieron que la raíz de la tendencia a la desinformación de la IA es la etapa de enseñanza reforzado a partir de la feedback humana, o RLHF. En las etapas iniciales, los modelos de IA simplemente están aprendiendo a predecir cadenas de texto estadísticamente probables a partir de conjuntos de datos masivos. Pero luego se ajustan para maximizar la satisfacción del adjudicatario. Lo que significa que estos modelos esencialmente están aprendiendo a gestar respuestas que obtienen el manido bueno de los evaluadores humanos.
Los LLM intentan apaciguar al adjudicatario, creando un conflicto cuando los modelos producen respuestas que las personas calificarán mucho, en lado de producir respuestas veraces y objetivas.
Vicente Conitzerprofesor de informática en la Universidad Carnegie Mellon que no participó en el estudio, dijo que las empresas quieren que los usuarios sigan “disfrutando” de esta tecnología y sus respuestas, pero eso no siempre es lo que es bueno para nosotros.
“Históricamente, estos sistemas no han sido buenos para afirmar: ‘Simplemente no sé la respuesta’, y cuando no saben la respuesta, simplemente inventan cosas”, dijo Conitzer. “Es poco así como un estudiante en un examen que dice, bueno, si digo que no sé la respuesta, ciertamente no obtendré ningún punto por esta pregunta, así que asimismo podría intentar poco. La forma en que estos sistemas son recompensados o entrenados es poco similar”.
El equipo de Princeton desarrolló un “índice de mierda” para determinar y comparar la confianza interna de un maniquí de IA en una proclamación con lo que positivamente les dice a los usuarios. Cuando estas dos medidas divergen significativamente, indica que el sistema está haciendo afirmaciones independientes de lo que positivamente “cree” que es verdad para satisfacer al adjudicatario.
Los experimentos del equipo revelaron que posteriormente del entrenamiento RLHF, el índice casi se duplicó de 0,38 a cerca de 1,0. Al mismo tiempo, la satisfacción de los usuarios aumentó un 48%. Los modelos habían aprendido a manipular a los evaluadores humanos en lado de proporcionar información precisa. En esencia, los LLM eran “tonterías” y la masa lo prefería.
Hacer que la IA sea honesta
Jaime Fernández Fisac y su equipo en Princeton introdujeron este concepto para describir cómo los modelos modernos de IA eluden la verdad. Basado en el influyente experimientación del filósofo Harry Frankfurt “En tonterías“, utilizan este término para distinguir este comportamiento de LLM de errores honestos y mentiras descaradas.
Los investigadores de Princeton identificaron cinco formas distintas de este comportamiento:
- Retórica vacía: Jerigonza florido que no añade sustancia a las respuestas.
- Palabras de comadreja: Calificadores vagos como “los estudios sugieren” o “en algunos casos” que esquivan afirmaciones firmes.
- Palpitando: Usar declaraciones verdaderas selectivas para engañar, como resaltar los “fuertes rendimientos históricos” de una inversión y al mismo tiempo excluir altos riesgos.
- Reclamaciones no verificadas: Hacer afirmaciones sin pruebas ni soporte factible.
- Adulación: Halagos poco sinceros y acuerdo para complacer.
Para afrontar los problemas de la IA indiferente a la verdad, el equipo de investigación desarrolló un nuevo método de entrenamiento, “Formación por refuerzo a partir de simulación retrospectiva”, que evalúa las respuestas de la IA en función de sus resultados a dilatado plazo en lado de la satisfacción inmediata. En lado de preguntar: “¿Esta respuesta hace adecuado al adjudicatario en este momento?” el sistema considera: “¿Seguir este consejo positivamente ayudará al adjudicatario a alcanzar sus objetivos?”
Este enfoque tiene en cuenta las posibles consecuencias futuras del consejo de la IA, una predicción complicada que los investigadores abordaron utilizando modelos de IA adicionales para aparentar resultados probables. Las primeras pruebas mostraron resultados prometedores, y la satisfacción del adjudicatario y la utilidad efectivo mejoraron cuando los sistemas se entrenan de esta modo.
Conitzer dijo, sin requisa, que es probable que los LLM sigan teniendo fallas. Oportuno a que estos sistemas se entrenan alimentándolos con una gran cantidad de datos de texto, no hay forma de avalar que la respuesta que dan tenga sentido y sea precisa en todo momento.
“Es sorprendente que funcione, pero tendrá fallas en algunos aspectos”, dijo. “No veo ninguna forma definitiva de que alguno en el próximo año o dos… tenga esta brillante idea, y luego nunca más se equivoque”.
Los sistemas de IA se están convirtiendo en parte de nuestra vida diaria, por lo que será secreto comprender cómo funcionan los LLM. ¿Cómo equilibran los desarrolladores la satisfacción del adjudicatario con la verdad? ¿Qué otros ámbitos podrían afrontar compensaciones similares entre la aprobación a corto plazo y los resultados a dilatado plazo? Y a medida que estos sistemas se vuelven más capaces de realizar razonamientos sofisticados sobre la psicología humana, ¿cómo podemos asegurarnos de que utilicen esas habilidades de modo responsable?
Repasar más: “Las máquinas no pueden pensar por ti”. Cómo está cambiando el enseñanza en la era de la IA






