¿Son los malos incentivos a la falta de las alucinaciones de IA?

A nuevo trabajo de investigación De OpenAi pregunta por qué modelos de idiomas grandes como GPT-5 y chatbots como ChatGPT todavía se alucinan, y si se puede hacer poco para resumir esas alucinaciones.

En Una publicación de blog que resume el semanarioOpenai define las alucinaciones como “declaraciones plausibles pero falsas generadas por los modelos de idiomas”, y reconoce que a pesar de las mejoras, las alucinaciones “siguen siendo un desafío fundamental para todos los modelos de idiomas grandes”, uno que nunca será completamente eliminado.

Para ilustrar el punto, los investigadores dicen que cuando preguntaron “un chatbot ampliamente usado” sobre el título de Ph.D. de Adam Tauman Kalai. Disertación, obtuvieron tres respuestas diferentes, todas ellas equivocadas. (Kalai es uno de los autores del artículo). Luego preguntaron sobre su cumpleaños y recibieron tres fechas diferentes. Una vez más, todos estaban equivocados.

¿Cómo puede un chatbot estar tan erróneo y sonar tan segura de su incorrecto? Los investigadores sugieren que las alucinaciones surgen, en parte, adecuado a un proceso previo a la medida que se centra en conquistar que los modelos predecieran correctamente la próximo palabra, sin etiquetas verdaderas o falsas adjuntas a las declaraciones de entrenamiento: “El maniquí solo ve ejemplos positivos de idioma fluido y debe aproximar la distribución normal”.

“La ortografía y los paréntesis siguen patrones consistentes, por lo que los errores allí desaparecen con la escalera”, escriben. “Pero los hechos arbitrarios de herido frecuencia, como el cumpleaños de una mascota, no se pueden predecir solo con los patrones y, por lo tanto, conducen a alucinaciones”.

Sin incautación, la posibilidad propuesta del documento se centra menos en el proceso de preperación auténtico y más en cómo se evalúan los modelos de idioma grandes. Argumenta que los modelos de evaluación actuales no causan alucinaciones en sí mismas, pero “establecen los incentivos incorrectos”.

Los investigadores comparan estas evaluaciones con el tipo de pruebas de opción múltiple, la previsión aleatoria tiene sentido, porque “puede tener suerte y tener razón”, mientras deja la respuesta en blanco “garantiza un cero”.

Evento de TechCrunch

San Francisco
|
27-29 de octubre de 2025

“De la misma modo, cuando los modelos se califican solo en precisión, el porcentaje de preguntas que hacen exactamente aceptablemente, se les alienta a adivinar en zona de sostener ‘no sé'”, dicen.

La posibilidad propuesta, entonces, es similar a las pruebas (como el SAT) que incluyen “placa (puntuación) para respuestas incorrectas o crédito parcial por dejar preguntas en blanco para desalentar la previsión ciega”. Del mismo modo, Openai dice que las evaluaciones del maniquí deben “penalizar los errores seguros más de lo que penaliza la incertidumbre y dar crédito parcial por las expresiones apropiadas de incertidumbre”.

Y los investigadores argumentan que no es suficiente introducir “algunas nuevas pruebas conscientes de la incertidumbre”. En su zona, “las Evals ampliamente utilizadas y basadas en la precisión deben actualizarse para que su puntuación desaliente la previsión”.

“Si los marcadores principales siguen gratificando conjeturas de la suerte, los modelos seguirán aprendiendo a adivinar”, dicen los investigadores.

Related Posts

La vistazo de la SEC se centra en los informes de ganancias semestrales

La SEC está trabajando en una propuesta para permitir que las empresas públicas publiquen informes de ganancias dos veces al año en oficio de trimestralmente. para el WSJ. Los rumores…

La prueba de Live Nation se reinicia con un ‘martillo de terciopelo’

A posteriori de una semana caótica tras el acuerdo de centro de motivo entre el Área de Honradez y Live Nation-Ticketmaster, el motivo antimonopolio se reanudó sorprendentemente sin contratiempos el…

You Missed

Trump presiona por salida de Díaz-Canel en negociaciones con Cuba

Trump presiona por salida de Díaz-Canel en negociaciones con Cuba

Shakira cerrará su tournée mundial con una residencia de conciertos en Madrid

Shakira cerrará su tournée mundial con una residencia de conciertos en Madrid

Estados Unidos, predilecto para obtener Clásico 2026

Estados Unidos, predilecto para obtener Clásico 2026

La partida sonora de “Michael” se lanzará a través de Sony Music

La partida sonora de “Michael” se lanzará a través de Sony Music

La vistazo de la SEC se centra en los informes de ganancias semestrales

La vistazo de la SEC se centra en los informes de ganancias semestrales

Urgente carencia de ordenar el tránsito en SFMacorís

Urgente carencia de ordenar el tránsito en SFMacorís