Los números de remisión de IA no tienen sentido; esto es lo que debe inquirir en su área

Cada vez que se lanceta un nuevo maniquí de IA, la disonancia de los sitios de evaluación comparativa de IA cobra vida y nos bombardea con gráficos coloridos, mejoras imperceptibles y marginales a números no contextualizados que en realidad no significan ausencia para la mayoría de las personas.

La mayoría de las veces, si no eres un investigador de IA, la mayoría de estas cifras y gráficos no significan ausencia. Quiero afirmar, claro, “los números aumentan = la IA perfeccionamiento” es un nivel nuclear de comprensión, pero esos números a menudo no revelan la información pertinente sobre cómo la mayoría de la masa usa la IA.

En eso, el problema no es que los puntos de remisión sean inútiles. Es que están dirigiéndose a la audiencia equivocada, funcionando más como marketing que explicando claramente qué hay de nuevo, qué funciona y cómo le ahorrará tiempo.

Por qué a las empresas de IA les encantan los gráficos de remisión

Y por qué eso es lo que causa todos los problemas.

El razonamiento detrás de la evaluación comparativa de IA, como todas las pruebas de evaluación comparativa, es sólido. Ayudan a simplificar sistemas complejos en números fáciles de entender. En área de describir mejoras sutiles en el razonamiento o la comprensión del lengua, las empresas pueden señalar un manifiesto y afirmar que su maniquí obtuvo una puntuación del 92 % en una prueba, mientras que un competidor obtuvo una puntuación del 88 %.

Las comparaciones parecen objetivas y los puntos de remisión proporcionan un enfoque estandarizado para ejecutar el rendimiento y los conjuntos de datos en entornos controlados. Si cada laboratorio evalúa sus modelos utilizando la misma prueba, será más practicable seguir el progreso y contar las mejoras a través de diferentes enfoques.

El problema es que en el momento en que estos puntos de remisión salen del laboratorio y salen a la calle, el contexto detrás de ellos normalmente no tiene sentido. Que un maniquí supere a otro en un punto de remisión de razonamiento no significa necesariamente que será mejor en tareas cotidianas como resumir documentos, editar escritos o contestar preguntas complicadas.

Para la mayoría de las personas, estas capacidades son mucho más importantes que el rendimiento en conjuntos de datos cuidadosamente estructurados en entornos de laboratorio ultracontrolados.

Lo que en realidad prueban los puntos de remisión de IA

lista de referencia mmlu.

Lo que enturbia aún más el agua de la evaluación comparativa de la IA es la gran cantidad de pruebas realizadas tanto por los desarrolladores de IA como por los evaluadores externos. Pero la forma más sencilla de determinar la utilidad en el mundo vivo es comprobar lo que están midiendo.

Como las pruebas están estandarizadas, se utilizan algunas pruebas comparativas de IA en todos los ámbitos.

  • MMLU: El punto de remisión Massive Multitask Language Understanding evalúa modelos utilizando miles de preguntas de opción múltiple en docenas de materias académicas, incluidas física, derecho, pertenencias, biología y medicina.
  • GSM8K: Grade School Math 8K mide el razonamiento matemático, y el conjunto de datos contiene miles de problemas matemáticos planteados a nivel de escuela primaria que requieren varios pasos para resolverse.
  • evaluación humana: El punto de remisión HumanEval prueba modelos utilizando indicaciones de codificación y evalúa si la IA genera una decisión correcta que pasa una serie de pruebas. Esto lo hace extremadamente valioso para evaluar modelos destinados a ayudar a los programadores.

Sobre el papel, todo es útil. Pero en existencia, la traducción al mundo vivo no es perfecta. Por ejemplo, aunque la MMLU suena impresionante, básicamente replica a una enorme letanía de preguntas estilo examen con respuestas predefinidas. Pero la mayoría de las personas no utilizan la IA para realizar un examen: interpretan instrucciones y resuelven problemas. Por otra parte, MMLU tiene altas tasas de error y un gran sesgo occidental.

De guisa similar, GSM8K es un indicador útil del razonamiento dialéctico, pero la mayoría de las personas no utilizan un chatbot de IA para resolver acertijos aritméticos elementales. Les piden que expliquen conceptos, resuman información, redacten contenidos o ayuden con la investigación, pero las puntuaciones GSM8K aparecen asiduamente en los materiales de marketing como evidencia de inteligencia normal.

La contaminación de remisión es un gran problema

Los modelos de IA ya han manido las respuestas durante el entrenamiento

llm diferencia en las pruebas comparativas entre los puntos de referencia. Crédito: ArXiv

Hay otro gran problema con la evaluación comparativa de IA: contaminación del conjunto de datos.

La mayoría de los modelos de IA se entrenan utilizando enormes colecciones de texto y otra información extraída de Internet. Eso significa que los conjuntos de datos incluyen artículos de investigación, libros de texto, repositorios de códigos en sarta y muchos conjuntos de datos de remisión disponibles públicamente.

Cuando aparecen preguntas de remisión en los datos de entrenamiento, los modelos pueden memorizar las respuestas de guisa efectiva.

Los investigadores se refieren a este problema como contaminación y puede distorsionar significativamente los resultados de remisión. Puede parecer que un maniquí funciona proporcionadamente en una prueba no porque haya aprendido a razonar el problema, sino porque ha manido la pregunta ayer durante el entrenamiento.

Un trabajo de investigación titulado Un examen cuidadoso del rendimiento del maniquí de lengua amplio en aritmética de la escuela primaria (ArXiv) explora esto con más detalle, probando modelos de IA en GSM1K, un punto de remisión de IA similar a GSM8K que los investigadores pueden reforzar que no se ha manido previamente.

Encontró que ciertos modelos, como Phi, Mistral y Fuego, “mostraban evidencia de sobreajuste sistemático en casi todos los tamaños de maniquí” y la precisión caía “hasta un 13%” cuando se probaban en un punto de remisión similar pero no probado.

Un prospección más detallado sugiere una relación positiva (r2 de Spearman = 0,32) entre la probabilidad de un maniquí de gestar un ejemplo a partir de GSM8k y su diferencia de rendimiento entre GSM8k y GSM1k, lo que sugiere que muchos modelos pueden activo memorizado parcialmente GSM8k.

Entonces, si proporcionadamente los puntos de remisión pueden mostrar el rendimiento de un vistazo, existe la posibilidad de que el rendimiento del maniquí de IA se vea impulsado por su conocimiento existente de las preguntas y respuestas. Es por eso que la investigación es tan importante para la precisión y por qué los puntos de remisión de IA no siempre son lo que parecen.

Los puntos de remisión de IA que en realidad deberían interesarte

No todos son inútiles

Los puntos de remisión no son inútiles. Tener una guisa de hacer que conjuntos de datos complejos sean fáciles de entender no es malo; eso no es lo que estoy discutiendo aquí. Lo que pasa es que otros puntos de remisión y prospección tienen más sentido para la masa popular y corriente.

Algunos utilizan la experiencia colectiva de los usuarios de chatbots de IA, mientras que otros se centran más en los problemas cotidianos que enfrentamos, como las alucinaciones.

1. Pruebas de preferencia humana

Una de las alternativas más utilizadas a los puntos de remisión habituales de IA son los sitios de prueba de preferencias humanas que comparan evaluaciones humanas ciegas.

Sitios como Descripción normal de la clasificación de Hugging Face, Arena de chatbot de OpenLMy Modo batalla de ArenaAI le brinda una oportunidad mucho veterano de descubrir el valía humano vivo de la IA.

En la mayoría de los casos, usted envía una solicitud, dos modelos de IA generan respuestas y luego todos votan sobre las respuestas. Correcto a que los modelos son anónimos, los votantes no saben qué sistema produjo qué respuesta. Esto reduce el sesgo de marca y centra la evaluación en la calidad vivo del resultado.

Con el tiempo, el sistema recopila cientos de miles de votos y produce una clasificación basada en las preferencias reales de los usuarios.

Este enfoque captura lo que los puntos de remisión tradicionales a menudo pasan por suspensión, como la claridad, la utilidad de las respuestas, el seguimiento de instrucciones, el tono de conversación y más.

En otras palabras, evalúa la experiencia de uso del maniquí, no sólo su capacidad para aprobar pruebas académicas.

2. Puntos de remisión de seguimiento de instrucciones (IFEval)

Comparación comparativa de google ifeval.

Otra evaluación alternativa de comparación de IA es IFevauna útil de evaluación de IA desarrollada por masa de Google, pero que siquiera cuenta con el respaldo oficial de ellos.

En área de probar el conocimiento o el razonamiento, IFEval mide poco mucho más simple: ¿el maniquí en realidad sigue instrucciones?

Por ejemplo, las indicaciones pueden incluir medidas como contestar directamente en cinco puntos, escribir una respuesta en JSON, evitar palabras o caracteres específicos, recortar la largo o los caracteres de la respuesta, etc.

Las pruebas de esta naturaleza son importantes porque son el tipo de instrucciones que la masa da a los chatbots de IA todos los días. Luego, el punto de remisión verifica si el maniquí alcanzó esos niveles.

Esto puede parecer nuclear, pero la confiabilidad en el seguimiento de instrucciones es uno de los factores más importantes en los flujos de trabajo de IA del mundo vivo.

3. Puntos de remisión de tareas del mundo vivo (HELM)

Dirige todas las tablas de clasificación.

Otro esfuerzo para evaluar los modelos de IA de guisa más realista es el Evaluación Holística de Modelos de Habla (HELM) entorno desarrollado por investigadores de la Centro de Stanford para la investigación sobre modelos de cimentaciones.

HELM es en realidad útil porque, en área de centrarse en un punto de remisión con una puntuación única en entornos de laboratorio controlados, evalúa modelos en múltiples escenarios del mundo vivo, que incluyen:

  • Tareas de esquema

  • Respuesta a preguntas

  • Ascendencia de información

  • Toxicidad y sesgo

  • Robustez para impulsar cambios

HELM asimismo mide propiedades adicionales más allá de la precisión, como por ejemplo:

  • Calibración (confianza contra corrección)

  • Ecuanimidad

  • Eficiencia

  • Robustez

La idea es que evaluar un maniquí de lengua requiere múltiples dimensiones, no solo una puntuación única en la tabla de clasificación.

4. Control de calidad verdadero

Finalmente, uno de los mayores problemas de la IA generativa son las alucinaciones, donde el maniquí esencialmente miente y ofrece respuestas falsas, engañosas o completamente inventadas.

Como era de esperar, es importante determinar si la útil que estás utilizando está sacando basura del clima, razón por la cual VerazQA Preguntas de pruebas comparativas que con frecuencia desencadenan conceptos erróneos o respuestas falsas comunes. El punto de remisión verifica si el maniquí repite esos conceptos erróneos o los evita correctamente, utilizando 817 preguntas que abarcan 38 categorías que cubren mitos, conspiraciones, información errónea, preguntas capciosas y más.

TruthfulQA es en existencia una de las herramientas de remisión de alucinaciones de IA más populares, con más de 5000 Citas de Google Normativoy la principal métrica que mide es la verdad: ¿el maniquí produce una respuesta factualmente correcta o genera con seguridad poco aparente?

Los puntos de remisión son bártulos, pero no cuentan la historia completa

¿Mal entendido o simplemente mal utilizado?

Las opciones alternativas anteriores resaltan que los puntos de remisión siguen siendo sumamente bártulos para comprender el rendimiento de la IA. No estoy diciendo que no deban estilarse, solo que la mayoría de las veces, se usan mal y presentan información que no refleja cuán útil es una útil de IA o, según el conjunto final de pruebas, cuán precisa es.

Todavía soy dolorosamente consciente de que la respuesta para evitar la evaluación comparativa no debería ser necesariamente utilizar evaluaciones comparativas más específicas. La alternativa absoluta más eficaz es utilizar un mensaje específico con el que esté familiarizado y que pueda resolver el resultado de diferentes herramientas. Por ejemplo, el líder del segmento MakeUseOf, Amir Bohlooli, utiliza herramientas de inteligencia sintético para crear una simulación y juzga el resultado. Todavía puede utilizar algunos de los acertijos probados y las indicaciones de los acertijos de probabilidad para ver cómo replica un maniquí de IA, o utilizar una serie de indicaciones diseñadas para tipos de modelos específicos.

En todos los casos, usted está juzgando el resultado según sus propias métricas y cómo se adapta a sus requisitos en área de reconocer de evaluaciones comparativas externas para decirle qué funciona. En eso, combina los resultados de tus mensajes con herramientas de evaluación comparativa más centradas en el ser humano, como Chatbot Arena.

Entonces, la próxima vez que vea un nuevo maniquí de IA que sea un 13,7 por ciento mejor en MMLU, puede hacerse la pregunta: ¿Eso en realidad perfeccionamiento el maniquí de IA o es simplemente otro examen de remisión controlado diseñado para que se vea proporcionadamente?

Related Posts

El teléfono espectacular del MWC con una telescopio de teleobjetivo de 400 mm finalmente tiene una ventana de tirada (Actualizado: data de tirada)

Hadlee Simons / Autoridad de Android TL;DR Está previsto que el vivo X300 Exaltado se pasada en China a finales de marzo de 2026. Se calma que su tirada mundial…

Spider-Man usa un Galaxy Z Flip en el primer tráiler de Brand New Day

El primer trailer de Marvel Spider-Man: Nuevo día aterrizó hoy y presenta un cameo del Galaxy Z Flip plegable de Samsung, pero no seas como Peter Parker y coloques tu…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

S. CRISTOBAL: sugieren nombre Celito García centro de Yaguate | AlMomento.net

S. CRISTOBAL: sugieren nombre Celito García centro de Yaguate | AlMomento.net

El teléfono espectacular del MWC con una telescopio de teleobjetivo de 400 mm finalmente tiene una ventana de tirada (Actualizado: data de tirada)

El teléfono espectacular del MWC con una telescopio de teleobjetivo de 400 mm finalmente tiene una ventana de tirada (Actualizado: data de tirada)

Candidaturas independientes son eliminadas

Candidaturas independientes son eliminadas

Felpudo roja, ceremonia y ganadores de Premios Soberano

Felpudo roja, ceremonia y ganadores de Premios Soberano

Spider-Man usa un Galaxy Z Flip en el primer tráiler de Brand New Day

Spider-Man usa un Galaxy Z Flip en el primer tráiler de Brand New Day

Si Cuba cae, caemos todos | AlMomento.net

Si Cuba cae, caemos todos | AlMomento.net