
La carrera armamentista para construir modelos de IA más inteligentes tiene un problema de medición: las pruebas utilizadas para clasificarlos se vuelven obsoletas casi tan rápido como los modelos mejoran. Los lunes, Exploración artificialesuna ordenamiento independiente de evaluación comparativa de IA cuyas clasificaciones son seguidas de cerca por desarrolladores y compradores empresariales, lanzó una importante revisión de su Índice de inteligencia eso cambia fundamentalmente la forma en que la industria mide el progreso de la IA.
el nuevo Índice de Inteligencia v4.0 Incorpora 10 evaluaciones que abarcan agentes, codificación, razonamiento comprobado y conocimientos generales. Pero los cambios van mucho más allá de mezclar los nombres de las pruebas. La ordenamiento eliminó tres puntos de remisión básicos: MMLU-Pro, OBJETIVO 2025y Mesa de códigos en vivo – que han sido citados durante mucho tiempo por las empresas de inteligencia químico en sus materiales de marketing. En su extensión, el nuevo índice introduce evaluaciones diseñadas para calcular si los sistemas de IA pueden completar el tipo de trabajo por el que verdaderamente se les paga a las personas.
tipo: entrada-incrustada-en tendencia identificación: 1bCmRrroGCdUb07IuaHysL
"Este cambio de índice refleja una transición más amplia: la inteligencia se mide menos por el conmemoración y más por la hecho económicamente útil." observado Aravind Sundarun investigador que respondió al anuncio en X (antiguamente Twitter).
Por qué los puntos de remisión de IA están rompiendo: el problema con las pruebas que los mejores modelos ya dominan
La revisión de los puntos de remisión aborda una crisis creciente en la evaluación de la IA: los modelos líderes se han vuelto tan capaces que las pruebas tradicionales ya no pueden diferenciarlos de guisa significativa. El nuevo índice deliberadamente hace que la curva sea más difícil de progresar. De acuerdo a Exploración artificialeslos mejores modelos ahora obtienen una puntuación de 50 o menos en la nueva escalera v4.0, en comparación con 73 en la interpretación mencionado: una recalibración diseñada para restaurar el ganancia de alivio para futuras mejoras.
Este problema de saturación ha afectado a la industria durante meses. Cuando cada maniquí de frontera obtiene una puntuación en el percentil 90 en una prueba determinada, la prueba pierde su utilidad como aparejo de toma de decisiones para las empresas que intentan nominar qué sistema de IA implementar. La nueva metodología intenta resolver esto ponderando cuatro categorías por igual (agentes, codificación, razonamiento comprobado y común) al tiempo que introduce evaluaciones en las que incluso los sistemas más avanzados todavía tienen problemas.
Los resultados bajo el nuevo situación muestran la capacidad de OpenAI GPT-5.2 con un esfuerzo de razonamiento extendido reclamando el primer puesto, seguido de cerca por Anthropic Cerrar Trabajo 4.5 y de google Géminis 3 Pro. OpenAI describe GPT-5.2 como "la serie de modelos más capaz hasta el momento para el trabajo de conocimiento profesional," mientras que Claude Opus 4.5 de Anthropic obtiene una puntuación superior a GPT-5.2 en SWE-Bench verificadoun conjunto de pruebas que evalúa las capacidades de codificación del software.
GDPval-AA: el nuevo punto de remisión que prueba si la IA puede hacer su trabajo
La incorporación más significativa al nuevo índice es PIBval-AAuna evaluación basada en OpenAI Conjunto de datos del PIB que prueba modelos de IA en tareas económicamente valiosas del mundo actual en 44 ocupaciones y 9 industrias principales. A diferencia de los puntos de remisión tradicionales que piden a los modelos que resuelvan problemas matemáticos abstractos o respondan trivias de opción múltiple, GDPval-AA mide si la IA puede producir los resultados que los profesionales verdaderamente crean: documentos, diapositivas, diagramas, hojas de cálculo y contenido multimedia.
Los modelos reciben paso al shell y capacidades de navegación web a través de lo que candela el Exploración Sintético. "Estribo," su arnés agente de remisión. Las puntuaciones se derivan de comparaciones ciegas por pares, con las calificaciones ELO congeladas en el momento de la evaluación para respaldar la estabilidad del índice.
Bajo este situación, GPT-5.2 de OpenAI con razonamiento extendido lidera con una puntuación ELO de 1442, mientras que la variación no pensante Claude Opus 4.5 de Anthropic le sigue con 1403. Claude Sonnet 4.5 le sigue con 1259.
En la evaluación GDPval flamante, GPT-5.2 superó o empató a los mejores profesionales de la industria en el 70,9% de las tareas acertadamente especificadas, según OpenAI. La empresa reclamos GPT-5.2 "supera a los profesionales de la industria en tareas de trabajo de conocimiento acertadamente especificadas que abarcan 44 ocupaciones," con empresas como Notion, Box, Shopify, Harvey y Teleobjetivo observando "Rendimiento de convocatoria de herramientas y razonamiento a amplio plazo de última concepción."
El pedantería en una producción económicamente mensurable es un cambio filosófico en la forma en que la industria piensa sobre la capacidad de la IA. En extensión de preguntar si un maniquí puede aprobar un examen de la jurisprudencia o resolver problemas matemáticos de competencia (logros que generan titulares pero no necesariamente se traducen en productividad en el extensión de trabajo), los nuevos puntos de remisión preguntan si la IA verdaderamente puede realizar trabajos.
Los problemas de física a nivel de posgrado exponen los límites de los modelos de IA más avanzados de la hogaño
Mientras PIBval-AA mide la productividad destreza, otra nueva evaluación convocatoria críticoPT revela cuán remotamente están los sistemas de IA del serio razonamiento comprobado. El punto de remisión prueba modelos de estilo en tareas de razonamiento inéditas a nivel de investigación en toda la física moderna, incluida la materia condensada, la física cuántica y la astrofísica.
críticoPT fue desarrollado por más de 50 investigadores activos de física de más de 30 instituciones líderes. Sus 71 desafíos de investigación compuestos simulan proyectos de investigación a gran escalera en el nivel auténtico, comparables a los ejercicios de preparación que un investigador principal práctico podría asignar a estudiantes de posgrado. Cada problema se selecciona a mano para producir una respuesta verificable por máquina y resistente a las conjeturas.
Los resultados son aleccionadores. Los modelos actuales de última concepción aún están remotamente de resolver de guisa confiable los desafíos a escalera de investigación. GPT-5.2 con razonamiento extendido lidera el Tabla de clasificación CritPT con una puntuación de sólo el 11,5%, seguido por Gemini 3 Pro Preview de Google y la variación Claude 4.5 Opus Thinking de Anthropic. Estos puntajes sugieren que, a pesar de los notables avances en las tareas de cara al consumidor, los sistemas de inteligencia químico todavía luchan con el tipo de razonamiento profundo que se requiere para el descubrimiento comprobado.
Tasas de alucinaciones de la IA: por qué los modelos más precisos no siempre son los más confiables
Quizás la nueva evaluación más reveladora sea AA-Omniscienciaque mide el conmemoración de hechos y las alucinaciones a través de 6000 preguntas que cubren 42 temas económicamente relevantes en el interior de seis dominios: negocios, sanidad, derecho, ingeniería de software, humanidades y ciencias sociales, y ciencia/ingeniería/matemáticas.
La evaluación produce una Índice de omnisciencia que remuneración el conocimiento preciso al tiempo que penaliza las respuestas alucinadas, proporcionando información sobre si un maniquí puede distinguir lo que sabe de lo que no. Los hallazgos exponen una verdad incómoda: una inscripción precisión no garantiza una mengua ilusión. Los modelos con decano precisión a menudo no logran liderar el Índice de Omnisciencia porque tienden a adivinar en extensión de apartarse cuando no están seguros.
de google Instinto previa de Géminis 3 Pro lidera el Índice de Omnisciencia con una puntuación de 13, seguido de Claude Opus 4.5 Thinking y Gemini 3 Flash Reasoning, entreambos con 10. Sin retención, el desglose entre precisión y tasas de alucinaciones revela un panorama más engorroso.
En cuanto a precisión bruta, los dos modelos de Google lideran con puntuaciones del 54% y 51% respectivamente, seguidos por Claude 4.5 Opus Pensamiento al 43%. Pero los modelos de Google incluso demuestran tasas de alucinaciones más altas que los modelos de sus pares, con puntuaciones del 88% y el 85%. Claude 4.5 Sonnet Thinking y Claude Opus 4.5 Thinking de Anthropic muestran tasas de alucinaciones del 48% y 58% respectivamente, mientras que GPT-5.1 con un suspensión esfuerzo de razonamiento alcanza el 51%, la segunda tasa de alucinaciones más mengua probada.
Tanto la precisión de la omnisciencia como la tasa de alucinaciones contribuyen con una ponderación del 6,25 % cada una al índice de inteligencia común v4.
Interiormente de la carrera armamentista de la IA: cómo se comparan OpenAI, Google y Anthropic bajo nuevas pruebas
La reorganización de los índices de remisión llega en un momento especialmente turbulento en la industria de la IA. Los tres principales desarrolladores de modelos fronterizos han enérgico importantes modelos nuevos en tan solo unas pocas semanas, y Géminis 3 todavía ocupa el primer extensión en gran parte de las tablas de clasificación LMAuna aparejo de evaluación comparativa ampliamente citada que se utiliza para comparar LLM.
El divulgación de Gemini 3 por parte de Google en noviembre provocó OpenAI para determinar un "código rojo" esfuerzo para mejorar ChatGPT. OpenAI cuenta con su clan de modelos GPT para documentar su Valoración de 500 mil millones de dólares y más 1,4 billones de dólares en gastos previstos. "Anunciamos este código rojo para indicarle verdaderamente a la empresa que queremos reunir fortuna en un radio en particular." dijo Fidji Simo, director ejecutante de aplicaciones de OpenAI. altman le dijo a CNBC esperaba que OpenAI saliera de su código rojo en enero.
Anthropic respondió con Claude Opus 4.5 el 24 de noviembre, logrando un SWE-Bench verificado puntuación de precisión del 80,9 %: recuperar la corona de codificación de entreambos GPT-5.1-Codex-Max y Géminis 3. El divulgación marcó el tercer divulgación importante de un maniquí de Anthropic en dos meses. Desde entonces, Microsoft y Nvidia han anunciado inversiones multimillonarias en Anthropic, aumentando su valoración a aproximadamente $350 mil millones.
Cómo el descomposición químico prueba los modelos de IA: una vistazo al proceso de evaluación comparativa independiente
Exploración artificiales destaca que todas las evaluaciones se realizan de forma independiente utilizando una metodología estandarizada. La ordenamiento afirma que su "La metodología enfatiza la equidad y la aplicabilidad en el mundo actual." estimando un intervalo de confianza del 95% para el Índice de Inteligencia de menos de ±1% basado en experimentos con más de 10 repeticiones en ciertos modelos.
La ordenamiento publicó metodología define términos esencia que los compradores empresariales deben comprender. Según la documentación metodológica, el Exploración Sintético considera una "punto final" ser una instancia alojada de un maniquí accesible a través de una API, lo que significa que un único maniquí puede tener múltiples puntos finales en diferentes proveedores. A "proveedor" es una empresa que aloja y proporciona paso a uno o más puntos finales o sistemas maniquí. Fundamentalmente, el descomposición químico distingue entre "mancuerna abiertas" modelos, cuyos pesos se han publicado públicamente, y modelos verdaderamente de código descubierto, teniendo en cuenta que muchos LLM abiertos se han publicado con licencias que no cumplen con la definición completa de software de código descubierto.
La metodología incluso aclara cómo la ordenamiento estandariza la medición de tokens: utiliza tokens OpenAI medidos con el paquete tiktoken de OpenAI como dispositivo tipificado en todos los proveedores para permitir comparaciones justas.
Qué significa el nuevo Índice de Inteligencia de IA para las decisiones tecnológicas empresariales en 2026
Para los tomadores de decisiones técnicas que evalúan los sistemas de IA, el Índice de Inteligencia v4.0 proporciona una imagen más matizada de la capacidad que las compilaciones de puntos de remisión anteriores. La igual ponderación entre agentes, codificación, razonamiento comprobado y conocimiento común significa que las empresas con casos de uso específicos pueden querer examinar puntuaciones específicas de categorías en extensión de pender nada más del índice anejo.
La preámbulo de la medición de las alucinaciones como un cifra desigual y ponderado aborda una de las preocupaciones más persistentes en la prohijamiento de la IA empresarial. Un maniquí que parece muy preciso pero que con frecuencia alucina cuando es incierto plantea riesgos significativos en industrias reguladas como la atención médica, las finanzas y el derecho.
El Índice de Inteligencia de Exploración Sintético se describe como "un conjunto de evaluación del idioma inglés de solo texto." La ordenamiento compara modelos para entradas de imágenes, entradas de voz y rendimiento multilingüe por separado.
La respuesta al anuncio ha sido en gran medida positiva. "Es utópico ver cómo el índice evoluciona para acortar la saturación y centrarse más en el rendimiento agente." escribió un comentarista en un publicación de X.com. "Incluir tareas del mundo actual como GDPval-AA hace que las puntuaciones sean mucho más relevantes para el uso práctico."
Otros dieron una nota más ambiciosa. "La nueva ola de modelos que está por salir los dejará a todos a espaldas," predijo un observador. "A finales de año la singularidad será innegable."
Pero ya sea que esa predicción resulte profética o prematura, una cosa ya está clara: la era de arbitrar la IA por qué tan acertadamente contesta a las preguntas de las pruebas está llegando a su fin. El nuevo tipificado es más simple y mucho más trascendente: ¿puede hacer el trabajo?






