Un nuevo estudio muestra por qué los modelos de AI de razonamiento simulado aún no están a la mérito de su facturación

Una captura de pantalla del problema de USAMO 2025 #1 y una solución, que se muestra en el sitio web de Aopsonline.

Una captura de pantalla del problema de USAMO 2025 #1 y una opción, que se muestra en el sitio web de Aopsonline.


Crédito:

Aopsonline


La Olimpíada de Matemáticas de EE. UU. (Usamo) sirve como un calificador para la Olimpíada Internacional de Matemáticas y presenta una mostrador mucho más ingreso que las pruebas como la Examen de matemáticas de invitaciones estadounidenses (Aime). Si acertadamente los problemas de AIME son difíciles, requieren respuestas enteras. Usamo exige que los concursantes escriban pruebas matemáticas completas, obtenidas por la corrección, la integridad y la claridad durante nueve horas y dos días.

Los investigadores evaluaron varios modelos de razonamiento de IA en los seis problemas del USAMO 2025 poco luego de su impulso, minimizando cualquier posibilidad de que los problemas fueran parte de los datos de entrenamiento de los modelos. Estos modelos incluían Qwen’s QWQ-32BDeepseek R1, Gemini 2.0 Flash Thinking (positivo) y Gemini 2.5 Pro de Google, OpenAi’s O1-Pro y O3-Mini-High, el soneto Claude 3.7 de Anthrope con pensamiento extendido, y Xai’s Grok 3.

Una captura de pantalla del 25 de abril de 2025 del sitio web de Matharena de los investigadores que muestra puntajes de precisión para los modelos SR en cada problema en la USAMO.

Una captura de pantalla del 25 de abril de 2025 del sitio web de Matharena de los investigadores que muestra puntajes de precisión para los modelos SR en cada problema en la USAMO.


Crédito:

Matharena


Mientras que un maniquí, Gemini 2.5 Pro de Google, logró un puntaje promedio más detención de 10.1 de 42 puntos (~ 24 por ciento), los resultados mostraron una caída de rendimiento masiva en comparación con los puntos de relato a nivel de AIME. Los otros modelos evaluados se retrasaron considerablemente más a espaldas: Deepseek R1 y Grok 3 promediaron 2.0 puntos cada uno, el pensamiento flash de Google obtuvo 1.8, Claude 3.7 de Anthrope logró 1.5, mientras que QWQ de Qwen y O1-Pro OpenAI promediaron 1.2 puntos. O3-Mini de OpenAI tuvo el puntaje promedio más bajo en solo 0.9 puntos (~ 2.1 por ciento). De casi 200 soluciones generadas en todos los modelos y ejecuciones probados, ni una sola recibió una puntuación perfecta para ningún problema.

Mientras que el recién publicado 03 y O4-Mini-High de Openai no se examinaron para este estudio, los puntos de relato de los investigadores ‘ Matharena El sitio web muestra O3-High anotando 21.73 por ciento en caudillo y O4-Mini-High anotando 19.05 por ciento en caudillo en Usamo. Sin secuestro, esos resultados están potencialmente contaminados porque se midieron luego de que se realizó el concurso, lo que significa que los modelos más nuevos de Operai podrían acaecer incluido las soluciones en los datos de capacitación.

Cómo fallaron los modelos

En el documento, los investigadores identificaron varios patrones esencia de rotura recurrente. Las horizontes de IA contenían brechas lógicas donde faltaba motivo matemática, incluían argumentos basados ​​en supuestos no probados y continuó produciendo enfoques incorrectos a pesar de gestar resultados contradictorios.

Un ejemplo específico involucrado USAMO 2025 Problema 5. Este problema pidió a los modelos que encontraran todos los números enteros positivos “K”, de modo que un cálculo específico que involucra sumas de coeficientes binomiales elevados al poder de “K” siempre daría como resultado un firme, sin importar qué firme positivo “n” se usara. En este problema, el maniquí QWQ de Qwen cometió un error trascendente: excluyó incorrectamente las posibilidades no enteras en una etapa donde la enunciación del problema les permitía. Este error llevó al maniquí a una respuesta final incorrecta a pesar de acaecer identificado correctamente las condiciones necesarias ayer en su proceso de razonamiento.

Related Posts

Los módulos SK Hynix GDDR7 alcanzaron 34 Gbps en el RTX 5070 TI – rendimiento de OC similar a Samsung

A principios de este mes, los informes sugirieron que NVIDIA ha colaborador a SK Hynix como un proveedor de GDDR7 para sus GPU de la serie RTX 50, a posteriori…

El veterano ataque DDoS de 2025 hasta ahora fue provocado por Alexander Ovechkin atando el récord de NHL Wayne Gretzky

Recientemente se detectó recientemente un ataque DDoS masivo durante un evento importante de la NHL. El ataque creció de 67 Gbps a casi 1 tbps en vigésimo minutos Técnicas de…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Los módulos SK Hynix GDDR7 alcanzaron 34 Gbps en el RTX 5070 TI – rendimiento de OC similar a Samsung

Los módulos SK Hynix GDDR7 alcanzaron 34 Gbps en el RTX 5070 TI – rendimiento de OC similar a Samsung

Abinader regresa tras honrar al Papa Francisco en el Vaticano

Abinader regresa tras honrar al Papa Francisco en el Vaticano

David Collado realiza Road show en Houston y Chicago

David Collado realiza Road show en Houston y Chicago

Fallece Alexis Corporán, figura del espectáculo y la comunicación en RD

Fallece Alexis Corporán, figura del espectáculo y la comunicación en RD

El veterano ataque DDoS de 2025 hasta ahora fue provocado por Alexander Ovechkin atando el récord de NHL Wayne Gretzky

El veterano ataque DDoS de 2025 hasta ahora fue provocado por Alexander Ovechkin atando el récord de NHL Wayne Gretzky

¿Qué esperar a partir del 28 de abril?

¿Qué esperar a partir del 28 de abril?