El maniquí O3 AI de OpenAI obtiene puntajes más bajos en un punto de remisión de lo que la compañía inicialmente implica

Una discrepancia entre los resultados de remisión de primer y tercero para el maniquí O3 AI de Openai es planteando preguntas sobre la transparencia de la compañía y prácticas de prueba de modelos.

Cuando Openai dio a conocer O3 en diciembre, la compañía afirmó que el maniquí podría objetar poco más de un cuarto de preguntas sobre Frontiermath, un conjunto desafiante de problemas matemáticos. Esa puntuación explotó la competencia: el mejor maniquí mejor logró objetar solo en torno a del 2% de los problemas de Frontyermath correctamente.

“Hoy, todas las ofertas tienen menos del 2% (en Frontiermath)”, Mark Chen, director de investigación de OpenAI, dijo durante una transmisión en vivo. “Estamos viendo (internamente), con O3 en la configuración agresiva de la prueba de tiempo de prueba, podemos aventajar el 25%”.

Resulta que esa emblema era probablemente un orilla superior, rematado por una interpretación de O3 con más computación detrás de él que el maniquí OpenAi agresivo públicamente la semana pasada.

Epoch AI, el Instituto de Investigación detrás de Frontiermath, publicó los resultados de sus pruebas de remisión independientes de O3 el viernes. Epoch descubrió que O3 obtuvo en torno a del 10%, muy por debajo del puntaje más stop reclamado de Openai.

Operai ha agresivo O3, su muy esperado maniquí de razonamiento, inmediato con O4-Mini, un maniquí más pequeño y más de lance que tiene éxito O3-Mini.

Evaluamos los nuevos modelos en nuestro conjunto de puntos de remisión de matemáticas y ciencias. Resultados en hilo! pic.twitter.com/5gbtzkey1b

– Epoch AI (@epochaireesearch) 18 de abril de 2025

Eso no significa que Operai mentiera, per se. Los resultados de remisión que la compañía publicó en diciembre muestra una puntuación inferior que coincide con la época de puntaje observada. Epoch todavía señaló que su configuración de prueba probablemente difiere de OpenAI, y que utilizó una interpretación actualizada de Frontiermath para sus evaluaciones.

“The difference between our results and OpenAI’s might be due to OpenAI evaluating with a more powerful internal scaffold, using more test-time (computing), or because those results were run on a different subset of FrontierMath (the 180 problems in frontiermath-2024-11-26 vs the 290 problems in frontiermath-2025-02-28-private),” escribió Época.

Según una publicación en X Desde la Fundación del Premio ARC, una estructura que probó una interpretación previa a la escape de O3, el maniquí de O3 manifiesto “es un maniquí diferente (…) oportuno para el uso de chat/producto”, corroborando el mensaje de Epoch.

“Todos los niveles de compute O3 lanzados son más pequeños que la interpretación que (remisión)”, escribió el Premio ARC. En términos generales, se puede esperar que los niveles de cuenta más grandes logren mejores puntajes de remisión.

La nueva prueba rejonazo O3 en ARC-AGI-1 tomará uno o dos días. Conveniente a que el divulgación de hoy es un sistema materialmente diferente, estamos relajando nuestros resultados del pasado informado como “apariencia previa”:

O3-Preview (bajo): 75.7%, $ 200/tarea
O3-Preview (stop): 87.5%, $ 34.4k/tarea

Hacia lo alto usa el precio O1 Pro …

– Mike Knoop (@MikeKnoop) 16 de abril de 2025

Wenda Zhou, miembro del personal técnico. dijo durante una transmisión en vivo la semana pasada que el O3 en producción está “más optimizado para los casos de uso del mundo actual” y la velocidad frente a la interpretación de O3 demostrada en diciembre. Como resultado, puede exhibir “disparidades”, agregó.

“(W) ha hecho (optimizaciones) para hacer que el (maniquí) sea más rentable (y) más útil en universal”, dijo Zhou. “Todavía esperamos que, todavía pensamos que, este es un maniquí mucho mejor (…) no tendrá que esperar tanto cuando solicite una respuesta, lo cual es actual con estos (tipos de) modelos”.

De acuerdo, el hecho de que el divulgación manifiesto de O3 no gravedad las promesas de pruebas de OpenAi es un punto de discusión, ya que los modelos O3-Mini-High-Mini de la compañía superan a O3 en Frontiermath, y OpenAI planea presentarse una variación O3 más potente, O3-Pro, en las próximas semanas.

Sin retención, es otro recordatorio de que los puntos de remisión de IA son mejor no tomados al pie de la carácter, particularmente cuando la fuente es una empresa con servicios para traicionar.

La evaluación comparativa de “controversias” se está convirtiendo en un hecho global en la industria de la IA a medida que los proveedores corren para capturar los titulares y la mentalidad con nuevos modelos.

En enero, Epoch fue criticada por esperar para revelar fondos de Operai hasta posteriormente de que la compañía anunció O3. Muchos académicos que contribuyeron al Frontiermath no fueron informados de la billete de OpenAi hasta que se hizo pública.

Más recientemente, el XAI de Elon Musk fue marcado de transmitir gráficos de remisión engañosos para su final maniquí de IA, Grok 3. Solo este mes, Meta admitió promover puntajes de remisión para una interpretación de un maniquí que difería de la que la compañía puso a disposición de los desarrolladores.

Actualizado 4:21 PM Pacífico: Comentarios agregados de Wenda Zhou, miembro del personal técnico de Operai, de una transmisión en vivo la semana pasada.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

El maniquí O3 AI de OpenAI obtiene puntajes más bajos en un punto de remisión de lo que la compañía inicialmente implica

ztevenreal

Related Posts

La tableta Oled Android de 9 pulgadas de Redmagic presenta, se vara el 11 de junio

Estas son las mejores nuevas ofertas de MacBook en junio: opciones que comienzan en $ 649

You Missed

Motoconchistas opuestos a que pasajeros usen casco – Remolacha

La tableta Oled Android de 9 pulgadas de Redmagic presenta, se vara el 11 de junio

Una serie sobre el caso de Amanda Knox se estrenará en Disney+

Fallece lengua de la Policía Doméstico en desnivel de tránsito en Los Alcarrizos

Estas son las mejores nuevas ofertas de MacBook en junio: opciones que comienzan en $ 649

Reelección general: José Luis Aracena continuará al frente de ABASACA hasta 2027