El maniquí O3 AI de OpenAI obtiene puntajes más bajos en un punto de remisión de lo que la compañía inicialmente implica

Una discrepancia entre los resultados de remisión de primer y tercero para el maniquí O3 AI de Openai es planteando preguntas sobre la transparencia de la compañía y prácticas de prueba de modelos.

Cuando Openai dio a conocer O3 en diciembre, la compañía afirmó que el maniquí podría objetar poco más de un cuarto de preguntas sobre Frontiermath, un conjunto desafiante de problemas matemáticos. Esa puntuación explotó la competencia: el mejor maniquí mejor logró objetar solo en torno a del 2% de los problemas de Frontyermath correctamente.

“Hoy, todas las ofertas tienen menos del 2% (en Frontiermath)”, Mark Chen, director de investigación de OpenAI, dijo durante una transmisión en vivo. “Estamos viendo (internamente), con O3 en la configuración agresiva de la prueba de tiempo de prueba, podemos aventajar el 25%”.

Resulta que esa emblema era probablemente un orilla superior, rematado por una interpretación de O3 con más computación detrás de él que el maniquí OpenAi agresivo públicamente la semana pasada.

Epoch AI, el Instituto de Investigación detrás de Frontiermath, publicó los resultados de sus pruebas de remisión independientes de O3 el viernes. Epoch descubrió que O3 obtuvo en torno a del 10%, muy por debajo del puntaje más stop reclamado de Openai.

Operai ha agresivo O3, su muy esperado maniquí de razonamiento, inmediato con O4-Mini, un maniquí más pequeño y más de lance que tiene éxito O3-Mini.

Evaluamos los nuevos modelos en nuestro conjunto de puntos de remisión de matemáticas y ciencias. Resultados en hilo! pic.twitter.com/5gbtzkey1b

– Epoch AI (@epochaireesearch) 18 de abril de 2025

Eso no significa que Operai mentiera, per se. Los resultados de remisión que la compañía publicó en diciembre muestra una puntuación inferior que coincide con la época de puntaje observada. Epoch todavía señaló que su configuración de prueba probablemente difiere de OpenAI, y que utilizó una interpretación actualizada de Frontiermath para sus evaluaciones.

“The difference between our results and OpenAI’s might be due to OpenAI evaluating with a more powerful internal scaffold, using more test-time (computing), or because those results were run on a different subset of FrontierMath (the 180 problems in frontiermath-2024-11-26 vs the 290 problems in frontiermath-2025-02-28-private),” escribió Época.

Según una publicación en X Desde la Fundación del Premio ARC, una estructura que probó una interpretación previa a la escape de O3, el maniquí de O3 manifiesto “es un maniquí diferente (…) oportuno para el uso de chat/producto”, corroborando el mensaje de Epoch.

“Todos los niveles de compute O3 lanzados son más pequeños que la interpretación que (remisión)”, escribió el Premio ARC. En términos generales, se puede esperar que los niveles de cuenta más grandes logren mejores puntajes de remisión.

La nueva prueba rejonazo O3 en ARC-AGI-1 tomará uno o dos días. Conveniente a que el divulgación de hoy es un sistema materialmente diferente, estamos relajando nuestros resultados del pasado informado como “apariencia previa”:

O3-Preview (bajo): 75.7%, $ 200/tarea
O3-Preview (stop): 87.5%, $ 34.4k/tarea

Hacia lo alto usa el precio O1 Pro …

– Mike Knoop (@MikeKnoop) 16 de abril de 2025

Wenda Zhou, miembro del personal técnico. dijo durante una transmisión en vivo la semana pasada que el O3 en producción está “más optimizado para los casos de uso del mundo actual” y la velocidad frente a la interpretación de O3 demostrada en diciembre. Como resultado, puede exhibir “disparidades”, agregó.

“(W) ha hecho (optimizaciones) para hacer que el (maniquí) sea más rentable (y) más útil en universal”, dijo Zhou. “Todavía esperamos que, todavía pensamos que, este es un maniquí mucho mejor (…) no tendrá que esperar tanto cuando solicite una respuesta, lo cual es actual con estos (tipos de) modelos”.

De acuerdo, el hecho de que el divulgación manifiesto de O3 no gravedad las promesas de pruebas de OpenAi es un punto de discusión, ya que los modelos O3-Mini-High-Mini de la compañía superan a O3 en Frontiermath, y OpenAI planea presentarse una variación O3 más potente, O3-Pro, en las próximas semanas.

Sin retención, es otro recordatorio de que los puntos de remisión de IA son mejor no tomados al pie de la carácter, particularmente cuando la fuente es una empresa con servicios para traicionar.

La evaluación comparativa de “controversias” se está convirtiendo en un hecho global en la industria de la IA a medida que los proveedores corren para capturar los titulares y la mentalidad con nuevos modelos.

En enero, Epoch fue criticada por esperar para revelar fondos de Operai hasta posteriormente de que la compañía anunció O3. Muchos académicos que contribuyeron al Frontiermath no fueron informados de la billete de OpenAi hasta que se hizo pública.

Más recientemente, el XAI de Elon Musk fue marcado de transmitir gráficos de remisión engañosos para su final maniquí de IA, Grok 3. Solo este mes, Meta admitió promover puntajes de remisión para una interpretación de un maniquí que difería de la que la compañía puso a disposición de los desarrolladores.

Actualizado 4:21 PM Pacífico: Comentarios agregados de Wenda Zhou, miembro del personal técnico de Operai, de una transmisión en vivo la semana pasada.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

El maniquí O3 AI de OpenAI obtiene puntajes más bajos en un punto de remisión de lo que la compañía inicialmente implica

ztevenreal

Related Posts

¿Cree que la IA puede abonar sus impuestos? El IRS podría no estar de acuerdo

Una hermosa computadora portátil que sobresale en casi todo… excepto escribir

You Missed

Cuba anuncia retirada de médicos en Jamaica tras cesar cooperación

Pedernales y Santo Domingo concentran casi 40% de la inversión pública en enero

¿Cree que la IA puede abonar sus impuestos? El IRS podría no estar de acuerdo

Dos mujeres mueren cada día en República Dominicana durante el parto o el obstáculo.

Clásico Mundial 2026: RD debuta con triunfo sobre Nicaragua – Remolacha

Hoy es Día Mundial de los Cereales – Remolacha