El maniquí O3 AI de OpenAI obtiene puntajes más bajos en un punto de remisión de lo que la compañía inicialmente implica

Una discrepancia entre los resultados de remisión de primer y tercero para el maniquí O3 AI de Openai es planteando preguntas sobre la transparencia de la compañía y prácticas de prueba de modelos.

Cuando Openai dio a conocer O3 en diciembre, la compañía afirmó que el maniquí podría objetar poco más de un cuarto de preguntas sobre Frontiermath, un conjunto desafiante de problemas matemáticos. Esa puntuación explotó la competencia: el mejor maniquí mejor logró objetar solo en torno a del 2% de los problemas de Frontyermath correctamente.

“Hoy, todas las ofertas tienen menos del 2% (en Frontiermath)”, Mark Chen, director de investigación de OpenAI, dijo durante una transmisión en vivo. “Estamos viendo (internamente), con O3 en la configuración agresiva de la prueba de tiempo de prueba, podemos aventajar el 25%”.

Resulta que esa emblema era probablemente un orilla superior, rematado por una interpretación de O3 con más computación detrás de él que el maniquí OpenAi agresivo públicamente la semana pasada.

Epoch AI, el Instituto de Investigación detrás de Frontiermath, publicó los resultados de sus pruebas de remisión independientes de O3 el viernes. Epoch descubrió que O3 obtuvo en torno a del 10%, muy por debajo del puntaje más stop reclamado de Openai.

Eso no significa que Operai mentiera, per se. Los resultados de remisión que la compañía publicó en diciembre muestra una puntuación inferior que coincide con la época de puntaje observada. Epoch todavía señaló que su configuración de prueba probablemente difiere de OpenAI, y que utilizó una interpretación actualizada de Frontiermath para sus evaluaciones.

“The difference between our results and OpenAI’s might be due to OpenAI evaluating with a more powerful internal scaffold, using more test-time (computing), or because those results were run on a different subset of FrontierMath (the 180 problems in frontiermath-2024-11-26 vs the 290 problems in frontiermath-2025-02-28-private),” escribió Época.

Según una publicación en X Desde la Fundación del Premio ARC, una estructura que probó una interpretación previa a la escape de O3, el maniquí de O3 manifiesto “es un maniquí diferente (…) oportuno para el uso de chat/producto”, corroborando el mensaje de Epoch.

“Todos los niveles de compute O3 lanzados son más pequeños que la interpretación que (remisión)”, escribió el Premio ARC. En términos generales, se puede esperar que los niveles de cuenta más grandes logren mejores puntajes de remisión.

Wenda Zhou, miembro del personal técnico. dijo durante una transmisión en vivo la semana pasada que el O3 en producción está “más optimizado para los casos de uso del mundo actual” y la velocidad frente a la interpretación de O3 demostrada en diciembre. Como resultado, puede exhibir “disparidades”, agregó.

“(W) ha hecho (optimizaciones) para hacer que el (maniquí) sea más rentable (y) más útil en universal”, dijo Zhou. “Todavía esperamos que, todavía pensamos que, este es un maniquí mucho mejor (…) no tendrá que esperar tanto cuando solicite una respuesta, lo cual es actual con estos (tipos de) modelos”.

De acuerdo, el hecho de que el divulgación manifiesto de O3 no gravedad las promesas de pruebas de OpenAi es un punto de discusión, ya que los modelos O3-Mini-High-Mini de la compañía superan a O3 en Frontiermath, y OpenAI planea presentarse una variación O3 más potente, O3-Pro, en las próximas semanas.

Sin retención, es otro recordatorio de que los puntos de remisión de IA son mejor no tomados al pie de la carácter, particularmente cuando la fuente es una empresa con servicios para traicionar.

La evaluación comparativa de “controversias” se está convirtiendo en un hecho global en la industria de la IA a medida que los proveedores corren para capturar los titulares y la mentalidad con nuevos modelos.

En enero, Epoch fue criticada por esperar para revelar fondos de Operai hasta posteriormente de que la compañía anunció O3. Muchos académicos que contribuyeron al Frontiermath no fueron informados de la billete de OpenAi hasta que se hizo pública.

Más recientemente, el XAI de Elon Musk fue marcado de transmitir gráficos de remisión engañosos para su final maniquí de IA, Grok 3. Solo este mes, Meta admitió promover puntajes de remisión para una interpretación de un maniquí que difería de la que la compañía puso a disposición de los desarrolladores.

Actualizado 4:21 PM Pacífico: Comentarios agregados de Wenda Zhou, miembro del personal técnico de Operai, de una transmisión en vivo la semana pasada.


Related Posts

Pensé que Google tenía la mejor aplicación de traducción de IA, pero estaba erróneo

Tabla de contenido Tabla de contenido Conocer al opto Find x8 extremista Construido para conversaciones ¿Es este el futuro de los idiomas de enseñanza? Si viaja mucho, sabrá que uno…

¿Señorita la vieja escuela Linux? Esta distribución lo llevará de regreso a principios de la plazo de 2000

Jack Wallen / Elyse Betters Picaro / Zdnet Hasta el día de hoy, todavía puedo memorar la primera vez que inicié sesión en Linux y cómo se veía. Era Caldera…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

CONNECTICUT: 3 dominicanas fallecen en montaña vehicular | AlMomento.net

CONNECTICUT: 3 dominicanas fallecen en montaña vehicular | AlMomento.net

Abogados de Sean “Diddy” Combs no tendrán los dos meses adicionales que solicitaron al tribunal

Abogados de Sean “Diddy” Combs no tendrán los dos meses adicionales que solicitaron al tribunal

RD retoma su ritmo de vida tras asueto por Semana Santa | AlMomento.net

RD retoma su ritmo de vida tras asueto por Semana Santa | AlMomento.net

Pensé que Google tenía la mejor aplicación de traducción de IA, pero estaba erróneo

Pensé que Google tenía la mejor aplicación de traducción de IA, pero estaba erróneo

El presidente Abinader llora al Papa Francisco

El presidente Abinader llora al Papa Francisco

Asueto de Semana Santa en RD concluye con 30 personas fallecidas

Asueto de Semana Santa en RD concluye con 30 personas fallecidas