El maniquí O3 AI de OpenAI obtiene puntajes más bajos en un punto de remisión de lo que la compañía inicialmente implica

Una discrepancia entre los resultados de remisión de primer y tercero para el maniquí O3 AI de Openai es planteando preguntas sobre la transparencia de la compañía y prácticas de prueba de modelos.

Cuando Openai dio a conocer O3 en diciembre, la compañía afirmó que el maniquí podría objetar poco más de un cuarto de preguntas sobre Frontiermath, un conjunto desafiante de problemas matemáticos. Esa puntuación explotó la competencia: el mejor maniquí mejor logró objetar solo en torno a del 2% de los problemas de Frontyermath correctamente.

“Hoy, todas las ofertas tienen menos del 2% (en Frontiermath)”, Mark Chen, director de investigación de OpenAI, dijo durante una transmisión en vivo. “Estamos viendo (internamente), con O3 en la configuración agresiva de la prueba de tiempo de prueba, podemos aventajar el 25%”.

Resulta que esa emblema era probablemente un orilla superior, rematado por una interpretación de O3 con más computación detrás de él que el maniquí OpenAi agresivo públicamente la semana pasada.

Epoch AI, el Instituto de Investigación detrás de Frontiermath, publicó los resultados de sus pruebas de remisión independientes de O3 el viernes. Epoch descubrió que O3 obtuvo en torno a del 10%, muy por debajo del puntaje más stop reclamado de Openai.

Eso no significa que Operai mentiera, per se. Los resultados de remisión que la compañía publicó en diciembre muestra una puntuación inferior que coincide con la época de puntaje observada. Epoch todavía señaló que su configuración de prueba probablemente difiere de OpenAI, y que utilizó una interpretación actualizada de Frontiermath para sus evaluaciones.

“The difference between our results and OpenAI’s might be due to OpenAI evaluating with a more powerful internal scaffold, using more test-time (computing), or because those results were run on a different subset of FrontierMath (the 180 problems in frontiermath-2024-11-26 vs the 290 problems in frontiermath-2025-02-28-private),” escribió Época.

Según una publicación en X Desde la Fundación del Premio ARC, una estructura que probó una interpretación previa a la escape de O3, el maniquí de O3 manifiesto “es un maniquí diferente (…) oportuno para el uso de chat/producto”, corroborando el mensaje de Epoch.

“Todos los niveles de compute O3 lanzados son más pequeños que la interpretación que (remisión)”, escribió el Premio ARC. En términos generales, se puede esperar que los niveles de cuenta más grandes logren mejores puntajes de remisión.

Wenda Zhou, miembro del personal técnico. dijo durante una transmisión en vivo la semana pasada que el O3 en producción está “más optimizado para los casos de uso del mundo actual” y la velocidad frente a la interpretación de O3 demostrada en diciembre. Como resultado, puede exhibir “disparidades”, agregó.

“(W) ha hecho (optimizaciones) para hacer que el (maniquí) sea más rentable (y) más útil en universal”, dijo Zhou. “Todavía esperamos que, todavía pensamos que, este es un maniquí mucho mejor (…) no tendrá que esperar tanto cuando solicite una respuesta, lo cual es actual con estos (tipos de) modelos”.

De acuerdo, el hecho de que el divulgación manifiesto de O3 no gravedad las promesas de pruebas de OpenAi es un punto de discusión, ya que los modelos O3-Mini-High-Mini de la compañía superan a O3 en Frontiermath, y OpenAI planea presentarse una variación O3 más potente, O3-Pro, en las próximas semanas.

Sin retención, es otro recordatorio de que los puntos de remisión de IA son mejor no tomados al pie de la carácter, particularmente cuando la fuente es una empresa con servicios para traicionar.

La evaluación comparativa de “controversias” se está convirtiendo en un hecho global en la industria de la IA a medida que los proveedores corren para capturar los titulares y la mentalidad con nuevos modelos.

En enero, Epoch fue criticada por esperar para revelar fondos de Operai hasta posteriormente de que la compañía anunció O3. Muchos académicos que contribuyeron al Frontiermath no fueron informados de la billete de OpenAi hasta que se hizo pública.

Más recientemente, el XAI de Elon Musk fue marcado de transmitir gráficos de remisión engañosos para su final maniquí de IA, Grok 3. Solo este mes, Meta admitió promover puntajes de remisión para una interpretación de un maniquí que difería de la que la compañía puso a disposición de los desarrolladores.

Actualizado 4:21 PM Pacífico: Comentarios agregados de Wenda Zhou, miembro del personal técnico de Operai, de una transmisión en vivo la semana pasada.


Related Posts

Mi referéndum para la mejor alternativa de equipo de equipo de gorra

Solía ​​aguardar en TeamViewer para sesiones remotas. Sin incautación, por último, se ha sentido más como un obstáculo que como una ayuda. Las ventanas emergentes constantes sobre el uso comercial,…

Mira: el CEO de Google Deepmind y el campeón de AI Nobel Demis Hassabis en CBS ’60 minutos ‘

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información Un segmento en…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Mi referéndum para la mejor alternativa de equipo de equipo de gorra

Mi referéndum para la mejor alternativa de equipo de equipo de gorra

Francisco, el Papa del Pueblo

Francisco, el Papa del Pueblo

LALIGA EA SPORTS y Premios PLATINO celebran el V Diálogo de las Estrellas

LALIGA EA SPORTS y Premios PLATINO celebran el V Diálogo de las Estrellas

Autoridades decomisan 4,2 toneladas de cocaína en México | AlMomento.net

Autoridades decomisan 4,2 toneladas de cocaína en México | AlMomento.net

Partidos y líderes RD expresan su pesar por asesinato del papa | AlMomento.net

Partidos y líderes RD expresan su pesar por asesinato del papa | AlMomento.net

Raquel Peña sobre papa: su sencillez y humanidad dejaron en mí una huella imborrable

Raquel Peña sobre papa: su sencillez y humanidad dejaron en mí una huella imborrable