OpenAI presenta el maniquí de codificación GPT‑5.1-Codex-Max y ya completó una tarea de 24 horas internamente

OpenAI presenta el maniquí de codificación GPT‑5.1-Codex-Max y ya completó una tarea de 24 horas internamente

OpenAI tiene introdujo GPT‑5.1-Codex-Maxun nuevo maniquí de codificación agente de frontera ahora acondicionado en su entorno de desarrollador Codex. El impulso marca un importante paso delante en la ingeniería de software asistida por IA, ya que ofrece capacidades interactivas en tiempo actual, eficiencia y razonamiento a espacioso plazo mejorados. GPT‑5.1-Codex-Max ahora reemplazará a GPT‑5.1-Codex como maniquí predeterminado en todas las superficies integradas en Codex.

El nuevo maniquí está diseñado para servir como un agente de expansión de software persistente y de detención contexto, capaz de ejecutar refactores complejos, flujos de trabajo de depuración y tareas a escalera de plan en múltiples ventanas contextuales.

Viene inmediatamente posteriormente de que Google lanzó ayer su nuevo y poderoso maniquí Gemini 3 Pro, pero aún lo supera o iguala en puntos de remisión de codificación secreto:

En SWE-Bench verificado, GPT‑5.1-Codex-Max logró una precisión del 77,9 % con un esfuerzo de razonamiento extra detención, superando el 76,2% de Gemini 3 Pro.

Además condujo a Terminal-Bench 2.0, con 58,1% de precisión frente al 54,2% de Gemini, e igualó la puntuación de Gemini de 2439 en LiveCodeBench Pro, un punto de remisión de codificación competitivo de Elo.

Cuando se compara con la configuración más vanguardia de Gemini 3 Pro, su maniquí Deep Thinking, Codex-Max además tiene una ligera preeminencia en los puntos de remisión de codificación agente.

Puntos de remisión de rendimiento: ganancias incrementales en tareas secreto

GPT‑5.1-Codex-Max demuestra mejoras mensurables con respecto a GPT‑5.1-Codex en una variedad de puntos de remisión de ingeniería de software en serie.

En SWE-Lancer IC SWE, logró una precisión del 79,9%, un aumento significativo con respecto al 66,3% de GPT-5.1-Codex. En SWE-Bench Verified (n=500), alcanzó un 77,9 % de precisión con un esfuerzo de razonamiento extra detención, superando el 73,7 % de GPT-5.1-Codex.

El rendimiento en Terminal Bench 2.0 (n=89) mostró mejoras más modestas: GPT-5.1-Codex-Max logró una precisión del 58,1 % en comparación con el 52,8 % de GPT-5.1-Codex.

Todas las evaluaciones se realizaron con compactación y un esfuerzo de razonamiento extra detención apoderado.

Estos resultados indican que el nuevo maniquí ofrece un tope más detención tanto en la corrección comparada como en la usabilidad en el mundo actual bajo cargas de razonamiento extendidas.

Bloque técnica: razonamiento a espacioso plazo mediante compactación

Una mejoría arquitectónica importante en GPT‑5.1-Codex-Max es su capacidad para razonar de guisa efectiva durante sesiones extendidas de entrada y salida utilizando un mecanismo llamado compactación.

Esto permite que el maniquí retenga información contextual secreto y al mismo tiempo rechazo detalles irrelevantes a medida que se acerca al tope de su ventana de contexto, lo que permite de guisa efectiva el trabajo continuo en millones de tokens sin degradación del rendimiento.

Se ha observado internamente que el maniquí completa tareas que duran más de 24 horas, incluidas refactorizaciones de varios pasos, iteraciones basadas en pruebas y depuración autónoma.

La compactación además mejoría la eficiencia de las fichas. Con un esfuerzo de razonamiento medio, GPT‑5.1-Codex-Max utilizó aproximadamente un 30 % menos de tokens de pensamiento que GPT‑5.1-Codex para obtener una precisión comparable o mejor, lo que tiene implicaciones tanto para el costo como para la latencia.

Integración de plataformas y casos de uso

GPT‑5.1-Codex-Max está actualmente acondicionado en múltiples entornos basados ​​en Codex, que se refieren a las herramientas e interfaces integradas propias de OpenAI creadas específicamente para agentes de IA centrados en código. Estos incluyen:

  • CLI del códicela útil de bisectriz de comandos oficial de OpenAI (@openai/codex), donde GPT‑5.1-Codex-Max ya está acondicionado.

  • extensiones IDEprobablemente desarrollado o mantenido por OpenAI, aunque no se nombraron integraciones IDE de terceros específicas.

  • Entornos de codificación interactivoscomo los que se utilizan para demostrar aplicaciones de simulación frontend como CartPole o Snell’s Law Explorer.

  • Herramientas de revisión de código internoutilizado por los equipos de ingeniería de OpenAI.

Por ahora, GPT‑5.1-Codex-Max aún no está acondicionado a través de la API pública, aunque OpenAI afirma que estará acondicionado pronto. Los usuarios que deseen trabajar con el maniquí en entornos terminales hoy pueden hacerlo instalando y utilizando Codex CLI.

Actualmente no está confirmado si el maniquí se integrará en IDE de terceros, ni cómo, a menos que se construyan sobre la CLI o una API futura.

El maniquí es capaz de interactuar con herramientas y simulaciones en vivo. Los ejemplos que se muestran en el comunicado incluyen:

  • Un simulador interactivo de gradiente de políticas de CartPole, que visualiza activaciones y entrenamiento de formación por refuerzo.

  • Un explorador óptico de la ley de Snell que admite el trazado de rayos dinámico a través de índices de refracción.

Estas interfaces ejemplifican la capacidad del maniquí para razonar en tiempo actual mientras mantienen una sesión de expansión interactiva, uniendo de guisa efectiva la computación, la visualización y la implementación adentro de un solo tirabuzón.

Restricciones de ciberseguridad y protección

Si aceptablemente GPT-5.1-Codex-Max no alcanza el puertas de capacidad “incorporación” de OpenAI para la ciberseguridad según su situación de preparación, actualmente es el maniquí de ciberseguridad más capaz que OpenAI ha implementado. Admite casos de uso como la detección y corrección automatizadas de vulnerabilidades, pero con un entorno de pruebas exacto y ataque a la red deshabilitado de forma predeterminada.

OpenAI no informa ningún aumento en el uso pillo a escalera, pero ha introducido sistemas de monitoreo mejorados, incluido el enrutamiento de actividades y mecanismos de interrupción para comportamientos sospechosos. Codex permanece accidental en un espacio de trabajo restringido a menos que los desarrolladores opten por un ataque más amplio, lo que mitiga riesgos como la inyección rápida de contenido que no es de confianza.

Contexto de implementación y uso del desarrollador

GPT‑5.1-Codex-Max está actualmente acondicionado para los usuarios en ChatGPT Plus, Pro, Business, Edu y Enterprise planes. Además se convertirá en el nuevo valía predeterminado en entornos basados ​​en Codex, reemplazando a GPT-5.1-Codex, que era un maniquí de propósito más caudillo.

OpenAI afirma que el 95 % de sus ingenieros internos utilizan Codex semanalmente y, desde su prohijamiento, estos ingenieros han enviado aproximadamente un 70 % más de solicitudes de procedencia en promedio, lo que destaca el impacto de la útil en la velocidad de expansión interno.

A pesar de su autonomía y persistencia, OpenAI enfatiza que Codex-Max debe ser tratado como un asistente de codificación, no como un reemplazo de la revisión humana. El maniquí produce registros de terminal, citas de prueba y horizontes de llamadas de herramientas para respaldar la transparencia en el código generado.

Perspectiva

GPT‑5.1-Codex-Max representa una proceso significativa en la logística de OpenAI cerca de herramientas de expansión agentes, ofreciendo anciano profundidad de razonamiento, eficiencia de tokens y capacidades interactivas en todas las tareas de ingeniería de software. Al ampliar sus estrategias de compactación y gobierno de contexto, el maniquí está posicionado para manejar tareas a escalera de repositorios completos, en lado de archivos o fragmentos individuales.

Con un vehemencia continuo en flujos de trabajo agentes, entornos aislados seguros y métricas de evaluación del mundo actual, Codex-Max sienta las bases para la próxima procreación de entornos de programación asistidos por IA, al tiempo que subraya la importancia de la supervisión en sistemas cada vez más autónomos.

Related Posts

Por qué nunca saciado mi SSD más allá del 80% (y tú siquiera deberías hacerlo)

Tengo una relación de acto sexual y odio con la mayoría de los proveedores de SSD. ¿Por qué? Porque soy un acaparador de datos, lo que significa que he comprado…

Los suscriptores de Amazon Prime Video con anuncios pierden el soporte 4K el 10 de abril

A partir del 10 de abril, los suscriptores de Amazon Prime pagarán $5 por mes por Prime Video sin publicidad, en comparación con los $3 actuales por mes adicionalmente de…

You Missed

El tembloroso Desfile Franquista de Carnaval ilumina el Malecón de Santo Domingo

El tembloroso Desfile Franquista de Carnaval ilumina el Malecón de Santo Domingo

Por qué nunca saciado mi SSD más allá del 80% (y tú siquiera deberías hacerlo)

Por qué nunca saciado mi SSD más allá del 80% (y tú siquiera deberías hacerlo)

Preocupación por el aumento de los combustibles (video)

Preocupación por el aumento de los combustibles (video)

Dominicano Andersson García impresiona en su comienzo NBA

Dominicano Andersson García impresiona en su comienzo NBA

expertos recomiendan acogerse del sol diariamente

expertos recomiendan acogerse del sol diariamente

Los suscriptores de Amazon Prime Video con anuncios pierden el soporte 4K el 10 de abril

Los suscriptores de Amazon Prime Video con anuncios pierden el soporte 4K el 10 de abril