La codificación de IA empresarial crece: GPT‑5.2‑Codex integra la seguridad en refactores de software a gran escalera

La codificación de IA empresarial crece: GPT‑5.2‑Codex integra la seguridad en refactores de software a gran escalera

con el fresco emanación de GPT 5.2OpenAI actualizó otros modelos relacionados, incluido su popular maniquí de codificación Codex, incorporando casos de uso más agentes.

GPT-5.2-Codex, que OpenAI llamó en una publicación de blog “El maniquí de codificación agente más renovador hasta el momento para ingenieros de software complejos del mundo vivo”, se ha optimizado para trabajos a prolongado plazo con agentes y tendrá capacidades de ciberseguridad más sólidas.

El maniquí es una rama de GPT-5.2, optimizado para la construcción de agentes.

“GPT-5.2-Codex representa un paso delante en cómo la IA descubierta puede respaldar la ingeniería de software del mundo vivo y dominios especializados como la ciberseguridad, ayudando a los desarrolladores y defensores a enfrentarse trabajos complejos y de prolongado plazo y fortaleciendo las herramientas disponibles para la investigación de seguridad responsable”, dijo la compañía en su publicación de blog.

Las empresas pueden obtener al nuevo maniquí Codex “en todas las superficies del Codex para usuarios pagos de ChatGPT y trabajar para permitir de forma segura el camino a GPT-5.2-Codex para usuarios de API en las próximas semanas”. La compañía asimismo está poniendo a prueba un software con usuarios de confianza solo por invitación para obtener a “modelos más permisivos para profesionales y organizaciones examinados” para el trabajo de ciberseguridad defensiva para determinar un estabilidad entre accesibilidad y seguridad.

Avances en ciberseguridad con modelos

OpenAI considera que GPT-5.2-Codex es su maniquí de ciberseguridad más sólido hasta el momento. Aún así, a medida que sus capacidades crecen, la compañía dijo que necesita diseñar un enfoque de implementación que tenga en cuenta el crecimiento futuro y respalde la ciberseguridad defensiva.

“A medida que nuestros modelos continúan avanzando a lo prolongado de la frontera de la inteligencia, hemos observado que estas mejoras asimismo se traducen en saltos de capacidad en dominios especializados como la ciberseguridad⁠”, dijo la compañía.

OpenAI dijo en su plástico de sistema que probó el maniquí en tres puntos de narración: evaluaciones Capture-the-Flag (CTF), CVE-Bench y Cyber ​​Range.

GPT-5.2-Codex se convirtió en el maniquí de veterano rendimiento de la compañía en evaluaciones CTF, lo que atribuyeron a la compactación, o “la capacidad del maniquí para funcionar de modo coherente en múltiples ventanas de contexto”.

El maniquí obtuvo una puntuación del 87% en CVE-Bench, superando a otros modelos, con GPT-5.1-Codex-Max en segundo oportunidad. Este aumento sería útil para tareas que implican ejecutar comandos relacionados con el descubrimiento de vulnerabilidades y probar herramientas “con un enfoque casi de fuerza bruta”.

En la prueba Cyber ​​Range de larga duración, el maniquí obtuvo una tasa de aprobación combinada del 72,7%. GPT-5.1-Codex-Max obtuvo una puntuación del 81,8%.

Tesina de implementación de ciberseguridad

OpenAI dijo que algunos usuarios de su GPT-5.1-Codex-Max, que se lanzó en noviembredescubrió una vulnerabilidad de exposición del código fuente en React y después la informó. Según OpenAI, Andrew MacPherson, investigador de seguridad de Privy, utilizó GPT-5.1-Codex-Max para evaluar qué tan admisiblemente el maniquí podría respaldar la investigación de vulnerabilidades del mundo vivo. En cambio, el maniquí mostró un comportamiento inesperado.

Con mejoras en las capacidades de ciberseguridad para GPT-5.2-Codex y potencialmente para los modelos posteriores, OpenAI dijo que necesita equilibrar el despliegue de modelos de frontera con las herramientas necesarias para la ciberseguridad defensiva. Si admisiblemente GPT-5.2-Codex “no alcanza un suspensión nivel de capacidad cibernética según nuestro situación de preparación”, la compañía planea sobrellevar a usuarios seleccionados para probar las capacidades de seguridad. (OpenAI Ámbito de preparación para calibrar y rastrear daños potenciales de la IA a los humanos)

“Los equipos de seguridad pueden encontrarse con restricciones al intentar rivalizar a los actores de amenazas, analizar el malware para respaldar la remediación o realizar pruebas de estrés en la infraestructura crítica. Estamos desarrollando un piloto de camino confiable para eliminar esa fricción para los usuarios y organizaciones calificados y permitir a los defensores confiables utilizar capacidades cibernéticas de IA de vanguardia para acelerar la ciberdefensa”. Dijo Open AI.

Fronteras agentes

GPT-5.2 ya recibió elogios de los usuarios para su uso en tareas comerciales y flujos de trabajo. Con la interpretación Codex, algunas de esas capacidades podrían transferirse, especialmente porque las empresas planean utilizar el maniquí para codificar a sus agentes.

La compañía dijo que el maniquí restablecimiento el trabajo a prolongado plazo mediante la compactación, ofreciendo un rendimiento sólido en cambios de código extensos. Incluso presenta un rendimiento mejorado en Windows.

En las pruebas comparativas, GPT-5.2-Codex obtuvo el mejor rendimiento en precisión en comparación con sus versiones anteriores.

"Con estas mejoras, Codex es más capaz de trabajar en repositorios grandes durante sesiones prolongadas con el contexto completo limpio. Puede completar de modo más confiable tareas complejas como grandes refactorizaciones, migraciones de código y creación de funciones, y continúa iterando sin perder el rumbo, incluso cuando los planes cambian o los intentos fallan." Dijo OpenAI.

Desde su emanación en avances en mayoCodex ha ayudado a marcar el manifestación de la bienvenida de la codificación agentic y vibe en el espacio de creación de IA empresarial. Contiguo con Windsurf, Cursor, Claude Code y los numerosos agentes de codificación de Google, la plataforma trasladó los LLM de la simple finalización de código a la concepción e inicio de proyectos de codificación asincrónica para los usuarios.

Related Posts

Slay the Spire 2, Scott Pilgrim EX y otros nuevos juegos independientes que vale la pena probar

Bienvenido a nuestro postrer esquema de lo que está sucediendo en el espacio de los juegos independientes. Tenemos muchos juegos nuevos y próximos para destacar esta semana, y estos se…

TechCrunch Mobility: la táctica R2 de Rivian

Bienvenido de nuevo a TechCrunch Mobility, su centro para todo lo relacionado con el “futuro del transporte”. Para tomar esto en su bandeja de entrada, regístrese aquí de forma gratuita:…

You Missed

Slay the Spire 2, Scott Pilgrim EX y otros nuevos juegos independientes que vale la pena probar

Slay the Spire 2, Scott Pilgrim EX y otros nuevos juegos independientes que vale la pena probar

TechCrunch Mobility: la táctica R2 de Rivian

TechCrunch Mobility: la táctica R2 de Rivian

¿Efectivamente funcionaron las reformas de Leonel Fernández para combatir la corrupción en República Dominicana?

¿Efectivamente funcionaron las reformas de Leonel Fernández para combatir la corrupción en República Dominicana?

La incómoda verdad sobre los vehículos híbridos

La incómoda verdad sobre los vehículos híbridos

EFF, Ubuntu y otras distribuciones discuten cómo reponer a las leyes de comprobación de vida

EFF, Ubuntu y otras distribuciones discuten cómo reponer a las leyes de comprobación de vida

donde la belleza mueve la patrimonio y las mujeres encuentran apoyo

donde la belleza mueve la patrimonio y las mujeres encuentran apoyo