OpenAI aguijada GPT-5.4 con modo de uso de computadora nativo, complementos financieros para Microsoft Excel y Google Sheets

OpenAI aguijada GPT-5.4 con modo de uso de computadora nativo, complementos financieros para Microsoft Excel y Google Sheets

Las actualizaciones de IA no se están desacelerando. Fielmente, dos días posteriormente de que OpenAI lanzara un nuevo maniquí de IA subyacente para ChatGPT llamado GPT-5.3 Instant, la compañía presentó otra aggiornamento aún más masiva: GPT-5.4.

En efectividad, GPT-5.4 viene en dos variedades: GPT-5.4 Pensamiento y GPT-5.4 Proeste final diseñado para las tareas más complejas.

Uno y otro estarán disponibles en la interfaz de programación de aplicaciones (API) de plazo de OpenAI y en la aplicación de incremento de software Codex, mientras que GPT-5.4 Thinking estará acondicionado para todos los suscriptores pagos de ChatGPT (Plus, el plan de $20 por mes y superiores) y Pro estará reservado para los usuarios del plan ChatGPT Pro ($200 mensuales) y Enterprise.

Los usuarios de ChatGPT Free todavía probarán GPT-5.4, pero sólo cuando sus consultas se enrutan automáticamente al maniquí, según un portavoz de OpenAI.

Los grandes titulares de esta interpretación son la eficiencia: OpenAI informa que GPT-5.4 utiliza muchos menos tokens (47 % menos en algunas tareas) que sus predecesores y, posiblemente incluso más impresionante, un nuevo "nativo" Modo de uso de computadora acondicionado a través de la API y su Codex que permite a GPT-5.4 navegar por la computadora de un legatario como un humano y trabajar entre aplicaciones.

La compañía todavía está lanzando un Nuevo conjunto de integraciones ChatGPT que permite conectar GPT-5.4 directamente a Microsoft Excel y Google Sheets de los usuarios. hojas de cálculo y celdas, lo que permite un examen granular y la finalización automatizada de tareas que deberían acelerar el trabajo en toda la empresa, pero que pueden hacer que los temores de despidos administrativos sean aún más pronunciados tras ofertas similares de Claude de Anthropic y su nueva aplicación Cowork.

OpenAI dice que GPT-5.4 admite hasta 1 millón de tokens de contexto en API y Codex, lo que permite a los agentes planificar, ejecutar y revisar tareas en horizontes largos; sin confiscación, cobra el doble del costo por 1 millón de tokens una vez que la entrada supera los 272 000 tokens.

Uso nativo de la computadora: un paso en torno a flujos de trabajo autónomos

La capacidad más importante que OpenAI destaca es que GPT-5.4 es su primer maniquí de propósito normal decidido con capacidades nativas de uso de computadoras de última engendramiento en Codex y API, lo que permite a los agentes tratar computadoras y arrostrar a agarradera flujos de trabajo de múltiples pasos en todas las aplicaciones.

OpenAI dice que el maniquí puede escribir código para tratar computadoras a través de bibliotecas como Playwright y emitir comandos de mouse y teclado en respuesta a capturas de pantalla. OpenAI todavía afirma un brinco en la navegación web agente.

Los resultados de las pruebas comparativas se presentan como evidencia de que esto no es simplemente un contenedor de interfaz de legatario.

En BrowseComp, que mide qué tan correctamente los agentes de IA pueden navegar persistentemente por la web para encontrar información difícil de acotar, OpenAI informa que GPT-5.4 mejoró en un 17% invariable con respecto a GPT-5.2, y GPT-5.4 Pro alcanzó un 89,3%, descrito como un nuevo estado del arte.

En OSWorld-Verified, que mide la navegación del escritorio mediante capturas de pantalla más acciones de teclado y mouse, OpenAI informa que GPT-5.4 tuvo un 75,0 % de éxito, en comparación con el 47,3 % de GPT-5.2, y las notas informaron un rendimiento humano del 72,4 %.

En WebArena-Verified, GPT-5.4 alcanza un 67,3 % de éxito utilizando interacción basada en DOM y capturas de pantalla, en comparación con el 65,4 % de GPT-5.2. En Online-Mind2Web, OpenAI informa un 92,8 % de éxito utilizando nada más observaciones basadas en capturas de pantalla.

OpenAI todavía vincula el uso de la computadora con mejoras en la visión y el manejo de documentos. En MMMU-Pro, GPT-5.4 alcanza un 81,2% de éxito sin el uso de herramientas, en comparación con el 79,5% de GPT-5.2, y OpenAI dice que logra ese resultado utilizando una fracción de los “tokens de pensamiento”.

En OmniDocBench, el error promedio de GPT-5.4 se reporta en 0.109, mejorado desde 0.140 para GPT-5.2. La publicación todavía describe el soporte ampliado para entradas de imágenes de incorporación fidelidad, incluido un nivel de detalle “llamativo” de hasta 10,24 millones de píxeles.

OpenAI posiciona a GPT-5.4 como diseñado para flujos de trabajo más largos y de varios pasos: un trabajo que cada vez más parece un agente que mantiene el estado en muchas acciones en circunstancia de un chatbot que asegura una vez.

Búsqueda de herramientas y orquestación de herramientas mejorada

A medida que los ecosistemas de herramientas crecen, OpenAI sostiene que el enfoque ingenuo (verter cada definición de utensilio en el mensaje) crea un impuesto que se paga por cada solicitud: costo, latencia y contaminación del contexto.

GPT-5.4 introduce la búsqueda de herramientas en la API como una opción estructural. En circunstancia de admitir todas las definiciones de herramientas por superior, el maniquí recibe una nómina liviana de herramientas más una capacidad de búsqueda, y recupera definiciones completas de herramientas solo cuando positivamente se necesitan.

OpenAI describe la fruto de eficiencia con una comparación concreta: en 250 tareas del punto de narración MCP Atlas de Scale, ejecutándose con 36 servidores MCP habilitados, la configuración de búsqueda de herramientas redujo el uso total de tokens en un 47 % y logró la misma precisión que una configuración que exponía todas las funciones de MCP directamente en contexto.

Esa sigla del 47% se refiere específicamente a la configuración de búsqueda de herramientas en esa evaluación, no una afirmación normal de que GPT-5.4 utiliza un 47% menos de tokens para cada tipo de tarea.

Mejoras para desarrolladores y flujos de trabajo de codificación

El argumento de codificación de OpenAI es que GPT-5.4 combina las fortalezas de codificación de GPT-5.3-Codex con herramientas más potentes y capacidades de uso de computadoras que son importantes cuando las tareas no son de una sola vez.

GPT-5.4 iguala o supera a GPT-5.3-Codex en SWE-Bench Pro y, al mismo tiempo, tiene una latencia más desestimación en los esfuerzos de razonamiento.

Codex todavía incluye controles a nivel de flujo de trabajo. OpenAI dice que el modo /fast ofrece un rendimiento hasta 1,5 veces más rápido en todos los modelos compatibles, incluido GPT-5.4, y lo describe como el mismo maniquí e inteligencia “simplemente más rápido”.

Y describe el emanación de una diplomacia empírico del Codex, “Dramaturgo (interactivo)”, destinada a demostrar cómo la codificación y el uso de la computadora pueden funcionar en conjunto: depurar visualmente aplicaciones web y de Electron y probar una aplicación a medida que se construye.

OpenAI para Microsoft Excel y Google Sheets

Adicionalmente de GPT-5.4, OpenAI anuncia un conjunto de productos seguros de IA en ChatGPT creados para empresas e instituciones financieras, impulsados ​​por GPT-5.4 para razonamiento financiero reformista y modelado basado en Excel.

La cuchitril central es ChatGPT para Excel y Google Sheets (beta), que OpenAI describe como ChatGPT integrado directamente en hojas de cálculo para crear, analizar y poner al día modelos financieros complejos utilizando las fórmulas y estructuras en las que ya confían los equipos.

La suite todavía incluye nuevas integraciones de aplicaciones ChatGPT destinadas a normalizar datos internos, de la empresa y del mercado en un único flujo de trabajo, nombrando FactSet, MSCI, Third Bridge y Moody’s.

E introduce “habilidades” reutilizables para trabajos financieros recurrentes, como vistas previas de ganancias, examen de comparables, examen DCF y redacción de memorandos de inversión.

OpenAI áncora el impulso financiero con una afirmación de narración interna: el rendimiento del maniquí aumentó del 43,7 % con GPT-5 al 88,0 % con GPT-5.4 Pensando en un punto de narración interno de banca de inversión de OpenAI.

Determinar el rendimiento de la IA frente al trabajo profesional

OpenAI se apoya en puntos de narración destinados a parecerse a los resultados reales de la oficina, no solo a la resolución de acertijos. En GDPval, una evaluación que alpargata “trabajo de conocimiento correctamente especificado” en 44 ocupaciones, OpenAI informa que GPT-5.4 iguala o supera a los profesionales de la industria en el 83,0% de las comparaciones, en comparación con el 71,0% de GPT-5.2.

La compañía todavía destaca mejoras específicas en los tipos de artefactos que tienden a exponer las debilidades del maniquí: tablas estructuradas, fórmulas, coherencia novelística y calidad del diseño.

En una prueba de narración interna de tareas de modelado de hojas de cálculo modeladas a partir de lo que podría hacer un analista junior de banca de inversión, GPT-5.4 alcanza una puntuación media del 87,5%, en comparación con el 68,4% de GPT-5.2.

Y en una serie de indicaciones de evaluación de presentaciones, OpenAI dice que los evaluadores humanos prefirieron las presentaciones de GPT-5.4 el 68,0% de las veces a las de GPT-5.2, citando una estética más musculoso, una viejo variedad visual y un uso más efectivo de la engendramiento de imágenes.

Mejorar la confiabilidad y disminuir las alucinaciones.

OpenAI describe GPT-5.4 como su maniquí más factual hasta el momento y conecta esa afirmación con un conjunto de datos práctico: mensajes no identificados donde los usuarios previamente señalaron errores factuales. En ese conjunto, OpenAI informa GPT-5.4 reclamaciones individuales tienen un 33% menos de probabilidades de ser falsos y su respuestas completas tienen un 18% menos de probabilidades de contener errores en comparación con GPT-5.2.

En declaraciones proporcionadas a VentureBeat por OpenAI y atribuidas a los primeros probadores de GPT-5.4, Daniel Swiecki de Walleye Hacienda dice que en las finanzas internas y las evaluaciones de Excel, GPT-5.4 mejoró la precisión en 30 puntos porcentuales, lo que vincula con una automatización ampliada para actualizaciones de modelos y examen de escenarios.

Brendan Foody, director ejecutante de Mercor, considera que GPT-5.4 es el mejor maniquí que la compañía ha probado y dice que ahora ocupa el primer circunstancia en el punto de narración APEX-Agents de Mercor para trabajos de servicios profesionales, enfatizando entregables a prolongado plazo como presentaciones de diapositivas, modelos financieros y examen legales.

Precios y disponibilidad

En la API, OpenAI dice que GPT-5.4 Thinking está acondicionado como gpt-5.4 y GPT-5.4 Pro como gpt-5.4-pro. El precio es el venidero:

  • GPT-5.4: $2,50 / 1 millón de tokens de entrada; $15 / 1 millón de tokens de salida

  • GPT-5.4 Pro: $30 / 1 millón de tokens de entrada; $180 / 1 millón de tokens de salida

  • Pedazo + Flex: media tarifa; Procesamiento prioritario: tasa 2×

Esto convierte a GPT-5.4 en uno de los modelos más caros para ejecutar API en comparación con todo el campo, como se ve en la venidero tabla.

Maniquí

Aporte

Producción

Costo total

Fuente

Qwen3 Turbo

$0.05

$0.20

$0.25

Cúmulo de Alibaba

Qwen3.5-Flash

$0.10

$0.40

$0.50

Cúmulo de Alibaba

chat de búsqueda profunda (V3.2-Exp)

$0.28

$0.42

$0.70

búsqueda profunda

razonador de búsqueda profunda (V3.2-Exp)

$0.28

$0.42

$0.70

búsqueda profunda

Grok 4.1 Rápido (razonamiento)

$0.20

$0.50

$0.70

xAI

Grok 4.1 Rápido (sin razonamiento)

$0.20

$0.50

$0.70

xAI

Minimax M2.5

$0.15

$1.20

$1.35

minimax

Géminis 3.1 Flash-Lite

$0.25

$1.50

$1.75

Google

MiniMax M2.5-Exhalación

$0.30

$2.40

$2.70

minimax

Presencia previa flash de Géminis 3

$0.50

$3.00

$3.50

Google

Kimi-k2.5

$0.60

$3.00

$3.60

Disparo a la vidriera

GLM-5

$1.00

$3.20

$4.20

Z.ai

ERNIE 5.0

$0.85

$3.40

$4.25

Baidu

Claude Haiku 4.5

$1.00

$5.00

$6.00

antrópico

Qwen3-Max (23/01/2026)

$1.20

$6.00

$7.20

Cúmulo de Alibaba

Géminis 3 Pro (≤200K)

$2.00

$12.00

$14.00

Google

GPT-5.2

$1.75

$14.00

$15.75

AbiertoAI

Soneto de Claudio 4.6

$3.00

$15.00

$18.00

antrópico

GPT-5.4

$2.50

$15.00

$17.50

AbiertoAI

Géminis 3 Pro (>200K)

$4.00

$18.00

$22.00

Google

Cerrar Trabajo 4.6

$5.00

$25.00

$30.00

antrópico

GPT-5.2 Pro

$21.00

$168.00

$189.00

AbiertoAI

GPT-5.4 Pro

$30.00

$180.00

$210.00

AbiertoAI

Otra nota importante: con GPT-5.4, las solicitudes que superan los 272 000 tokens de entrada se facturan al doble de la tarifa regular, lo que refleja la capacidad de remitir mensajes más grandes que los modelos anteriores admitidos.

En Codex, la compactación por defecto es de 272k tokens, y el precio más suspensión de contexto prolongado se aplica solo cuando la entrada excede los 272k, lo que significa que los desarrolladores pueden seguir enviando mensajes de ese tamaño o menos sin activar la tasa más incorporación, pero pueden optar por mensajes más grandes aumentando el techo de compactación, y solo aquellas solicitudes más grandes se facturan de forma diferente.

Un portavoz de OpenAI dijo que en la API la producción máxima es de 128.000 tokens, igual que los modelos anteriores.

Finalmente, sobre por qué GPT-5.4 tiene un precio más suspensión en la partidura de almohadilla, el portavoz lo atribuyó a tres factores: viejo capacidad en tareas complejas (incluyendo codificación, uso de computadoras, investigación profunda, engendramiento avanzadilla de documentos y uso de herramientas), importantes mejoras en la investigación de la hoja de ruta de OpenAI y un razonamiento más capaz que utiliza menos tokens de razonamiento para tareas comparables; y agregó que OpenAI cree que GPT-5.4 permanece por debajo de los modelos de frontera comparables en cuanto a precios incluso con el aumento.

El cambio más amplio

A lo prolongado del emanación y las aclaraciones posteriores, GPT-5.4 se posiciona como un maniquí destinado a ir más allá de la “engendramiento de respuestas” y en torno a flujos de trabajo profesionales sostenidos, que requieren orquestación de herramientas, interacción con la computadora, contexto extenso y resultados que se parecen a los artefactos que la parentela positivamente usa en el trabajo.

El energía de OpenAI en la eficiencia de los tokens, la búsqueda de herramientas, el uso nativo de la computadora y la reducción de los errores factuales señalados por el legatario apuntan en la misma dirección: hacer que los sistemas agentes sean más viables en producción al disminuir el costo de los reintentos, ya sea que ese reintento sea una repetición humana, un agente que pasión a otra utensilio o un flujo de trabajo que se vuelve a ejecutar porque el primer paso no funcionó.

Related Posts

Los equipos de pesca en el Atlántico siguen desenterrando accidentalmente armas químicas

Hasta 1970, Estados Unidos arrojó unas 17.000 toneladas de armas químicas no utilizadas de la Primera y Segunda Supresión Mundial frente a la costa del Océano Atlántico, y esa valentía…

Ahorre $50 en el Bose QuietComfort Extremista de segunda vivientes (¡actúe rápido!)

¿Estás buscando unos auriculares increíbles? Conocida desde hace mucho tiempo por sus impresionantes capacidades ANC, la diámetro Bose QuietComfort Extremista sigue siendo sólida, con muy pocos competidores que se acerquen…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Los equipos de pesca en el Atlántico siguen desenterrando accidentalmente armas químicas

Los equipos de pesca en el Atlántico siguen desenterrando accidentalmente armas químicas

Luis Carnación appointed Director of Electoral Observatory for Latin America

Luis Carnación appointed Director of Electoral Observatory for Latin America

Ahorre $50 en el Bose QuietComfort Extremista de segunda vivientes (¡actúe rápido!)

Ahorre  en el Bose QuietComfort Extremista de segunda vivientes (¡actúe rápido!)

RD entre países que la Interpol intervino por abusos infantiles – Remolacha

RD entre países que la Interpol intervino por abusos infantiles – Remolacha

Pixel 10a frente a Pixel 10: una pequeña brecha ahora es un quebrada (vídeo)

Pixel 10a frente a Pixel 10: una pequeña brecha ahora es un quebrada (vídeo)

Investigación: Pesimismo sobre el rumbo del país, pero optimismo personal

Investigación: Pesimismo sobre el rumbo del país, pero optimismo personal