
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Fue una gran semana para los anuncios de IA a posteriori de eventos de Microsoft, Google y Anthrope. Pero Openai está terminando las cosas con sus propias noticiero. Y no, no solo estamos hablando sobre su adquisición de $ 6.5 mil millones del equipo de diseño de Jony Ive para liderar un Nuevo esfuerzo de hardware, “IO” en OpenAi.
Hoy, el La empresa actualizó su cámara La navegación web autónoma y el agente de control del cursor interiormente de ChatGPT desde el uso del maniquí de habla vasto GPT-4O preparatorio al maniquí de razonamiento O3 más nuevo y potente.
La aggiornamento, publicada a nivel mundial hoy, 23 de mayo de 2025, está adecuado como una “tino previa de investigación” para acreditar a los suscriptores del plan ChatGPT Pro de $ 200 USD de OpenAI.
Básicamente, esa es la forma en que OpenAi dice que todavía no es un producto completamente “lijado” o perfeccionado; aún puede tener problemas y problemas.
Pero con Rival Google ofrece su propio paquete de suscripción de IA de nivel superior por un precio de casi $ 250 USD regularmente (Actualmente, ejecutando un descuento hasta $ 125 durante los primeros tres meses) para conseguir a su posterior Gemini Multimodal, Coexistentes de Imagen Imagen y modelos VEO Video Generation, de repente, el plan ChatGPT Pro de OpenAi parece más asequible en comparación.
¿Qué es el cámara de OpenAI y para qué sirve?
El cámara debutó por primera vez en enero de 2025 como el paso original de OpenAI en agentes semiautónomos, específicamente por computadora utilizando agentes (CUA). La idea es ir más allá de la interfaz CHATBOT de ChatGPT y permitir que los poderosos modelos de IA de OpenAI comiencen a tomar más acciones en nombre del heredero.
Por lo tanto, el cámara fue diseñado para señalar de forma autónoma, hacer clic, desplazarse y escribir para completar tareas basadas en la web, como reservar reservas para cenar, recopilar listas de compras o ordenar boletos para eventos. Esta capacidad de agente le permite completar las tareas de los usuarios directamente a través de una interfaz de navegador, desde la reserva de reservas hasta la compilación de datos en ruta.
Para fines de seguridad, privacidad y seguridad, el cámara no utilizó ningún navegador web existente en la PC o Mac de un heredero. En cambio, se ejecutó en un navegador potencial alojado en la abundancia accesible a través de un sitio independiente: cámara.chatgpt.com) donde los usuarios pueden ingresar solicitudes y observar al agente realizar tareas en tiempo auténtico.
Combinó las capacidades de visión, razonamiento y interacción basadas en GPT-4O, que marcó una nueva dirección para OpenAI en AIG de AI.
El producto se lanzó como una tino previa de investigación para los suscriptores de ChatGPT Pro y presentó medidas de seguridad incorporadas como confirmaciones de heredero, modo de temporalizador y restricciones en plataformas web de detención peligro.
Todavía se estaba probando en contextos empresariales, incluidas la planificación de viajes y los servicios cívicos, lo que demuestra su potencial en los entornos de consumo y empresariales.
O3 ofrece una precisión mejorada, estructura y tasas de éxito
Con esta aggiornamento, OpenAI tiene como objetivo mejorar el rendimiento en varias dimensiones secreto. El nuevo cámara basado en O3 demuestra una longevo persistencia y precisión durante las interacciones del navegador.
En términos prácticos, esto significa que es más probable que complete las tareas del heredero con éxito y con menos privación de corrección o repetición. Adicionalmente, los usuarios pueden esperar respuestas que sean más claras, más estructuradas y más completas.
En evaluaciones comparativas, el nuevo maniquí muestra una clara preeminencia de preferencia sobre su predecesor. Los estudios de preferencias humanas revelan que los usuarios favorecen el maniquí O3 por su estilo, amplitud y claridad. Todavía funciona fuertemente en la instrucción y eficiencia de instrucción, aunque los resultados de la corrección objetiva están más equilibrados entre las versiones.

El rendimiento en los puntos de remisión de evaluación de terceros refleja estas mejoras. En el Punto de remisión de Osworld Eso mide la finalización de las tareas basadas en el navegador, el maniquí O3 obtiene 42.9 en comparación con 38.1 para la lectura preparatorio.

Sin confiscación, Openai señala que conveniente a las limitaciones en el sistema de calificación automatizado, ¡la rendimiento de rendimiento auténtico podría estar más cerca de 20 puntos porcentuales!
En Webarena, el nuevo maniquí logró una puntuación de 62.9, frente a 48.1. La mejoramiento más dramática aparece en el punto de remisión GAIA, donde el maniquí O3 obtiene 62.2, superando enormemente el 12.3 del maniquí preparatorio.
Las comparaciones de tareas de banda a banda ilustran aún más estas ganancias. En un ejemplo que involucra una solicitud de reserva de restaurantes, el nuevo maniquí proporcionó una nómina más clara y detallada de reservas disponibles, incluidas ubicaciones, clasificaciones Michelin y notas de asientos, presentadas en una mesa acertadamente formatada. La lectura preparatorio, aunque pragmático, entregó menos información de una forma menos organizada, según una imagen incluida con el Nuevas notas de emanación del cámara O3:

Las salvaguardas permanecen, al igual que las notas de advertencia generales sobre el uso de transacciones sensibles, financieras y comunicación a la cuenta
El maniquí O3 igualmente hereda las medidas de seguridad introducidas con versiones anteriores, con un longevo ajuste para su papel como sistema de agente.
OpenAI ha integrado una capacitación mejorada contra la ejecución de tareas dañinas, las vulnerabilidades de inyección rápida y los errores que involucran la intención del heredero.
Las evaluaciones muestran que el maniquí ahora confirma el 94% de las acciones sensibles ayer de ejecutarlas, con una confirmación del 100% en las transacciones financieras. La susceptibilidad de inyección inmediata igualmente ha disminuido del 23% al 20%.
En particular, el cámara O3 mantiene un orilla cauteloso en ciertas interacciones web de detención peligro, como correo electrónico o plataformas financieras, donde puede requerir la supervisión del heredero a través del modo de temporalizador o negarse explícitamente a continuar. Estas medidas son parte de un enfoque en capas de seguridad que combina robustez a nivel de maniquí con monitoreo en tiempo auténtico.
Si acertadamente la aggiornamento al cámara marca una mejoramiento técnica, igualmente refleja el compromiso continuo de OpenAI con la implementación responsable de IA.
La capacidad del sistema para tomar acciones del mundo auténtico introduce nuevos riesgos, y el equipo de expansión continúa refinando sus protocolos de seguridad en consecuencia.
De acuerdo a Documentación actualizada de la polímero del sistema O3 de Openaiel maniquí permanece por debajo de los umbrales de capacidad de detención peligro en categorías como el uso indebido biológico y químico y no tiene un entorno de codificación nativo o comunicación terminal, reduciendo aún más los posibles vectores de uso indebido.
El cámara sigue siendo una tino previa de investigación y es accesible solo para los usuarios de ChatGPT Pro. La lectura API de respuestas del cámara continuará basándose en el maniquí GPT-4O, al menos por ahora.
Implicaciones para los tomadores de decisiones técnicas empresariales
El cámara actualizado puede mejorar significativamente los flujos de trabajo de los profesionales en ingeniería de IA, orquestación, diligencia de datos y seguridad de TI.
Para aquellos que construyen o mantienen modelos de educación inconsciente, la precisión mejorada del maniquí y las expectativas estructuradas reducen la sobrecarga de la brío y la resolución de problemas.
En contextos de orquestación, ofrece una utensilio experiencia y confiable para automatizar componentes basados en navegadores de tuberías complejas.
Los ingenieros de datos pueden delegar interacciones web manuales, como la comprobación de datos y el raspado, con más confianza, liberando tiempo para el trabajo de optimización de nivel superior.
Mientras tanto, los profesionales de la seguridad obtienen una forma más segura de afectar el comportamiento del heredero en auditorías y ejercicios de respuesta a incidentes, gracias a los mecanismos de seguridad en capas del maniquí.
En estas disciplinas, el cámara basado en O3 presenta una aggiornamento de capacidad y un entorno de mitigación de riesgos, lo que lo convierte en una complemento experiencia al novedoso descanso de herramientas técnicas.