OpenAGI emerge del sigilo con un agente de IA que, según afirma, aplasta a OpenAI y Anthropic

OpenAGI emerge del sigilo con un agente de IA que, según afirma, aplasta a OpenAI y Anthropic

Una startup de inteligencia sintético sigilosa fundada por un investigador del MIT surgió esta mañana con una afirmación ambiciosa: su nuevo maniquí de IA puede controlar las computadoras mejor que los sistemas construidos por Amplio AI y antrópico – a una fracción del costo.

AbiertoAGIliderado por el director ejecutante Zengy Qinlibre luxun maniquí esencial diseñado para efectuar computadoras de forma autónoma mediante la interpretación de capturas de pantalla y la ejecución de acciones en aplicaciones de escritorio. La empresa con sede en San Francisco afirma que Lux logra una tasa de éxito del 83,6 por ciento en En línea-Mind2Webun punto de relato que se ha convertido en la prueba más rigurosa de la industria para evaluar agentes de IA que controlan computadoras.

Ese puntaje es un brinco significativo con respecto a los modelos líderes de competidores perfectamente financiados. OpenAI Cirujanopublicado en enero, obtiene una puntuación del 61,3 por ciento en el mismo punto de relato. Claude de Anthropic Uso de la computadora alcanza el 56,3 por ciento.

"La formación LLM tradicional introduce una gran cantidad de corpus de texto en el maniquí. El maniquí aprende a producir texto," Dijo Qin en una entrevista monopolio con VentureBeat. "Por el contrario, nuestro maniquí aprende a producir acciones. El maniquí se entrena con una gran cantidad de capturas de pantalla de computadora y secuencias de bono, lo que le permite producir acciones para controlar la computadora."

El anuncio llega en un momento crucial para la industria de la IA. Tanto los gigantes tecnológicos como las nuevas empresas han invertido miles de millones de dólares en el progreso de agentes autónomos capaces de navegar por software, reservar viajes, completar formularios y ejecutar flujos de trabajo complejos. Amplio AI, antrópico, Googley microsoft Todos han audaz o anunciado productos de agentes durante el año pasado, apostando a que la IA controlada por computadora será tan transformadora como los chatbots.

Sin retención, investigaciones independientes han puesto en duda si los agentes actuales son tan capaces como sugieren sus creadores.

Por qué los investigadores universitarios crearon un punto de relato más puro para probar los agentes de IA y qué descubrieron

El Punto de relato en línea-Mind2Webdesarrollado por investigadores de la Universidad Estatal de Ohio y la Universidad de California, Berkeley, fue diseñado específicamente para exponer la brecha entre las afirmaciones de marketing y el desempeño vivo.

Publicado en abril y aceptado en el Conferencia sobre modelado del verbo 2025el punto de relato comprende 300 tareas diversas en 136 sitios web reales, desde reservar vuelos hasta navegar por procesos complejos de plazo en comercio electrónico. A diferencia de evaluaciones comparativas anteriores que almacenaban en gusto partes de sitios web, Online-Mind2Web prueba a los agentes en entornos en rasgo en vivo donde las páginas cambian dinámicamente y aparecen obstáculos inesperados.

Los resultados, según los investigadores, pintaron "una imagen muy diferente de la competencia de los agentes actuales, lo que sugiere un exceso de optimismo en los resultados informados anteriormente."

Cuando el equipo de Ohio State probó a cinco agentes web líderes con una cuidadosa evaluación humana, descubrió que muchos sistemas recientes, a pesar de una gran inversión y fanfarria de marketing, no superaban a los anteriores. VerActuarun agente relativamente simple audaz en enero de 2024. Incluso OpenAI Cirujanola propuesta comercial con mejor desempeño en su estudio, logró solo un 61 por ciento de éxito.

"Parecía que agentes en gran medida capaces y prácticos tal vez estaban a sólo unos meses de distancia," los investigadores escribieron en un publicación de blog acompañando su artículo. "Sin retención, todavía somos conscientes de que todavía existen muchas lagunas fundamentales en la investigación sobre agentes totalmente autónomos, y que los agentes actuales probablemente no sean tan competentes como podrían indicar las cifras de relato informadas."

El punto de relato ha vacada fuerza como unificado de la industria, con una tabla de clasificación pública alojada en Hugging Face que rastrea las presentaciones de grupos de investigación y empresas.

Cómo OpenAGI entrenó su IA para realizar acciones en lado de simplemente difundir texto

La supuesta delantera de rendimiento de OpenAGI proviene de lo que la compañía ardor "Preentrenamiento activo agente," una metodología de entrenamiento que difiere fundamentalmente de cómo aprenden la mayoría de los modelos de verbo grandes.

Los modelos de verbo convencionales se entrenan con vastos corpus de texto y aprenden a predecir la venidero palabra en una secuencia. Los sistemas resultantes destacan por difundir texto coherente, pero no fueron diseñados para realizar acciones en entornos gráficos.

luxsegún Qin, adopta un enfoque diferente. El maniquí se entrena con capturas de pantalla de computadora combinadas con secuencias de bono, aprendiendo a interpretar interfaces visuales y determinar qué clics, pulsaciones de teclas y pasos de navegación lograrán un objetivo determinado.

"La bono permite que el maniquí explore activamente el entorno informático, y dicha exploración genera nuevos conocimientos, que luego se retroalimentan al maniquí para su entrenamiento." Qin le dijo a VentureBeat. "Este es un proceso que evoluciona lógicamente, donde un mejor maniquí produce una mejor exploración, una mejor exploración produce un mejor conocimiento y un mejor conocimiento conduce a un mejor maniquí."

Este ciclo de capacitación que se refuerza a sí mismo, si funciona como se describe, podría ayudar a explicar cómo un equipo más pequeño podría alcanzar resultados que las organizaciones más grandes eluden. En lado de requerir conjuntos de datos estáticos cada vez más grandes, el enfoque permitiría que el maniquí mejorara continuamente generando sus propios datos de entrenamiento mediante la exploración.

OpenAGI todavía presume importantes ventajas de costes. La compañía dice que Lux opera a aproximadamente una décima parte del costo de los modelos fronterizos de OpenAI y Anthropic y, al mismo tiempo, ejecuta tareas más rápido.

A diferencia de los competidores que solo utilizan navegadores, Lux puede controlar Slack, Excel y otras aplicaciones de escritorio.

Un distrito crítico en el anuncio de Openagi: lux puede controlar aplicaciones en todo un sistema operante de escritorio, no solo en navegadores web.

La mayoría de los agentes de uso informático disponibles comercialmente, incluidas las primeras versiones de Claude de Anthropic. Uso de la computadorase centra principalmente en tareas basadas en navegador. Esa tapia excluye amplias categorías de trabajo de productividad que ocurren en aplicaciones de escritorio: hojas de cálculo en Microsoft Excel, comunicaciones en Slack, trabajo de diseño en productos de Adobe, estampado de código en entornos de progreso.

OpenAGI dice que Lux puede navegar por estas aplicaciones nativas, una capacidad que expandiría sustancialmente el mercado al que se dirigen los agentes de uso informático. La compañía está lanzando un kit de progreso de software para desarrolladores yuxtapuesto con el maniquí, lo que permite a terceros crear aplicaciones sobre Lux.

La empresa todavía está trabajando con Intel optimizar lux para dispositivos de borde, lo que permitiría que el maniquí se ejecutara localmente en computadoras portátiles y estaciones de trabajo en lado de requerir infraestructura en la estrato. Esa asociación podría acometer las preocupaciones de las empresas sobre el expedición de datos de pantalla confidenciales a servidores externos.

"Nos estamos asociando con Intel para optimizar nuestro maniquí en dispositivos perimetrales, lo que lo convertirá en el mejor maniquí de uso de computadora en el dispositivo." Dijo Qin.

La compañía confirmó que está en conversaciones exploratorias con AMD y Microsoft sobre asociaciones adicionales.

¿Qué sucede cuando le pides a un agente de IA que copie tus datos bancarios?

Los agentes que utilizan computadoras presentan nuevos desafíos de seguridad que no surgen con los chatbots convencionales. Un sistema de inteligencia sintético capaz de hacer clic en chico, ingresar texto y navegar por aplicaciones podría, si está mal dirigido, causar daños importantes: transferir pasta, eliminar archivos o filtrar información confidencial.

AbiertoAGI dice que ha incorporado mecanismos de seguridad directamente en Lux. Cuando el maniquí encuentra solicitudes que violan sus políticas de seguridad, se niega a proceder y alerta al legatario.

En un ejemplo proporcionado por la empresa, cuando un legatario le pidió al maniquí que "copie mis datos bancarios y péguelos en un nuevo documento de Google," Lux respondió con un paso de razonamiento interno: "El legatario me pide copia de los datos bancarios, que son información sensible. Según la política de seguridad, no puedo realizar esta bono." Luego, el maniquí emitió una advertencia al legatario en lado de ejecutar la solicitud potencialmente peligrosa.

Estas salvaguardias se enfrentarán a un intenso exploración a medida que proliferen los agentes de uso informático. Los investigadores de seguridad ya han demostrado ataques de inyección rápida contra sistemas de agentes tempranos, donde instrucciones maliciosas incrustadas en sitios web o documentos pueden secuestrar el comportamiento de un agente. Investigadores independientes aún deben probar si los mecanismos de seguridad de Lux pueden resistir ataques adversarios.

El investigador del MIT que construyó dos de los modelos de IA más descargados de GitHub

qin aporta una combinación inusual de credenciales académicas y experiencia empresarial a OpenAGI.

Completó su doctorado en el Instituto de Tecnología de Massachusetts en 2025, donde su investigación se centró en visión por computadora, robótica y estudios mecánico. Su trabajo normativo apareció en los mejores lugares, incluido el Caminata sobre visión por ordenador y examen de patronesel Conferencia Internacional sobre Representaciones del Educacióny el Conferencia internacional sobre estudios mecánico.

Ayer de fundar OpenAGI, Qin construyó varios sistemas de inteligencia sintético ampliamente adoptados. JetMoEun maniquí de verbo de gran tamaño cuyo progreso dirigió, demostró que se podía entrenar un maniquí de detención rendimiento desde cero por menos de 100.000 dólares, una fracción de las decenas de millones que normalmente se necesitan. El maniquí superó al de Meta. LLaMA2-7B en puntos de relato unificado, según un mensaje técnico que atrajo la atención del Laboratorio de Ciencias de la Computación e Inteligencia Químico del MIT.

Sus proyectos anteriores de código libre lograron una acogida sobresaliente. voz abiertaun maniquí de clonación de voz, acumuló aproximadamente 35.000 estrellas en GitHub y se ubicó en el 0,03 por ciento superior de los proyectos de código libre por popularidad. MeloTTSun sistema de conversión de texto a voz, se ha descargado más de 19 millones de veces, lo que lo convierte en uno de los modelos de IA de audio más utilizados desde su propagación en 2024.

Qin todavía cofundó Mi conchauna plataforma de agentes de IA que ha atraído a seis millones de usuarios que, en conjunto, han creado más de 200.000 agentes de IA. Los usuarios han tenido más de mil millones de interacciones con agentes en la plataforma, según la empresa.

Internamente de la carrera de mil millones de dólares para construir una IA que controle su computadora

El mercado de agentes para uso informático ha atraído un intenso interés por parte de inversores y gigantes tecnológicos durante el año pasado.

OpenAI audaz Cirujano en enero, lo que permitirá a los usuarios ordenar a una IA que complete tareas en la web. Anthropic ha seguido desarrollando a Claude Uso de la computadoraposicionándolo como una capacidad central de su clan de modelos Claude. Google ha incorporado funciones de agente en su Géminis productos. Microsoft tiene capacidades de agente integradas en toda su Copiloto ofrendas y ventanas.

Sin retención, el mercado sigue siendo incipiente. La acogida empresarial se ha manido limitada por preocupaciones sobre la confiabilidad, la seguridad y la capacidad de manejar casos extremos que ocurren con frecuencia en los flujos de trabajo del mundo vivo. Las brechas de desempeño reveladas por puntos de relato como En línea-Mind2Web sugieren que los sistemas actuales pueden no estar preparados para aplicaciones de cometido crítica.

AbiertoAGI ingresa a este panorama competitivo como una alternativa independiente, posicionando un desempeño de relato superior y costos más bajos frente a los fortuna masivos de sus rivales perfectamente financiados. El maniquí Lux y el SDK para desarrolladores de la compañía están disponibles a partir de hoy.

La cuestión central sigue siendo si OpenAGI puede traducir el dominio de los índices de relato en confiabilidad en el mundo vivo. La industria de la IA tiene una larga historia de demostraciones impresionantes que fallan en la producción, de resultados de laboratorio que se desmoronan en presencia de el caos del uso vivo. Los puntos de relato miden lo que miden, y la distancia entre una prueba controlada y una excursión profesional de ocho horas llena de casos extremos, excepciones y sorpresas puede ser enorme.

pero si lux funciona en la naturaleza de la misma forma que lo hace en el laboratorio, las implicaciones se extienden mucho más allá del éxito de una startup. Sugeriría que el camino en torno a agentes de IA capaces no pasa por las chequeras más grandes sino por las arquitecturas más inteligentes: que un equipo pequeño con las ideas correctas puede exceder a los gigantes.

La industria de la tecnología ha manido esa historia ayer. Rara vez permanece así por mucho tiempo.

Related Posts

Los únicos cinco tipos de gráficos de Excel que la clan corriente necesita y cuándo usar cada uno

Excel tiene más de 20 tipos de gráficos y, sinceramente, la mayoría de ellos son abrumadores. He estado trabajando con hojas de cálculo de Excel durante primaveras y, aunque Excel…

Los usuarios lo odian, pero la tecnología de comprobación de época está por presentarse. Así es como funciona.

Esa iniciativa, que ha mantenido un perfil bajo hasta hace poco, ha obtenido dos grandes victorias. Primero, Meta anunció en diciembre que lanzaría AgeKeys en Instagram este año. La Free…

You Missed

Blu Terrenas impulsará turismo de stop nivel en Samaná

Blu Terrenas impulsará turismo de stop nivel en Samaná

Los únicos cinco tipos de gráficos de Excel que la clan corriente necesita y cuándo usar cada uno

Los únicos cinco tipos de gráficos de Excel que la clan corriente necesita y cuándo usar cada uno

El dolar desvaloración otros 85 cts. en RD; se vendía este miércoles a 59.45 | AlMomento.net

El dolar desvaloración otros 85 cts. en RD; se vendía este miércoles a 59.45 | AlMomento.net

Presidente Abinader cita finca tabacalera de Arturo Fuente

Presidente Abinader cita finca tabacalera de Arturo Fuente

Jóvenes dominicanas representan a América en software de astronomía en Tailandia

Jóvenes dominicanas representan a América en software de astronomía en Tailandia

¿Es Jean Andrés Pumarol un peligro para la sociedad? Abogado cuestiona arbitraje del enjuiciador Timoteo

¿Es Jean Andrés Pumarol un peligro para la sociedad? Abogado cuestiona arbitraje del enjuiciador Timoteo