¿Esta startup sigilosa finalmente ha descifrado el código en la confiabilidad del agente de IA Enterprise? Conoce a Apollo-1 de Aui

Durante más de una decenio, la IA conversacional ha prometido asistentes humanos que pueden hacer más que chat. Sin retención, incluso como modelos de idiomas grandes (LLM) como ChatGPT, Gemini y Claude aprenden a razonar, explicar y codificar, una categoría crítica de interacción sigue siendo en gran medida sin resolver, completando de modo confiable las tareas para las personas Fuera del chat.

Incluso el Los mejores modelos de IA marcan solo en el 6centil 30 en el faja terminal duro, Un punto de narración de terceros diseñado para evaluar el rendimiento de los agentes de IA en completar una variedad de tareas basadas en navegadores, muy por debajo de la confiabilidad exigida por la mayoría de las empresas y usuarios. Y puntos de narración específicos de la tarea Como la aerolínea de bench, que mide el Confiabilidad de los agentes de IA en la búsqueda y la reserva de vuelos En nombre de un usufructuario, siquiera tiene tasas de aprobación mucho más altas, con Solo el 56% para los agentes y modelos de mejor rendimiento (Claude 3.7 soneto): lo que significa que el agente descompostura casi la parte del tiempo.

Con sede en la ciudad de Nueva York Inteligencia aumentada (AUI) Inc.cofundado por Ohad Elhelo y Ori Cohencree que finalmente ha venido con una posibilidad para impulsar la confiabilidad del agente de IA a un nivel en el que la mayoría de las empresas puedan fiarse en que harán como se indica, de modo confiable.

El nuevo maniquí de saco de la compañía, llamado Apolo-1 – que permanece en la presencia previa con los primeros probadores ahora, pero está cerca de un tirada militar inminente, se plinto en un principio que fuego razonamiento neuroimbólico con estado.

Es una obra híbrida defendida por incluso Escépticos de LLM como Gary Marcusdiseñado para certificar resultados consistentes y compatibles con políticas en cada interacción del cliente.

“La IA conversacional es esencialmente dos mitades”, dijo Elhelo en una entrevista flamante con VentureBeat. “La primera parte, el diálogo hendido, es manejado maravillosamente por LLMS. Están diseñados para casos de uso creativo o exploratorio. La otra parte es el diálogo orientado a tareas, donde siempre hay un objetivo específico detrás de la conversación. Esa parte ha permanecido sin resolver porque requiere certeza”.

Aui define certeza Como la diferencia entre un agente que “probablemente” realiza una tarea y una que casi “siempre” lo hace.

Por ejemplo, en Tau-Bench Airline, funciona con una asombrosa tasa de aprobación del 92.5%dejando a todos los otros competidores actuales muy antes en el polvo, según los puntos de narración compartidos con VentureBeat y Publicado en el sitio web de AUI.

Elhelo ofreció ejemplos simples: un faja que debe hacer cumplir la comprobación de identificación para reembolsos superiores a $ 200, o una aerolínea que siempre debe ofrecer una aggiornamento de clase empresarial antiguamente de la caudal.

“Esas no son preferencias”, dijo. “Son requisitos. Y ningún enfoque puramente generativo puede ofrecer ese tipo de certeza conductual”.

AUI y su trabajo para mejorar la confiabilidad fueron cubiertos previamente por el medio de comunicación de suscripción La informaciónpero no ha recibido una cobertura generalizada en medios de camino divulgado, hasta ahora.

Desde la coincidencia de patrones hasta la argumento predecible

El equipo argumenta que los modelos Transformer, por diseño, no pueden cumplir con esa mostrador. Los modelos de jerga ínclito generan texto plausible, no un comportamiento asegurado. “Cuando le dice a un LLM que siempre ofrezca seguro antiguamente del suscripción, podría, por lo militar”, dijo Elhelo. “Configure Apollo-1 con esa regla, y lo hará, cada vez”.

Esa distinción, dijo, proviene de la obra misma. Los transformadores predicen el subsiguiente token en una secuencia. Apollo-1, por el contrario, predice el Subsiguiente argumento en una conversación, operando en lo que Aui fuego un Estado simbólico escrito.

Cohen explicó la idea en términos más técnicos. “Neuro-simbólico significa que estamos fusionando los dos paradigmas dominantes”, dijo. “La capa simbólica le brinda estructura: sabe cuál es una intención, una entidad y un parámetro, mientras que la capa neuronal le brinda fluidez del jerga. El razonador neurombólico se encuentra entre ellos. Es un tipo diferente de cerebro para el diálogo”.

Donde los transformadores tratan cada salida como reproducción de texto, Apollo-1 ejecuta un tirabuzón de razonamiento cerrado: un codificador traduce el jerga natural en un estado simbólico, una máquina de estado mantiene ese estado, un motor de valor determina la subsiguiente argumento, un planificador lo ejecuta y un decodificador convierte el resultado en jerga. “El proceso es iterativo”, dijo Cohen. “Se dispara hasta que se realiza la tarea. Así es como obtienes el determinismo en circunscripción de la probabilidad”.

Un maniquí de saco para la ejecución de tareas

A diferencia de los chatbots tradicionales o los sistemas de automatización a medida, Apollo-1 está destinado a servir como maniquí de saco Para el diálogo orientado a tareas: un sistema único de dominio descreído que se puede configurar para la banca, los viajes, el comercio minorista o el seguro a través de lo que AUI fuego un Aviso del sistema.

“El mensaje del sistema no es un archivo de configuración”, dijo Elhelo. “Es un acuerdo de comportamiento. Usted define exactamente cómo su agente debe comportarse en situaciones de interés, y Apollo-1 garantiza que esos comportamientos se ejecutarán”.

Las organizaciones pueden usar el indicador para codificar espacios simbólicos (intentos, parámetros y políticas), así como límites de herramientas y reglas dependientes del estado.

Una aplicación de entrega de alimentos, por ejemplo, podría hacer cumplir “si se menciona la reacción, siempre informar al restaurante”, mientras que un proveedor de telecomunicaciones podría determinar “luego de tres intentos de suscripción fallidos, suspender el servicio”. En entreambos casos, el comportamiento se ejecuta determinista, no estadísticamente.

Ocho primaveras en la fabricación

El camino de AUI en dirección a Apollo-1 comenzó en 2017, cuando el equipo comenzó a codificar millones de conversaciones reales orientadas a tareas manejadas por una fuerza gremial de agentes humanos de 60,000 personas.

Ese trabajo condujo a un jerga simbólico capaz de separarse conocimiento procesal – Pasos, restricciones y flujos – de conocimiento descriptivo como entidades y atributos.

“La idea era que el diálogo orientado a las tareas tiene patrones de procedimiento universales”, dijo Elhelo. “La entrega de alimentos, el procesamiento de reclamos y la administración de pedidos comparten estructuras similares. Una vez que modela que explícitamente, puede calcularlo de modo determinista”.

A partir de ahí, la compañía construyó el razonador neuro-simbólico, un sistema que utiliza el estado simbólico para atreverse qué sucede luego en circunscripción de adivinar a través de la predicción de los tokens.

Los puntos de narración sugieren que la obra marca una diferencia medible.

En las propias evaluaciones de AUI, Apollo-1 logró sobre 90 por ciento finalización de la tarea en el punto de narración τ-bench-airline, en comparación con 60 por ciento para Claude-4.

Se completó 83 por ciento de chats de reserva en vivo en vuelos de Google frente a 22 por ciento para Géminis 2.5-Flash, y 91 por ciento de escenarios minoristas en Amazon frente a 17 por ciento para rufus.

“Estas no son mejoras incrementales”, dijo Cohen. “Son diferencias de confiabilidad de orden de magnitud”.

Un complemento, no un competidor

AUI no está lanzando Apollo-1 como un reemplazo para modelos de idiomas grandes, sino como su contraparte necesaria. En palabras de Elhelo: “Los transformadores optimizan para la probabilidad creativa. Apollo-1 optimiza para la certeza conductual. Juntos, forman el espectro completo de la IA conversacional”.

El maniquí ya se ejecuta en pilotos limitados con empresas Fortune 500 no reveladas en todos los sectores, incluidas las finanzas, los viajes y el comercio minorista.

Aui todavía ha confirmado un Asociación estratégica con Google y planes para Disponibilidad militar en noviembre de 2025cuando broa API, lanzará la documentación completa y agregue capacidades de voz e imagen. Los clientes y socios potenciales interesados pueden registrarse para aceptar más información cuando está adecuado en el formulario de sitio web de AUI.

Hasta entonces, la compañía mantiene los detalles en secreto. Cuando se le preguntó sobre lo que viene luego, Elhelo sonrió. “Digamos que estamos preparando un anuncio”, dijo. “Pronto.”

En dirección a conversaciones que actúan

A pesar de toda su sofisticación técnica, el tono de Apollo-1 es simple: hacer AI en la que las empresas puedan fiarse para representar, no solo platicar. “Estamos en la comisión de democratizar el camino a la IA que funciona”, dijo Cohen cerca del final de la entrevista.

Queda por ver si Apollo-1 se convierte en el nuevo standard para el diálogo orientado a tareas. Pero si la obra de AUI se desempeña según lo prometido, la división de larga data entre los chatbots que suenan humanos y agentes que hacen el trabajo humano de modo confiable pueden finalmente comenzar a cerrar.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

¿Esta startup sigilosa finalmente ha descifrado el código en la confiabilidad del agente de IA Enterprise? Conoce a Apollo-1 de Aui

Desde la coincidencia de patrones hasta la argumento predecible

Un maniquí de saco para la ejecución de tareas

Ocho primaveras en la fabricación

Un complemento, no un competidor

En dirección a conversaciones que actúan

ztevenreal

Related Posts

La nueva utensilio de ristra de comandos de Google puede conectar OpenClaw a los datos de su espacio de trabajo

Intenté darle una segunda oportunidad a los relojes inteligentes, pero no salió perfectamente

You Missed

La nueva utensilio de ristra de comandos de Google puede conectar OpenClaw a los datos de su espacio de trabajo

Therians: ¿Moda digital, enfermedad mental o fénomeno social?; expertos alertan sobre la tendencia

Golpe embajada Estados Unidos en Oslo genera desasosiego

Intenté darle una segunda oportunidad a los relojes inteligentes, pero no salió perfectamente

Dirección de Impuestos Internos de R. Dominicana supera meta | AlMomento.net

Las dominicanas igualmente luchan por escribir su propio futuro