Confianza en la IA de agente: por qué la infraestructura de evaluación debe ser lo primero

A medida que los agentes de IA ingresan a la implementación del mundo vivo, las organizaciones están bajo presión para constreñir dónde pertenecen, cómo construirlos de guisa efectiva y cómo operacionalizarlas a escalera. En VentureBeat’s Alterar 2025los líderes tecnológicos se reunieron para balbucir sobre cómo están transformando sus negocios con agentes: Joanne Chen, socia universal de Foundation Hacienda; Shailesh Nalawadi, vicepresidente de gobierno de proyectos con SendBird; Thys Waanders, SVP de la transformación de AI en Cognigy; y Shawn Malhotra, CTO, compañías de cohetes.

https://www.youtube.com/watch?v=dchzgcf1poo

Algunos casos de uso de AI de AI de los mejores agentes

“La espectáculo original de cualquiera de estos despliegues para los agentes de IA tiende a estar en torno a auxiliar el renta humano: las matemáticas son suficiente sencillas”, dijo Nalawadi. “Sin bloqueo, eso subraya la capacidad de transformación que obtienes con los agentes de IA”.

En Rocket, los agentes de IA han demostrado ser herramientas poderosas para aumentar la conversión del sitio web.

“Hemos descubierto que con nuestra experiencia basada en agentes, la experiencia de conversación en el sitio web, los clientes tienen tres veces más probabilidades de convertirse cuando pasan por ese canal”, dijo Malhotra.

Pero eso es solo arañar la superficie. Por ejemplo, un ingeniero de cohetes construyó un agente en solo dos días para automatizar una tarea enormemente especializada: calcular los impuestos de transferencia durante la suscripción hipotecaria.

“Esos dos días de esfuerzo nos ahorraron un millón de dólares al año en gastos”, dijo Malhotra. “En 2024, ahorramos más de un millón de horas de miembro del equipo, principalmente fuera de nuestras soluciones de IA. Eso no es solo guardar gastos. Todavía está permitiendo a los miembros de nuestro equipo ajustar su tiempo en las personas que hacen lo que a menudo es la maduro transacción financiera de su vida”.

Los agentes están esencialmente sobrealimentando a los miembros del equipo individuales. Ese millón de horas ahorradas no es la totalidad del trabajo de alguno replicado muchas veces. Son las fracciones del trabajo que son cosas que los empleados no disfrutan hacer, o no estaban agregando valía al cliente. Y ese millón de horas ahorradas le da al cohete la capacidad de manejar más negocios.

“Algunos de los miembros de nuestro equipo pudieron manejar un 50% más de clientes el año pasado que el año aludido”, agregó Malhotra. “Significa que podemos tener un maduro rendimiento, impulsar más negocios y, nuevamente, vemos tasas de conversión más altas porque están pasando el tiempo entendiendo las deyección del cliente en ocasión de hacer mucho más trabajo de memoria que la IA puede hacer ahora”.

Asaltar la complejidad del agente

“Parte del delirio para nuestros equipos de ingeniería se está moviendo de la mentalidad de la ingeniería de software: escriba una vez y pruebe y se ejecuta y ofrece la misma respuesta 1,000 veces, al enfoque más probabilístico, donde pregunta lo mismo de un LLM y da diferentes respuestas a través de cierta probabilidad”, dijo Nalawadi. “Mucho de esto ha llevado a la gentío. No solo los ingenieros de software, sino los gerentes de productos y los diseñadores de UX”.

Lo que ayudó es que los LLM han itinerario un amplio camino, dijo Waanders. Si construyeron poco hace 18 meses o dos primaveras, positivamente tuvieron que nominar el maniquí correcto, o el agente no funcionaría como se esperaba. Ahora, dice, ahora estamos en una etapa en la que la mayoría de los modelos convencionales se comportan muy adecuadamente. Son más predecibles. Pero hoy el desafío es combinar modelos, respaldar la capacidad de respuesta, orquestar los modelos correctos en la secuencia correcta y tejer en los datos correctos.

“Tenemos clientes que empujan decenas de millones de conversaciones por año”, dijo Waanders. “Si automatiza, digamos, 30 millones de conversaciones en un año, ¿cómo se escalera eso en el mundo de LLM? Eso es todo lo que tuvimos que descubrir, cosas simples, incluso de obtener la disponibilidad del maniquí con los proveedores de la cúmulo. Tener suficiente cuota con un maniquí de chatgpt, por ejemplo. Todos esos son aprendizajes que tuvimos que suceder, y nuestros clientes asimismo es un mundo nuevo”.

Una capa por encima de la orquestación del LLM está orquestando una red de agentes, dijo Malhotra. Una experiencia de conversación tiene una red de agentes debajo del capó, y el orquestador está decidiendo a qué agente cultivar la solicitud de los disponibles.

“Si juegas con eso y piensas en tener cientos o miles de agentes que son capaces de diferentes cosas, obtienes algunos problemas técnicos positivamente interesantes”, dijo. “Se está convirtiendo en un problema maduro, porque la latencia y el tiempo son importantes. Ese enrutamiento de agentes será un problema muy interesante para resolver en los próximos primaveras”.

Aprovechando las relaciones de los proveedores

Hasta este punto, el primer paso para la mayoría de las empresas que lanzaron una IA Agentic han sido construir internamente, porque las herramientas especializadas aún no existían. Pero no puede diferenciar y crear valía mediante la construcción de infraestructura Genérica LLM o infraestructura de IA, y necesita experiencia especializada para ir más allá de la construcción original, depurar, iterar y mejorar lo que se ha construido, así como perdurar la infraestructura.

“A menudo encontramos las conversaciones más exitosas que tenemos con los posibles clientes tienden a ser alguno que ya ha construido poco interno”, dijo Nalawadi. “Se dan cuenta rápidamente de que resistir a un 1.0 está adecuadamente, pero a medida que el mundo evoluciona y a medida que la infraestructura evoluciona y, a medida que necesitan cambiar la tecnología por poco nuevo, no tienen la capacidad de orquestar todas estas cosas”.

Preparación para la complejidad de la IA agente

Teóricamente, la IA de agente solo crecerá en complejidad: el número de agentes en una ordenamiento aumentará y comenzarán a formarse entre sí, y el número de casos de uso explotará. ¿Cómo pueden las organizaciones prepararse para el desafío?

“Significa que los cheques y equilibrios en su sistema se estresarán más”, dijo Malhotra. “Para poco que tiene un proceso regulatorio, tiene un humano en el ciclo para comprobar de que alguno esté firmando esto. tengo que hacerlo “.

Entonces, ¿cómo puede tener la confianza de que un agente de IA se comportará de guisa confiable a medida que evoluciona?

“Esa parte es positivamente difícil si no lo has pensado al principio”, dijo Nalawadi. “La respuesta breve es que incluso antaño de comenzar a construirlo, debe tener una infraestructura EVAL en su ocasión. Asegúrese de tener un entorno riguroso en el que sabe cómo se ve adecuadamente, de un agente de inteligencia químico, y de que tenga este conjunto de pruebas. Sigue refiriéndote a él mientras realiza mejoras. Una forma muy simplista de pensar sobre Eval es que son las pruebas unitarias para su sistema agente”.

El problema es que no es determinista, agregó Waanders. Las pruebas unitarias son críticas, pero el maduro desafío es que no sabe lo que no sabe: qué comportamientos incorrectos podría mostrar un agente, cómo podría reaccionar en cualquier situación dada.

“Solo puede descubrirlo simulando las conversaciones a escalera, empujándolo bajo miles de escenarios diferentes, y luego analizando cómo se mantiene y cómo reacciona”, dijo Waanders.

Related Posts

Los proveedores de servicios en la nubarrón piden al regulador de la UE que restablezca el software de socios de VMware

“En enero de 2026, Broadcom señaló la terminación de su software VMware Cloud Service Provider en Europa”, dijo CIPSE en un comunicado. Esta audacia personal eliminó a casi una pequeña…

La fuga de OnePlus Watch 4 promete un cronómetro inteligente diseñado para durar

Joe Maring / Autoridad de Android TL;DR El OnePlus Watch 4 podría cambiar la clasificación IP68 normalizado de su predecesor por una certificación IP69. A pesar de la rumoreada prosperidad…

You Missed

Los proveedores de servicios en la nubarrón piden al regulador de la UE que restablezca el software de socios de VMware

Los proveedores de servicios en la nubarrón piden al regulador de la UE que restablezca el software de socios de VMware

Arresto domiciliario del coronel Pacheco por corrupción administrativa

Arresto domiciliario del coronel Pacheco por corrupción administrativa

PLD ve escandaloso anuencia de monitoreo por RD$433 millones | AlMomento.net

PLD ve escandaloso anuencia de monitoreo por RD3 millones | AlMomento.net

Los Ángeles cambia el Día de César Chávez, y crea Día de los Trabajadores Agrícolas

Los Ángeles cambia el Día de César Chávez, y crea Día de los Trabajadores Agrícolas

EE. UU. descarta invasión a Cuba, pero se declara dinámico en presencia de crisis y migración

EE. UU. descarta invasión a Cuba, pero se declara dinámico en presencia de crisis y migración

La fuga de OnePlus Watch 4 promete un cronómetro inteligente diseñado para durar

La fuga de OnePlus Watch 4 promete un cronómetro inteligente diseñado para durar