
Parece que casi todas las semanas durante los últimos dos abriles desde el emanación de ChatGPT, se han valiente nuevos modelos de lenguajes grandes (LLM) de laboratorios rivales o del propio OpenAI. Las empresas tienen dificultades para mantenerse al día con el ritmo masivo del cambio, y mucho menos entender cómo adaptarse a él: ¿cuál de estos nuevos modelos deberían adoptar, si corresponde, para potenciar sus flujos de trabajo y los agentes de IA personalizados que están creando para llevarlos a término?
Ha llegado la ayuda: Inicio de observabilidad de aplicaciones de IA Quiragra de agua ha valiente experimentosuna nueva característica de descomposición que la compañía describe como el primer conjunto de pruebas A/B diseñado específicamente para agentes de IA empresariales, lo que permite a las empresas ver y comparar cómo la puesta al día de los agentes a nuevos modelos subyacentes, o el cambio de sus instrucciones y llegada a las herramientas, afectará su desempeño con los usuarios finales reales.
El emanación amplía las herramientas de observabilidad existentes de Raindrop, brindando a los desarrolladores y equipos una forma de ver cómo se comportan y evolucionan sus agentes en condiciones del mundo positivo.
Con los experimentos, los equipos pueden realizar un seguimiento de cómo los cambios (como una nueva aparejo, un aviso, una puesta al día del maniquí o una refactorización completa del proceso) afectan el rendimiento de la IA en millones de interacciones de los usuarios. La nueva función ya está habitable para los usuarios del plan de suscripción Pro de Raindrop ($350 mensuales) en podagra de tormenta.ai.
Una lentilla basada en datos sobre el mejora de agentes
Cofundador y director de tecnología de Raindrop Ben Hylak En un vídeo de anuncio de producto (hacia lo alto) se señaló que Experimentos ayuda a los equipos a ver “cómo cambió textualmente poco”, incluido el uso de herramientas, las intenciones de los usuarios y las tasas de problemas, y a explorar las diferencias según factores demográficos como el idioma. El objetivo es hacer que la iteración del maniquí sea más transparente y mensurable.
La interfaz Experimentos presenta los resultados visualmente, mostrando cuándo un experimentación funciona mejor o peor que su punto de remisión. Los aumentos en las señales negativas podrían indicar una maduro error de la tarea o una salida parcial del código, mientras que las mejoras en las señales positivas podrían reflectar respuestas más completas o mejores experiencias de adjudicatario.
Al hacer que estos datos sean fáciles de interpretar, Raindrop alienta a los equipos de IA a afrontar la iteración de agentes con el mismo rigor que la implementación de software reciente: rastrear resultados, compartir conocimientos y afrontar las regresiones antaño de que se agraven.
Informes: de la observabilidad de la IA a la experimentación
El emanación de Experiments por parte de Raindrop se friso en la cojín de la compañía como una de las primeras Plataformas de observabilidad nativas de IAdiseñado para ayudar a las empresas a monitorear y comprender cómo se comportan sus sistemas de IA generativa en producción.
Como informó VentureBeat a principios de este año, la compañía, originalmente conocida como Dawn AI, surgió para afrontar lo que Hylak, un ex diseñador de interfaz humana de Apple, llamó el “problema de la caja negra” del rendimiento de la IA, ayudando a los equipos a detectar fallas “a medida que ocurren y explicar a las empresas qué salió mal y por qué”."
En ese momento, Hylak describió cómo “los productos de IA fallan constantemente, de maneras hilarantes y aterradoras”, y señaló que, a diferencia del software tradicional, que genera excepciones claras, “los productos de IA fallan silenciosamente”. La plataforma flamante de Raindrop se centró en detectar esas fallas silenciosas mediante el descomposición de señales como comentarios de los usuarios, fallas en las tareas, rechazos y otras anomalías conversacionales en millones de eventos diarios.
Los cofundadores de la empresa, Hylak, Alexis Gaubay Zubin Singh Koticha — construyó Raindrop a posteriori de encontrar de primera mano la dificultad de depurar sistemas de IA en producción.
“Comenzamos construyendo productos de inteligencia químico, no infraestructura”, dijo Hylak. VentureBeat. “Pero rápidamente vimos que, para desarrollar poco serio, necesitábamos herramientas para comprender el comportamiento de la IA, y esas herramientas no existían”.
Con Experiments, Raindrop extiende esa misma ocupación desde detectando fallos a valorar mejoras. La nueva aparejo transforma los datos de observabilidad en comparaciones procesables, lo que permite a las empresas probar si los cambios en sus modelos, indicaciones o canalizaciones efectivamente mejoran a sus agentes de IA, o simplemente los hacen diferentes.
Resolviendo el problema “Las evaluaciones pasan, los agentes fallan”
Los marcos de evaluación tradicionales, si admisiblemente son avíos para realizar evaluaciones comparativas, rara vez capturan el comportamiento impredecible de los agentes de IA que operan en entornos dinámicos.
Como cofundador de Raindrop Alexis Gauba explicado en ella Anuncio de LinkedIn“Las evaluaciones tradicionales efectivamente no responden a esta pregunta. Son excelentes pruebas unitarias, pero no puedes predecir las acciones de tu adjudicatario y tu agente está funcionando durante horas, llamando a cientos de herramientas”.
Gauba dijo que la empresa escuchaba constantemente una frustración global de los equipos: “Las evaluaciones pasan, los agentes fallan”.
Los experimentos están destinados a cerrar esa brecha mostrando lo que efectivamente cambia cuando los desarrolladores envían actualizaciones a sus sistemas.
La aparejo permite comparaciones en paralelo de modelos, herramientas, intenciones o propiedades, lo que revela diferencias mensurables en comportamiento y rendimiento.
Diseñado para el comportamiento de la IA en el mundo positivo
En el vídeo del anuncio, Raindrop describió los experimentos como una forma de “comparar cualquier cosa y valorar cómo el comportamiento de su agente cambió efectivamente en producción a través de millones de interacciones reales”.
La plataforma ayuda a los usuarios a detectar problemas como picos de fallas en las tareas, olvidos o nuevas herramientas que desencadenan errores inesperados.
Además se puede utilizar a la inversa: partiendo de un problema conocido, como un “agente atrapado en un tirabuzón”, y rastreando qué maniquí, aparejo o bandera lo está impulsando.
A partir de ahí, los desarrolladores pueden profundizar en seguimientos detallados para encontrar la causa raíz y mandar una posibilidad rápidamente.
Cada experimentación proporciona un desglose visual de métricas como la frecuencia de uso de herramientas, las tasas de error, la duración de la conversación y la duración de la respuesta.
Los usuarios pueden hacer clic en cualquier comparación para obtener a los datos del evento subyacente, lo que les brinda una visión clara de cómo el comportamiento de los agentes cambió con el tiempo. Los enlaces compartidos facilitan la colaboración con compañeros de equipo o informes de hallazgos.
Integración, escalabilidad y precisión
Según Hylak, Experiments se integra directamente con “las plataformas de características que las empresas conocen y aman (¡como Statsig!)” y está diseñado para funcionar a la perfección con los canales de descomposición y telemetría existentes.
Para las empresas sin esas integraciones, aún puede comparar el desempeño a lo liberal del tiempo (por ejemplo, ayer contra hoy) sin configuración adicional.
Hylak dijo que los equipos normalmente necesitan más o menos de 2000 usuarios por día para producir resultados estadísticamente significativos.
Para avalar la precisión de las comparaciones, Experiments monitorea la adecuación del tamaño de la muestra y alerta a los usuarios si una prueba carece de datos suficientes para sacar conclusiones válidas.
“Estamos obsesionados con asegurarnos de que métricas como el fracaso de la tarea y la frustración del adjudicatario sean métricas por las que despertarías a un ingeniero de patrulla”, explicó Hylak. Añadió que los equipos pueden profundizar en las conversaciones o eventos específicos que impulsan esas métricas, garantizando la transparencia detrás de cada número complemento.
Seguridad y Protección de Datos
Raindrop opera como una plataforma alojada en la estrato, pero todavía ofrece redacción de información de identificación personal (PII) almacén para empresas que necesitan control adicional.
Hylak dijo que la compañía cumple con SOC 2 y ha valiente un Centinela PII función que utiliza IA para eliminar automáticamente información confidencial de los datos almacenados. “Nos tomamos muy en serio la protección de los datos de los clientes”, enfatizó.
Precios y planes
Experiments es parte de Raindrop. plan profesionalque cuesta $350 por mes o $0,0007 por interacción. El nivel Pro todavía incluye herramientas de investigación profunda, agrupación de temas, seguimiento de problemas personalizado y capacidades de búsqueda semántica.
gotas de tormenta Plan original (65 dólares al mes o 0,001 dólares por interacción) ofrece descomposición básicos que incluyen detección de problemas, señales de comentarios de los usuarios, alertas de Slack y seguimiento de usuarios. Entreambos planes vienen con una prueba gratuita de 14 días.
Las organizaciones más grandes pueden optar por una plan empresarial con precios personalizados y funciones avanzadas como inicio de sesión SSO, alertas personalizadas, integraciones, redacción de PII perimetral y soporte prioritario.
Mejoría continua para sistemas de IA
Con Experiments, Raindrop se posiciona en la intersección del descomposición de IA y la observabilidad del software. Su enfoque en “valorar la verdad”, como se indica en el video del producto, refleja un impulso más amplio adentro de la industria cerca de la responsabilidad y la transparencia en las operaciones de IA.
En sitio de necesitar exclusivamente de puntos de remisión fuera de renglón, el enfoque de Raindrop enfatiza los datos reales del adjudicatario y la comprensión contextual. La compañía paciencia que esto permita a los desarrolladores de IA avanzar más rápido, identificar las causas fundamentales antaño y ofrecer modelos de mejor rendimiento con confianza.





