
IA patronusla startup de evaluación de inteligencia fabricado respaldada por $20 millones de inversores incluyendo Socios de peligro de Lightspeed y perro de datospresentó el martes una nueva obra de capacitación que, según dice, representa un cambio fundamental en la forma en que los agentes de IA aprenden a realizar tareas complejas.
La tecnología, que la empresa fogosidad "Simuladores generativos," crea entornos de simulación adaptativos que generan continuamente nuevos desafíos, actualizan reglas dinámicamente y evalúan el desempeño de un agente a medida que aprende, todo en tiempo verdadero. El enfoque marca un alejamiento de los puntos de remisión estáticos que han servido durante mucho tiempo como estereotipado de la industria para contar las capacidades de la IA, pero que han sido cada vez más criticados por no predecir el desempeño en el mundo verdadero.
"Los puntos de remisión tradicionales miden capacidades aisladas, pero pasan por parada las interrupciones, los cambios de contexto y la toma de decisiones en capas que definen el trabajo verdadero." dijo Anand Kannappan, director ejecutante y cofundador de Patronus AI, en una entrevista monopolio con VentureBeat. "Para que los agentes se desempeñen a niveles humanos, necesitan memorizar como lo hacen los humanos: a través de una experiencia dinámica y una feedback continua."
El anuncio llega en un momento crítico para la industria de la IA. Los agentes de IA están remodelando el progreso de software, desde escribir código hasta ejecutar instrucciones complejas. Sin retención, los agentes basados en LLM son propensos a cometer errores y, a menudo, se desempeñan mal en tareas complicadas de varios pasos. Una investigación publicada a principios de este año encontró que un agente con solo una Tasa de error del 1% por paso puede aumentar hasta un 63% de posibilidades de fracaso en el centésimo paso, una estadística aleccionadora para las empresas que buscan implementar sistemas autónomos de IA a escalera.
Por qué los puntos de remisión estáticos de IA están fallando y qué viene luego
El enfoque de Patronus AI aborda lo que la compañía describe como un desajuste creciente entre cómo se evalúan los sistemas de IA y cómo se desempeñan efectivamente en producción. Los puntos de remisión tradicionales, argumenta la compañía, funcionan como pruebas estandarizadas: miden capacidades específicas en un momento fijo en el tiempo, pero luchan por capturar la naturaleza desordenada e impredecible del trabajo verdadero.
el nuevo Simuladores generativos La obra invierte este maniquí. En oficio de presentar a los agentes un conjunto fijo de preguntas, el sistema genera asignaciones, condiciones ambientales y procesos de supervisión sobre la marcha y luego se adapta en función de cómo se comporta el agente.
"Durante el año pasado, hemos gastado un alejamiento de los puntos de remisión estáticos tradicionales en dirección a terrenos de enseñanza más interactivos." Rebecca Qian, directora de tecnología y cofundadora de Patronus AI, dijo a VentureBeat. "Esto se debe en parte a la innovación que hemos gastado por parte de los desarrolladores de modelos: el cambio en dirección a el enseñanza reforzado, el post-entrenamiento y el enseñanza continuo, y remotamente del ajuste supervisado de la instrucción. Lo que eso significa es que ha habido un colapso en la distinción entre capacitación y evaluación. Los puntos de remisión se han convertido en entornos."
La tecnología se sostén en el enseñanza por refuerzo, un enfoque en el que los sistemas de inteligencia fabricado aprenden mediante prueba y error, recibiendo recompensas por las acciones correctas y sanciones por los errores. El enseñanza por refuerzo es un enfoque en el que los sistemas de IA aprenden a tomar decisiones óptimas recibiendo recompensas o penalizaciones por sus acciones, mejorando mediante prueba y error. RL puede ayudar a los agentes a mejorar, pero normalmente requiere que los desarrolladores reescriban exhaustivamente su código. Esto desalienta la asimilación, aunque los datos que generan estos agentes podrían mejorar significativamente el rendimiento mediante la capacitación en RL.
Patronus AI asimismo introdujo un nuevo concepto al que fogosidad "Superación personal recursiva abierta," u ORSI: entornos donde los agentes pueden mejorar continuamente a través de la interacción y la feedback sin requerir un ciclo completo de reentrenamiento entre intentos. La empresa posiciona esto como una infraestructura crítica para desarrollar sistemas de inteligencia fabricado capaces de memorizar continuamente en oficio de quedarse congelados en un momento transmitido.
Internamente de la ‘Zona Ricitos de Oro’: cómo el entrenamiento adaptativo de IA encuentra el punto magnífico
En el corazón de Simuladores generativos yace lo que Patronus AI fogosidad un "ajustador del plan de estudios" — un componente que analiza el comportamiento de los agentes y modifica dinámicamente la dificultad y la naturaleza de los escenarios de entrenamiento. El enfoque se inspira en cómo los docentes humanos eficaces adaptan su instrucción en función del desempeño de los estudiantes.
Qian explicó el enfoque mediante una vínculo: "Puedes pensar en esto como un maniquí profesor-alumno, donde entrenamos el maniquí y el profesor adapta continuamente el plan de estudios."
Este enfoque adaptativo aborda un problema que Kannappan describió como encontrar la "Zona Ricitos de Oro" en los datos de entrenamiento, asegurando que los ejemplos no sean ni demasiado fáciles ni demasiado difíciles para que un maniquí determinado pueda memorizar de ellos de guisa efectiva.
"Lo importante no es sólo si se puede entrenar con un conjunto de datos, sino si se puede entrenar con un conjunto de datos de reincorporación calidad que esté oportuno a su maniquí, uno del que efectivamente pueda memorizar." dijo Kannappan. "Queremos asegurarnos de que los ejemplos no sean ni demasiado difíciles ni demasiado fáciles para el maniquí."
La compañía dice que los resultados iniciales muestran mejoras significativas en el desempeño de los agentes. Según la compañía, la capacitación en los entornos de Patronus AI ha aumentado las tasas de finalización de tareas entre un 10% y un 20% en tareas del mundo verdadero, incluida la ingeniería de software, el servicio al cliente y el descomposición financiero.
El problema de las trampas de la IA: cómo los entornos de “objetivos móviles” evitan la piratería de recompensas
Uno de los desafíos más persistentes en el entrenamiento de agentes de IA mediante el enseñanza por refuerzo es un aberración que los investigadores llaman "piratería de recompensas"—donde los sistemas aprenden a explotar las lagunas en su entorno de formación en oficio de resolver genuinamente los problemas. Ejemplos famosos incluyen a los primeros agentes que aprendieron a esconderse en los rincones de los videojuegos en oficio de jugarlos.
Los Simuladores Generativos abordan esto haciendo del propio entorno de entrenamiento un objetivo en movimiento.
"La piratería de recompensas es fundamentalmente un problema cuando los sistemas son estáticos. Es como si los estudiantes aprendieran a hacer trampa en un examen." Dijo Qian. "Pero cuando el entorno evoluciona continuamente, podemos observar partes del sistema que necesitan adaptarse y progresar. Los puntos de remisión estáticos son objetivos fijos; Los entornos de simuladores generativos son objetivos en movimiento."
Patronus AI informa un crecimiento de ingresos 15 veces anciano a medida que aumenta la demanda empresarial de capacitación de agentes
Patronus AI posiciona los simuladores generativos como la saco de una nueva renglón de productos que denomina "Entornos RL" — campos de formación diseñados para laboratorios maniquí de fundaciones y agentes de construcción de empresas para dominios específicos. La compañía dice que esta propuesta representa una expansión estratégica más allá de su enfoque flamante en herramientas de evaluación.
"Hemos multiplicado por 15 nuestros ingresos este año, en gran parte oportuno a los entornos de reincorporación calidad que hemos desarrollado y que han demostrado ser extremadamente fáciles de memorizar mediante diferentes tipos de modelos de frontera." dijo Kannappan.
El director ejecutante se negó a especificar cifras absolutas de ingresos, pero dijo que el nuevo producto ha permitido a la empresa "ascender en la pila en términos de dónde vendemos y a quién vendemos." La plataforma de la empresa es utilizada por numerosas empresas Fortune 500 y empresas líderes en inteligencia fabricado de todo el mundo.
Por qué OpenAI, Anthropic y Google no pueden construir todo internamente
Una cuestión central que enfrenta IA patronus Por eso los laboratorios con mucho hacienda que desarrollan modelos de frontera (organizaciones como AbiertoAI, antrópicoy Google DeepMind – otorgarían licencias para la infraestructura de capacitación en oficio de construirla ellos mismos.
Kannappan reconoció que estas empresas "están invirtiendo significativamente en entornos" pero argumentó que la amplitud de dominios que requieren capacitación especializada crea una comprensión natural para proveedores externos.
"Quieren mejorar a los agentes en muchos dominios diferentes, ya sea codificación o uso de herramientas o navegación en navegadores o flujos de trabajo en finanzas, atención médica, energía y educación." dijo. "Resolver todos esos diferentes problemas operativos es muy difícil para una sola empresa."
El panorama competitivo se está intensificando. Microsoft lanzó recientemente Agente Centellaun entorno de código hendido que hace que el enseñanza por refuerzo funcione para cualquier agente de IA sin reescrituras. NVIDIA Estadio Nemo ofrece una infraestructura RL modular para desarrollar sistemas de IA agentes. Los metainvestigadores lanzaron DreamGym en noviembre, un entorno que simula entornos de RL y ajusta dinámicamente la dificultad de las tareas a medida que los agentes mejoran.
‘Los entornos son el nuevo petróleo’: la audaz postura de Patronus AI por el futuro del entrenamiento en IA
De cara al futuro, Patronus AI enmarca su comisión en términos amplios. La empresa quiere "Ambientalizar todos los datos del mundo." – convertir los flujos de trabajo humanos en sistemas estructurados de los que la IA pueda memorizar.
"Pensamos que todo debería ser un entorno; internamente, bromeamos diciendo que los entornos son el nuevo petróleo," dijo Kannappan. "El enseñanza por refuerzo es sólo un método de entrenamiento, pero lo que efectivamente importa es la construcción de un entorno."
Qian describió la oportunidad en términos amplios: "Este es un campo de investigación completamente nuevo, que no ocurre todos los días. La simulación generativa está inspirada en las primeras investigaciones en robótica y agentes incorporados. Ha sido una quimera durante décadas, y recién ahora podemos hacer verdad estas ideas gracias a las capacidades de los modelos actuales."
La empresa se lanzó en septiembre de 2023 con un enfoque en la evaluación: ayudar a las empresas a identificar alucinaciones y problemas de seguridad en los resultados de la IA. Esa comisión ahora se ha expandido en dirección a el entrenamiento mismo. Patronus AI sostiene que la separación tradicional entre evaluación y capacitación se está derrumbando, y que quien controle los entornos donde aprenden los agentes de IA dará forma a sus capacidades.
"Verdaderamente estamos en este punto crítico, este punto de inflexión, donde lo que hagamos ahora impactará cómo será el mundo para las generaciones venideras." Dijo Qian.
Si Simuladores generativos Aún está por encontrarse si podremos cumplir esa promesa. El crecimiento de 15 veces los ingresos de la compañía sugiere que los clientes empresariales están ávidos de soluciones, pero los jugadores con mucho hacienda de microsoft a Meta están compitiendo para resolver el mismo problema fundamental. Si los últimos dos abriles le han enseñado poco a la industria es que en la IA, el futuro tiene la costumbre de presentarse antiguamente de lo previsto.




