Align Evals de Langchain cierra la brecha de confianza del evaluador con la calibración de nivel rápido

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora

A medida que las empresas recurren cada vez más a los modelos de IA para avalar que sus aplicaciones funcionen aceptablemente y sean confiables, las brechas entre las evaluaciones dirigidas por el maniquí y las evaluaciones humanas solo se han vuelto más claras.

Para combatir esto, Langchain Se agregó alineaciones Evals a Langsmith, una forma de cerrar la brecha entre los evaluadores basados en modelos de habla noble y las preferencias humanas y aminorar el ruido. Align Evals permite a los usuarios de Langsmith crear sus propios evaluadores basados en LLM y calibrarlos para alinearse más estrechamente con las preferencias de la empresa.

“Pero, un gran desafío que escuchamos constantemente de los equipos es:” Nuestros puntajes de evaluación no coinciden con lo que esperamos que diga un humano en nuestro equipo “. Este desajuste conduce a comparaciones ruidosas y el tiempo perdido persiguiendo señales falsas ”, dijo Langchain En una publicación de blog.

Langchain es una de las pocas plataformas para integrar LLM-as-A-A-Judge o evaluaciones dirigidas por maniquí para otros modelos, directamente en el tablero de pruebas.

La serie AI Impact regresa a San Francisco – 5 de agosto

La subsiguiente etapa de IA está aquí: ¿estás despierto? Únase a los líderes de Block, GSK y SAP para una visión monopolio de cómo los agentes autónomos están remodelando los flujos de trabajo empresariales, desde la toma de decisiones en tiempo verdadero hasta la automatización de extremo a extremo.

Asegure su empleo ahora: el espacio es menguado: https://bit.ly/3guuplf

La compañía dijo que alineaba las evals en un artículo del director de Amazon, el verificado trabajador Eugene Yan. En su papelYan presentó el situación para una aplicación, además emplazamiento AligneVal, que automatizaría partes del proceso de evaluación.

https://www.youtube.com/watch?v=-9o94oj4x0a

Align Evals permitiría a las empresas y otros constructores iterar en las indicaciones de evaluación, comparar los puntajes de vinculación de los evaluadores humanos y los puntajes generados por LLM y con una puntuación de vinculación de relato.

Langchain dijo que Align Evals “es el primer paso para ayudarlo a construir mejores evaluadores”. Con el tiempo, la Compañía tiene como objetivo integrar el examen para rastrear el rendimiento y automatizar la optimización rápida, generando variaciones rápidas automáticamente.

Cómo abrir

Los usuarios primero identificarán los criterios de evaluación para su aplicación. Por ejemplo, las aplicaciones de chat generalmente requieren precisión.

A continuación, los usuarios deben inclinarse los datos que desean para la revisión humana. Estos ejemplos deben demostrar aspectos buenos y malos para que los evaluadores humanos puedan obtener una visión holística de la aplicación y asignar una variedad de calificaciones. Luego, los desarrolladores tienen que asignar puntajes manualmente para las indicaciones o objetivos de tareas que servirán como punto de relato.

¡Esta es una de mis características favoritas que hemos emprendedor!
Creación de evaluadores LLM-as-a-Judge es difícil; con suerte, esto hace que ese flujo sea un poco más liviana
¡Creo tanto en este flujo que incluso grabé un video a su cerca de! https://t.co/flpojcko12 https://t.co/waqpyzmeov
– Harrison Chase (@hwchase17) 30 de julio de 2025

Luego, los desarrolladores deben crear un mensaje original para el evaluador del maniquí e iterar utilizando los resultados de vinculación de los graduadores humanos.

“Por ejemplo, si su LLM solicita constantemente ciertas respuestas, intente amplificar criterios negativos más claros. Mejorar su puntaje de evaluador está destinado a ser un proceso iterativo. Aprenda más sobre las mejores prácticas para iterar en su aviso en nuestros documentos”, dijo Langchain.

Creciente número de evaluaciones de LLM

Cada vez más, las empresas están recurriendo a los marcos de evaluación para evaluar el Confiabilidad, comportamiento, vinculación de tareas y auditabilidad de los sistemas de IA, incluidas aplicaciones y agentes. Ser capaz de señalar una puntuación clara de cómo los modelos o los agentes funcionan proporciona a las organizaciones no solo la confianza para implementar aplicaciones de IA, sino que además facilita la comparación de otros modelos.

Compañías como Salesforce y AWS Comenzó a ofrecer formas para que los clientes juzguen el rendimiento. Agentforce 3 de Salesforce tiene un centro de comando que muestra el rendimiento del agente. AWS proporciona evaluación humana y automatizada en la plataforma de roca religiosa de Amazon, donde los usuarios pueden nominar el maniquí para probar sus aplicaciones, aunque estos no son evaluadores de modelos creados por el usufructuario. Opadai Asimismo ofrece evaluación basada en modelos.

MetaEl evaluador autodidacta se sostén en el mismo concepto LLM-as-a-Judge que usa Langsmith, aunque Meta aún no lo ha convertido en una característica para cualquiera de sus plataformas de construcción de aplicaciones.

A medida que más desarrolladores y empresas exigen una evaluación más liviana y formas más personalizadas de evaluar el rendimiento, más plataformas comenzarán a ofrecer métodos integrados para usar modelos para evaluar otros modelos, y muchas más proporcionarán opciones personalizadas para las empresas.

Esto es exactamente lo que necesita el ecosistema MCP: mejores herramientas de evaluación para flujos de trabajo LLM. Hemos estado viendo a los desarrolladores disputar con esto en Jenova AI, especialmente cuando están orquestando cadenas múltiples complejas y necesitan validar las expectativas.
El enfoque de vinculación de evals de …
– Aiden (@aiden_nova) 30 de julio de 2025

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu dirigente, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Align Evals de Langchain cierra la brecha de confianza del evaluador con la calibración de nivel rápido

Cómo abrir

Creciente número de evaluaciones de LLM

ztevenreal

Related Posts

La IA crea puestos de trabajo, según muestran los datos de una sondeo bancaria: las empresas con amplias implementaciones e inversiones en IA tienen más probabilidades de contratar que aquellas que no lo hacen

Transmisiones en vivo de Strade Bianche 2026: cómo ver ciclismo en tangente GRATIS

You Missed

La IA crea puestos de trabajo, según muestran los datos de una sondeo bancaria: las empresas con amplias implementaciones e inversiones en IA tienen más probabilidades de contratar que aquellas que no lo hacen

Anticipos afectan solvencia de microempresas y frenan su formalización, dice funcionario

Michelle Galván revela que será mama por segunda vez

Savannah Guthrie invitado fuera de pantalla el software ‘Today’, mientras su mama sigue desaparecida

Transmisiones en vivo de Strade Bianche 2026: cómo ver ciclismo en tangente GRATIS

Esquema de premios para editores del MWC 2026: las 9 innovaciones que se robaron el show