¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora
A medida que las empresas recurren cada vez más a los modelos de IA para avalar que sus aplicaciones funcionen aceptablemente y sean confiables, las brechas entre las evaluaciones dirigidas por el maniquí y las evaluaciones humanas solo se han vuelto más claras.
Para combatir esto, Langchain Se agregó alineaciones Evals a Langsmith, una forma de cerrar la brecha entre los evaluadores basados en modelos de habla noble y las preferencias humanas y aminorar el ruido. Align Evals permite a los usuarios de Langsmith crear sus propios evaluadores basados en LLM y calibrarlos para alinearse más estrechamente con las preferencias de la empresa.
“Pero, un gran desafío que escuchamos constantemente de los equipos es:” Nuestros puntajes de evaluación no coinciden con lo que esperamos que diga un humano en nuestro equipo “. Este desajuste conduce a comparaciones ruidosas y el tiempo perdido persiguiendo señales falsas ”, dijo Langchain En una publicación de blog.
Langchain es una de las pocas plataformas para integrar LLM-as-A-A-Judge o evaluaciones dirigidas por maniquí para otros modelos, directamente en el tablero de pruebas.
La serie AI Impact regresa a San Francisco – 5 de agosto
La subsiguiente etapa de IA está aquí: ¿estás despierto? Únase a los líderes de Block, GSK y SAP para una visión monopolio de cómo los agentes autónomos están remodelando los flujos de trabajo empresariales, desde la toma de decisiones en tiempo verdadero hasta la automatización de extremo a extremo.
Asegure su empleo ahora: el espacio es menguado: https://bit.ly/3guuplf
La compañía dijo que alineaba las evals en un artículo del director de Amazon, el verificado trabajador Eugene Yan. En su papelYan presentó el situación para una aplicación, además emplazamiento AligneVal, que automatizaría partes del proceso de evaluación.
Align Evals permitiría a las empresas y otros constructores iterar en las indicaciones de evaluación, comparar los puntajes de vinculación de los evaluadores humanos y los puntajes generados por LLM y con una puntuación de vinculación de relato.
Langchain dijo que Align Evals “es el primer paso para ayudarlo a construir mejores evaluadores”. Con el tiempo, la Compañía tiene como objetivo integrar el examen para rastrear el rendimiento y automatizar la optimización rápida, generando variaciones rápidas automáticamente.
Cómo abrir
Los usuarios primero identificarán los criterios de evaluación para su aplicación. Por ejemplo, las aplicaciones de chat generalmente requieren precisión.
A continuación, los usuarios deben inclinarse los datos que desean para la revisión humana. Estos ejemplos deben demostrar aspectos buenos y malos para que los evaluadores humanos puedan obtener una visión holística de la aplicación y asignar una variedad de calificaciones. Luego, los desarrolladores tienen que asignar puntajes manualmente para las indicaciones o objetivos de tareas que servirán como punto de relato.
Luego, los desarrolladores deben crear un mensaje original para el evaluador del maniquí e iterar utilizando los resultados de vinculación de los graduadores humanos.
“Por ejemplo, si su LLM solicita constantemente ciertas respuestas, intente amplificar criterios negativos más claros. Mejorar su puntaje de evaluador está destinado a ser un proceso iterativo. Aprenda más sobre las mejores prácticas para iterar en su aviso en nuestros documentos”, dijo Langchain.
Creciente número de evaluaciones de LLM
Cada vez más, las empresas están recurriendo a los marcos de evaluación para evaluar el Confiabilidad, comportamiento, vinculación de tareas y auditabilidad de los sistemas de IA, incluidas aplicaciones y agentes. Ser capaz de señalar una puntuación clara de cómo los modelos o los agentes funcionan proporciona a las organizaciones no solo la confianza para implementar aplicaciones de IA, sino que además facilita la comparación de otros modelos.
Compañías como Salesforce y AWS Comenzó a ofrecer formas para que los clientes juzguen el rendimiento. Agentforce 3 de Salesforce tiene un centro de comando que muestra el rendimiento del agente. AWS proporciona evaluación humana y automatizada en la plataforma de roca religiosa de Amazon, donde los usuarios pueden nominar el maniquí para probar sus aplicaciones, aunque estos no son evaluadores de modelos creados por el usufructuario. Opadai Asimismo ofrece evaluación basada en modelos.
MetaEl evaluador autodidacta se sostén en el mismo concepto LLM-as-a-Judge que usa Langsmith, aunque Meta aún no lo ha convertido en una característica para cualquiera de sus plataformas de construcción de aplicaciones.
A medida que más desarrolladores y empresas exigen una evaluación más liviana y formas más personalizadas de evaluar el rendimiento, más plataformas comenzarán a ofrecer métodos integrados para usar modelos para evaluar otros modelos, y muchas más proporcionarán opciones personalizadas para las empresas.





