Sus modelos de IA están fallando en la producción, aquí se proxenetismo de cómo arreglar la selección de modelos

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información

Las empresas deben aprender si los modelos que impulsan sus aplicaciones y agentes trabajan en escenarios de la vida efectivo. Este tipo de evaluación a veces puede ser arduo porque es difícil predecir escenarios específicos. Una traducción renovada del punto de relato de recompensas averiguación dar a las organizaciones una mejor idea del rendimiento de la vida efectivo de un maniquí.

El Instituto Allen de AI (AI2) Emprendedor Recomptsbench 2, una traducción actualizada de su punto de relato de maniquí de galardón, Recompensas, que según ellos proporciona una visión más holística del rendimiento del maniquí y evalúa cómo los modelos se alinean con los objetivos y estándares de una empresa.

AI2 construyó recompensas con tareas de clasificación que miden las correlaciones a través de la inferencia de enumeración y capacitación posterior. Remunerar el costado se proxenetismo principalmente de modelos de galardón (RM), que pueden ejecutar como jueces y evaluar los resultados de LLM. RMS asigna una puntuación o una “galardón” que consejero el formación de refuerzo con comentarios humanos (RHLF).

¡Remunerar 2 está aquí! Tomamos mucho tiempo para instruirse de nuestra primera utensilio de evaluación de maniquí de galardón para hacer una que esté sustancialmente más difícil y más correlacionada con RLHF aguas debajo y escalera de tiempo de inferencia. pic.twitter.com/ngetvnroqv
– AI2 (@Allen_ai) 2 de junio de 2025

Nathan Lambert, un verificado de investigación senior de AI2, dijo a VentureBeat que el primer costado de recompensas funcionó según lo previsto cuando se lanzó. Aún así, el entorno maniquí evolucionó rápidamente, y todavía deberían sus puntos de relato.

“A medida que los modelos de galardón se volvieron más avanzados y los casos de uso más matizados, rápidamente reconocimos con la comunidad que la primera traducción no capturó completamente la complejidad de las preferencias humanas del mundo efectivo”, dijo.

Lambert agregó que con Recomptsbench 2, “Nos propusimos mejorar tanto la amplitud como la profundidad de la evaluación, incorporando indicaciones más diversas y desafiantes y refinando la metodología para reflectar mejor cómo los humanos positivamente juzgan los resultados de la IA en la destreza”. Dijo que la segunda traducción utiliza indicaciones humanas invisibles, tiene una configuración de puntuación más desafiante y nuevos dominios.

Uso de evaluaciones para modelos que evalúan

Si proporcionadamente los modelos de galardón prueban qué tan proporcionadamente funcionan los modelos, todavía es importante que los RMS se alineen con los títulos de la empresa; De lo contrario, el proceso de formación de ajuste y refuerzo puede engrosar el mal comportamiento, como las alucinaciones, ceñir la divulgación y obtener respuestas dañinas demasiado altas.

RecompenshBench 2 cubre seis dominios diferentes: sinceridad, seguimiento preciso de instrucción, matemáticas, seguridad, enfoque y lazos.

“Las empresas deben usar recompensas 2 de dos maneras diferentes dependiendo de su aplicación. Si están realizando RLHF en sí mismas, deben adoptar las mejores prácticas y conjuntos de datos de los modelos líderes en sus propias tuberías porque los modelos de recompensas necesitan recetas de capacitación en la política (es asegurar, los modelos de galardón que reflejan el maniquí que intentan capacitar con RL). Dijo Lambert.

Lambert señaló que los puntos de relato como Recomptsbench ofrecen a los usuarios una forma de evaluar los modelos que eligen en función de las “dimensiones que más les importan, en punto de tener fe en una puntuación estrecha de talla única”. Dijo que la idea del rendimiento, que muchos métodos de evaluación afirman evaluar, es muy subjetiva porque una buena respuesta de un maniquí depende en gran medida del contexto y los objetivos del sucesor. Al mismo tiempo, las preferencias humanas se matan muy.

Ai 2 lanzó la primera traducción de Recompensas en marzo de 2024. En ese momento, la compañía dijo que era el primer punto de relato y la clasificación para los modelos de recompensas. Desde entonces, han surgido varios métodos para la evaluación comparativa y la alivio de RM. Investigadores de MetaLa feria salió con RewordBench. Experto Lanzó una nueva técnica señal Tuning de crítica autoinscribida para RM más inteligente y escalable.

Súper emocionado de que nuestra segunda evaluación del maniquí de galardón esté fuera. Es sustancialmente más difícil, mucho más honrado y proporcionadamente correlacionado con el muestreo PPO/Bon aguas debajo.
¡Atinado hillclimbing!
Enormes felicitaciones a @Saumyamalik44 quienes lideran el tesina con un compromiso total con la excelencia. https://t.co/c0b6rhtxy5
– Nathan Lambert (@natolambert) 2 de junio de 2025

Cómo se desempeñaron los modelos

Cedido que Recomptsbench 2 es una traducción actualizada de Recompensas, AI2 probó modelos existentes y recién entrenados para ver si continúan clasificando altos. Estos incluyeron una variedad de modelos, como versiones de Gemini, Claude, GPT-4.1 y Claridad-3.1, inmediato con conjuntos de datos y modelos como Qwen, Skywork y su propio Tulu.

La compañía descubrió que los modelos de galardón más grandes funcionan mejor en el punto de relato porque sus modelos cojín son más fuertes. En normal, los modelos de longevo rendimiento son las variantes de instrucciones LLAMA-3.1. En términos de enfoque y seguridad, los datos de Skywork “son particularmente aperos”, y Tulu tuvo un buen desempeño en la facturidad.

AI2 dijo que si proporcionadamente creen que Remunerar 2 “es un paso delante en una evaluación amplia basada en la precisión de varios dominios” para los modelos de recompensas, advirtieron que la evaluación del maniquí debe estilarse principalmente como una consejero para designar modelos que funcionen mejor con las deposición de una empresa.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu director, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Sus modelos de IA están fallando en la producción, aquí se proxenetismo de cómo arreglar la selección de modelos

Uso de evaluaciones para modelos que evalúan

Cómo se desempeñaron los modelos

ztevenreal

Related Posts

Por qué se agotan los creadores de cambios, y cómo quemarse en su ocasión

Por qué recomiendo esta distribución de Linux a los usuarios de Windows 10 que no pueden modernizar a 11

Leave a Reply Cancel reply

You Missed

Nairoby Duarte presenta ‘Imagino’, su nueva madrigal pop

Haydée Milanés cree que su padre estaría horrorizado por Cuba

Por qué se agotan los creadores de cambios, y cómo quemarse en su ocasión

Senado aprueba en primera leída ley que crea el Profesión de Equidad

Guatemala: el volcán de Fuega aumenta su actividad

Tragedia en presunta carrera ilegal de motores en Cabarete – Remolacha