Cómo un gran cambio en el entrenamiento LLM condujo a una golpe de capacidad

Cómo un gran cambio en el entrenamiento LLM condujo a una golpe de capacidad

Primero, Anthrope escribió una descripción simple del inglés de los principios que debe seguir un LLM. Este “constitución” Incluye principios como “Elija la respuesta que tenga contenido menos objetable, ofensivo, ilegal, engañoso, inexacto o dañino”.

Durante la capacitación, Anthrope hace el enseñanza de refuerzo pidiendo a un “magistrado” LLM que decida si la producción del “estudiante” LLM es consistente con los principios en esta constitución. Si es así, el cálculo de capacitación retribución al estudiante, alentándolo a producir más resultados como este. De lo contrario, el cálculo de capacitación penaliza al estudiante, desanimando a producir resultados similares.

Este método de capacitación de un LLM no depende directamente de los juicios humanos en ilimitado. Los humanos solo influyen en el maniquí indirectamente al escribir la Constitución.

Obviamente, esta técnica requiere que una compañía de IA ya tenga un LLM sobrado sofisticado para proceder como magistrado. Por lo tanto, este es un proceso de puesta en marcha: a medida que los modelos se vuelven más sofisticados, se vuelven mejor capaces de supervisar la próxima gestación de modelos.

Diciembre pasado, semánalis Publicado un artículo Describiendo el proceso de capacitación para una lectura mejorada de Claude 3.5 Sonnet que Anthrope lanzó en octubre. Anthrope había descocado previamente Claude 3 en tres tamaños: Opus (magnate), soneto (medio) y Haiku (pequeño). Pero cuando Anthrope lanzó Claude 3.5 en junio de 2024, solo lanzó un maniquí de tamaño mediano llamado sonnet.

Entonces, ¿qué pasó con Opus?

Semianalysis informó que “el entrenamiento antrópico terminado Claude 3.5 Opus, y funcionó aceptablemente. Sin confiscación, Anthrope no lo liberó. Esto se debe a que en puesto de liberar públicamente, Anthrope usó Opus Claude 3.5 para difundir datos sintéticos y para el modelado de recompensas para mejorar significativamente el soneto Claude 3.5”.

Cuando Semianalysis dice que Anthrope usó Opus “para el modelado de recompensas”, lo que significan es que la compañía usó OPUS para dictaminar los resultados del soneto Claude 3.5 como parte de un proceso de enseñanza de refuerzo. Opus era demasiado magnate y, por lo tanto, costoso, para ser un buen valía para el conocido en universal. Pero a través del enseñanza de refuerzo y otras técnicas, Anthrope podría capacitar una lectura de Claude Sonnet que estaba cerca de Claude Opus en sus capacidades, lo que probablemente brinda a los clientes un rendimiento cercano a la OPU por el precio del soneto.

Related Posts

Por qué la configuración de Claude Code de Garry Tan ha recibido tanto coito y odio

El renombrado director ejecutor de Y Combinator, Garry Tan, dijo a una Audiencia SXSW que tiene “psicosis cibernética” y al punto que duerme porque está muy emocionado de trabajar con…

Firebreak, el shooter de servicio en vivo de Remedy, recibirá su última modernización importante

Remedy está cerrando su equipo de tiradores FBC: cortafuegos con una gran modernización que se vara hoy. Pero si perfectamente el mecanismo no recibirá ningún contenido nuevo en el futuro,…

You Missed

Por qué la configuración de Claude Code de Garry Tan ha recibido tanto coito y odio

Por qué la configuración de Claude Code de Garry Tan ha recibido tanto coito y odio

Firebreak, el shooter de servicio en vivo de Remedy, recibirá su última modernización importante

Firebreak, el shooter de servicio en vivo de Remedy, recibirá su última modernización importante

Laura Pausini regresa a raíces latinoamericanas con el disco ‘Yo canto 2’

Laura Pausini regresa a raíces latinoamericanas con el disco ‘Yo canto 2’

El dólar vuelve a cotizase por debajo de los 60 pesos

El dólar vuelve a cotizase por debajo de los 60 pesos

Presidenta balear, Marga Prohens, se reúne con el presidente dominicano, Luis Abinader

Presidenta balear, Marga Prohens, se reúne con el presidente dominicano, Luis Abinader

Subastarán un tramo de la escalera flamante que conducía al tercer suelo de la Torre Eiffel

Subastarán un tramo de la escalera flamante que conducía al tercer suelo de la Torre Eiffel