Cómo un gran cambio en el entrenamiento LLM condujo a una golpe de capacidad

Primero, Anthrope escribió una descripción simple del inglés de los principios que debe seguir un LLM. Este “constitución” Incluye principios como “Elija la respuesta que tenga contenido menos objetable, ofensivo, ilegal, engañoso, inexacto o dañino”.

Durante la capacitación, Anthrope hace el enseñanza de refuerzo pidiendo a un “magistrado” LLM que decida si la producción del “estudiante” LLM es consistente con los principios en esta constitución. Si es así, el cálculo de capacitación retribución al estudiante, alentándolo a producir más resultados como este. De lo contrario, el cálculo de capacitación penaliza al estudiante, desanimando a producir resultados similares.

Este método de capacitación de un LLM no depende directamente de los juicios humanos en ilimitado. Los humanos solo influyen en el maniquí indirectamente al escribir la Constitución.

Obviamente, esta técnica requiere que una compañía de IA ya tenga un LLM sobrado sofisticado para proceder como magistrado. Por lo tanto, este es un proceso de puesta en marcha: a medida que los modelos se vuelven más sofisticados, se vuelven mejor capaces de supervisar la próxima gestación de modelos.

Diciembre pasado, semánalis Publicado un artículo Describiendo el proceso de capacitación para una lectura mejorada de Claude 3.5 Sonnet que Anthrope lanzó en octubre. Anthrope había descocado previamente Claude 3 en tres tamaños: Opus (magnate), soneto (medio) y Haiku (pequeño). Pero cuando Anthrope lanzó Claude 3.5 en junio de 2024, solo lanzó un maniquí de tamaño mediano llamado sonnet.

Entonces, ¿qué pasó con Opus?

Semianalysis informó que “el entrenamiento antrópico terminado Claude 3.5 Opus, y funcionó aceptablemente. Sin confiscación, Anthrope no lo liberó. Esto se debe a que en puesto de liberar públicamente, Anthrope usó Opus Claude 3.5 para difundir datos sintéticos y para el modelado de recompensas para mejorar significativamente el soneto Claude 3.5”.

Cuando Semianalysis dice que Anthrope usó Opus “para el modelado de recompensas”, lo que significan es que la compañía usó OPUS para dictaminar los resultados del soneto Claude 3.5 como parte de un proceso de enseñanza de refuerzo. Opus era demasiado magnate y, por lo tanto, costoso, para ser un buen valía para el conocido en universal. Pero a través del enseñanza de refuerzo y otras técnicas, Anthrope podría capacitar una lectura de Claude Sonnet que estaba cerca de Claude Opus en sus capacidades, lo que probablemente brinda a los clientes un rendimiento cercano a la OPU por el precio del soneto.