Cómo un gran cambio en el entrenamiento LLM condujo a una golpe de capacidad

Cómo un gran cambio en el entrenamiento LLM condujo a una golpe de capacidad

Primero, Anthrope escribió una descripción simple del inglés de los principios que debe seguir un LLM. Este “constitución” Incluye principios como “Elija la respuesta que tenga contenido menos objetable, ofensivo, ilegal, engañoso, inexacto o dañino”.

Durante la capacitación, Anthrope hace el enseñanza de refuerzo pidiendo a un “magistrado” LLM que decida si la producción del “estudiante” LLM es consistente con los principios en esta constitución. Si es así, el cálculo de capacitación retribución al estudiante, alentándolo a producir más resultados como este. De lo contrario, el cálculo de capacitación penaliza al estudiante, desanimando a producir resultados similares.

Este método de capacitación de un LLM no depende directamente de los juicios humanos en ilimitado. Los humanos solo influyen en el maniquí indirectamente al escribir la Constitución.

Obviamente, esta técnica requiere que una compañía de IA ya tenga un LLM sobrado sofisticado para proceder como magistrado. Por lo tanto, este es un proceso de puesta en marcha: a medida que los modelos se vuelven más sofisticados, se vuelven mejor capaces de supervisar la próxima gestación de modelos.

Diciembre pasado, semánalis Publicado un artículo Describiendo el proceso de capacitación para una lectura mejorada de Claude 3.5 Sonnet que Anthrope lanzó en octubre. Anthrope había descocado previamente Claude 3 en tres tamaños: Opus (magnate), soneto (medio) y Haiku (pequeño). Pero cuando Anthrope lanzó Claude 3.5 en junio de 2024, solo lanzó un maniquí de tamaño mediano llamado sonnet.

Entonces, ¿qué pasó con Opus?

Semianalysis informó que “el entrenamiento antrópico terminado Claude 3.5 Opus, y funcionó aceptablemente. Sin confiscación, Anthrope no lo liberó. Esto se debe a que en puesto de liberar públicamente, Anthrope usó Opus Claude 3.5 para difundir datos sintéticos y para el modelado de recompensas para mejorar significativamente el soneto Claude 3.5”.

Cuando Semianalysis dice que Anthrope usó Opus “para el modelado de recompensas”, lo que significan es que la compañía usó OPUS para dictaminar los resultados del soneto Claude 3.5 como parte de un proceso de enseñanza de refuerzo. Opus era demasiado magnate y, por lo tanto, costoso, para ser un buen valía para el conocido en universal. Pero a través del enseñanza de refuerzo y otras técnicas, Anthrope podría capacitar una lectura de Claude Sonnet que estaba cerca de Claude Opus en sus capacidades, lo que probablemente brinda a los clientes un rendimiento cercano a la OPU por el precio del soneto.

Related Posts

Los jugadores de ‘Pokemon Go’ entrenaron sin saberlo robots repartidores con 30 mil millones de imágenes

Más de 30 mil millones de imágenes capturadas por jugadores de Pokémon Go han ayudado a entrenar un sistema de mapeo visual desarrollado por Niantic. La tecnología ahora está siendo…

OpenAI confirma que los anuncios de ChatGPT siguen estando limitados a los Estados Unidos

OpenAI ha confirmado que los anuncios ChatGPT no se están expandiendo conjuntamente; Por ahora, sólo se limita a Estados Unidos. La dilucidación sigue a los informes de usuarios en Reddit…

You Missed

Los jugadores de ‘Pokemon Go’ entrenaron sin saberlo robots repartidores con 30 mil millones de imágenes

Los jugadores de ‘Pokemon Go’ entrenaron sin saberlo robots repartidores con 30 mil millones de imágenes

Félix Portes califica de injusta supuesta campaña de descrédito contra Hogares Crea Dominicana

Félix Portes califica de injusta supuesta campaña de descrédito contra Hogares Crea Dominicana

Caído “Bololo”, buscado por 11 órdenes

Caído “Bololo”, buscado por 11 órdenes

Embajador de China afirma desidia de conectividad aérea limita venida de turistas chinos

Embajador de China afirma desidia de conectividad aérea limita venida de turistas chinos

Inauguran “Semana Más Corta 2026”

Inauguran “Semana Más Corta 2026”

Lewin Díaz renueva con las Estrellas tras convertirse en agente franco

Lewin Díaz renueva con las Estrellas tras convertirse en agente franco