
- Investigadores de las mejores universidades estadounidenses advierten que extender el pre-entrenamiento puede ser perjudicial para el rendimiento
- Demasiado pre-entrenamiento puede ofrecer un peor rendimiento conveniente a poco parecido al impacto de la palomilla
- Cuanto más se entrenen, más se vuelven sensibles a pequeños cambios que podrían interrumpir el resultado final
Los investigadores de Carnegie Mellon, Stanford, Harvard y Princeton están desafiando una de las creencias centrales aceptadas de AI Development, que cuanto más datos de entrenamiento, mejor será el rendimiento.
Según lo informado por Hpcwireun nuevo documento describe el concepto de “sobreentrenamiento catastrófico”, por el cual el pretraben extendido puede dañar el rendimiento de un maniquí luego del ajuste.
Los investigadores compararon dos versiones del maniquí OLMO-1B, uno entrenó en 2.3 billones de tokens y otra con 3 billones de billones. A pesar del conjunto de entrenamiento más sobresaliente, el maniquí más ampliamente entrenado se realizó hasta un 3% peor en puntos de narración como Alpacaeval y ARC.
Alcanzar el punto de inflexión
Esta caída de rendimiento, según el estudio, está vinculada a un engendro llamado “sensibilidad progresiva”.
A medida que aumenta el recuento de tokens, el maniquí se vuelve más frágil. Incluso los pequeños ajustes, como los ajustes durante el ajuste fino, o la inmersión del ruido, pueden revertir las ganancias anteriores.
Los autores demostraron esto inyectando el ruido gaussiano en modelos previamente capacitados, señalando que el rendimiento se degradó más bruscamente cuanto más tiempo se entrenó el maniquí.
El punto en el que este entrenamiento adicional comienza a degradar el rendimiento se fogata “punto de inflexión”.
Una vez aprehendido, los beneficios de la capacitación comienzan a ser superados por el aventura de inestabilidad interna. El estudio encontró que este punto de inflexión a menudo ocurre más allá de 2.5 billones de tokens en modelos más pequeños, como OLMO-1B.
“El sobreentrenamiento catastrófico puede ser ineludible … especialmente cuando las tareas de pre-entrenamiento y ajuste fino están desalineadas”, advierten los autores en su artículo, a los que puede penetrar a través de la servidor de pre-impresión ARXIV.
Si perfectamente los investigadores no sugieren el fin de la capacitación previa, sí sienten que los desarrolladores deberían considerar cuánta capacitación es suficiente. Como concluye el documento, “nuestros hallazgos requieren un enfoque renovado en la escalera del maniquí que considera toda la tubería de capacitación”.
Para los desarrolladores de IA persiguiendo la escalera, el mensaje parece claro: a veces, menos es más.