Los investigadores de Nvidia desbloquean una formación LLM de 4 bits que coincide con el rendimiento de 8 bits

Investigadores de Nvidia han desarrollado un enfoque novedoso para entrenar modelos de jerigonza extenso (LLM) en formato cuantificado de 4 bits manteniendo su estabilidad y precisión al nivel de modelos de suscripción precisión. Su técnica, NVFP4, permite entrenar modelos que no sólo superan a otros formatos líderes de 4 bits, sino que igualan el rendimiento del formato más extenso FP8 de 8 bits, todo ello utilizando la centro de la memoria y una fracción de la computación.

El éxito de NVFP4 muestra que las empresas pueden seguir reduciendo los costos de inferencia ejecutando modelos más eficientes que igualen el rendimiento de los más grandes. Asimismo apunta a un futuro en el que el costo de la formación de LLM caerá hasta un punto en el que muchas más organizaciones podrán entrenar sus propios modelos personalizados desde cero en motivo de simplemente ajustar los existentes.

El desafío de la cuantización

Cuantización del maniquí es una técnica utilizada para ceñir los costos computacionales y de memoria de ejecutar y entrenar modelos de IA. Funciona convirtiendo los parámetros o pesos del maniquí de formatos de suscripción precisión como punto flotante de 16 y 32 bits (BF16 y FP32) a formatos de pequeño precisión. El desafío esencia de la cuantificación es ceñir el tamaño del maniquí preservando al mismo tiempo la maduro cantidad posible de su conocimiento y capacidades.

En los últimos abriles, los formatos de punto flotante de 8 bits (FP8) se han convertido en un tipificado industrial popular y ofrecen un buen firmeza entre rendimiento y eficiencia. Reducen significativamente el costo computacional y la demanda de memoria para la capacitación LLM sin una caída importante en la precisión.

El posterior paso razonable es el punto flotante de 4 bits (FP4), que promete ceñir a la centro el uso de memoria nuevamente y aumentar aún más el rendimiento en hardware reformista. Sin incautación, esta transición ha sido un desafío. Los formatos de 4 bits existentes, como MXFP4, a menudo tienen dificultades para persistir el mismo nivel de precisión que sus homólogos de 8 bits, lo que obliga a un difícil firmeza entre coste y rendimiento.

Cómo funciona NVFP4

NVFP4 supera los desafíos de estabilidad y precisión de otras técnicas del FP4 a través de un diseño más inteligente y una metodología de capacitación específica. Un problema esencia con la precisión de 4 bits es su rango extremadamente escaso: sólo puede representar 16 títulos distintos. Al convertir desde un formato de suscripción precisión, los títulos atípicos pueden distorsionar todo el conjunto de datos, lo que perjudica la precisión del maniquí. NVFP4 utiliza un enfoque de escalamiento multinivel más sofisticado que maneja mejor estos títulos atípicos, lo que permite una "representación más precisa y exacta de los títulos tensoriales durante el entrenamiento," según Nvidia.

Más allá del formato, los investigadores introducen una récipe de entrenamiento de 4 bits que logra una precisión comparable a la del FP8. Un componente central es su “organización de precisión mixta”. En motivo de convertir todo el maniquí a NVFP4, la mayoría de las capas se cuantifican mientras que una pequeña fracción de las capas numéricamente sensibles se mantienen en un formato de maduro precisión como BF16. Esto preserva la estabilidad donde más importa. La metodología incluso ajusta la forma en que se calculan los gradientes durante la retropropagación, o la período de educación del maniquí, para ceñir los sesgos que pueden acumularse oportuno a la aritmética de disminución precisión.

NVFP4 en la maña

Para probar su enfoque, el equipo de Nvidia entrenó un potente híbrido de 12 mil millones de parámetros. Maniquí Mamba-Transformer en la enorme cantidad de 10 billones de tokens. Luego compararon su rendimiento directamente con un maniquí de narración entrenado en el popular formato FP8. Los resultados mostraron que la pérdida de entrenamiento del maniquí NVFP4 y la precisión de las tareas posteriores siguieron de cerca a la traducción FP8 durante todo el proceso.

El desempeño se mantuvo en una amplia serie de dominios, incluido el razonamiento intensivo en conocimiento, las matemáticas y las tareas de sentido global, con solo una ligera caída en los puntos de narración de codificación en la capacitación tardía.

"Esto marca, hasta donde sabemos, la primera demostración exitosa de entrenamiento de modelos de jerigonza de mil millones de parámetros con precisión de 4 bits en un horizonte de varios billones de tokens, sentando las bases para un entrenamiento más rápido y eficaz de futuros modelos de frontera”, escriben los investigadores.

Según el director de producto de Nvidia para IA y GPU de centros de datos, NvidiaShar Narasimhan, en la maña, el formato de precisión de 4 bits de NVFP4 permite a los desarrolladores y empresas entrenar e implementar modelos de IA con casi la misma precisión que los formatos tradicionales de 8 bits.

“Al entrenar los pesos del maniquí directamente en formato de 4 bits y al mismo tiempo preservar la precisión, se permite a los desarrolladores tantear con nuevas arquitecturas, iterar más rápido y descubrir conocimientos sin hallarse obstaculizados por limitaciones de capital”, dijo a VentureBeat.

Por el contrario, el FP8 (aunque ya es un brinco delante respecto al FP16) todavía impone límites al tamaño del maniquí y al rendimiento de inferencia oportuno a mayores demandas de memoria y satisfecho de lado. “NVFP4 rompe ese techo, ofreciendo una calidad equivalente con un beneficio de crecimiento y experimentación dramáticamente maduro”, dijo Narasimhan.

En comparación con el formato independiente de 4 bits, MXFP4, los beneficios de NVFP4 se vuelven aún más claros. En un indagación con un maniquí de 8 mil millones de parámetros, NVFP4 convergió a una mejor puntuación de pérdida que MXFP4. Para alcanzar el mismo nivel de rendimiento que el maniquí NVFP4, el maniquí MXFP4 tuvo que entrenarse con un 36% más de datos, un aumento considerable en el tiempo y el costo de entrenamiento.

Encima de hacer que el entrenamiento previo sea más eficaz, NVFP4 incluso redefine lo que es posible. “Demostrar que la precisión de 4 bits puede preservar la calidad del maniquí a escalera abre la puerta a un futuro en el que las medianas empresas o las nuevas empresas, no solo los hiperescaladores, puedan entrenar modelos mucho especializados desde cero”, dijo Narasimhan, y agregó que, con el tiempo, podemos esperar un cambio del progreso de modelos LLM de propósito caudillo a “un ecosistema diverso de modelos personalizados y de parada rendimiento creados por una serie más amplia de innovadores”.

Más allá del entrenamiento previo

Aunque el artículo se centra en las ventajas de NVFP4 durante el preentrenamiento, su impacto incluso se extiende a la inferencia.

“Los modelos entrenados en NVFP4 no sólo pueden ofrecer una inferencia más rápida y un maduro rendimiento, sino que incluso pueden acortar el tiempo necesario para que las fábricas de IA alcancen el retorno de la inversión, acelerando el ciclo desde el progreso del maniquí hasta la implementación en el mundo auténtico”, dijo Narasimhan.

Adecuado a que estos modelos son más pequeños y más eficientes, abren nuevas posibilidades para felicitar respuestas complejas y de suscripción calidad en tiempo auténtico, incluso en aplicaciones agentes con uso intensivo de tokens, sin aumentar los costos de energía y computación.

Narasimhan dijo que mira con destino a un futuro de eficiencia de modelos que no se trate nada más de ceñir la precisión, sino de construir sistemas más inteligentes.

“Hay muchas oportunidades para ampliar la investigación con destino a precisiones más bajas, así como para modificar arquitecturas para topar los componentes que dominan cada vez más la computación en modelos a gran escalera”, dijo. “Estas áreas son ricas en oportunidades, especialmente a medida que avanzamos con destino a sistemas agentes que exigen parada rendimiento, disminución latencia y razonamiento adaptativo. NVFP4 demuestra que la precisión se puede optimizar sin comprometer la calidad y sienta las bases para una nueva era de diseño de IA inteligente y eficaz”.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Los investigadores de Nvidia desbloquean una formación LLM de 4 bits que coincide con el rendimiento de 8 bits

El desafío de la cuantización

Cómo funciona NVFP4

NVFP4 en la maña

Más allá del entrenamiento previo

ztevenreal

Related Posts

Samsung descataloga su Galaxy Z TriFold posteriormente de sólo tres meses

Proyectos de ley prohibirían las demandas de responsabilidad por el cambio climático

You Missed

Anuncian los detalles de Autoferia Asocivu 2026

A 51 abriles del homicidio del periodista Orlando Martínez – Remolacha

Samsung descataloga su Galaxy Z TriFold posteriormente de sólo tres meses

Policía rescata a dos menores reportados como desaparecidos

Migración dominicana detiene mas 3 mil haitianos en 72 horas | AlMomento.net

La diáspora dominicana: la nación que además se construye desde el extranjero – Remolacha