La nueva técnica de código descubierto de Huawei encoge LLMS para hacer que funcionen con hardware menos potente y menos costoso

El laboratorio de sistemas informáticos de Huawei en Zurich ha introducido un Nuevo método de cuantización de código descubierto Para modelos de idiomas grandes (LLM) destinados a aminorar las demandas de memoria sin ofrendar la calidad de la salida.

La técnica, emplazamiento Sinq (cuantización normalizada de sumidero)está diseñado para ser rápido, sin calibración y hacedero de integrar en los flujos de trabajo maniquí existentes. El código para realizar IT ha sido puesto a disposición del equipo de investigación de Huawei en Girub y Cara abrazada Bajo una inmoralidad APACHE 2.0 Permisiva y afectuoso para la empresa, que permite a las organizaciones tomarlo y usarlo, modificarlo e implementarlo comercialmente, todo de forma gratuita.

A través de modelos de diferentes tamaños, SINQ reduce el uso de la memoria 60–70%dependiendo de la inmueble y el encantado de bits.

Esto permite que los modelos que previamente requerirían> 60 GB de memoria se ejecutan en ~ Configuraciones de 20 GB—Un habilitador crítico para ejecutar modelos grandes en una sola GPU de adhesión abanico o incluso configuraciones de escalón de consumo multi-GPU.

Esto permite ejecutar modelos que anteriormente necesitaban GPU empresariales de adhesión abanico, como el A100 o H100 de NVIDIA, en un hardware significativamente más asequible, como un solo Nvidia GeForce RTX 4090 (más o menos de $ 1600), en oficio de hardware empresarial como el A100 80GB ($ 19,000) o incluso H100 unidades que exceder los $ 30,000.

Para los equipos que usan infraestructura en la cirro, los ahorros son igualmente tangibles. Las instancias basadas en A100 a menudo cuestan $ 3–4.50 por hora, mientras que las GPU de 24 GB, como la RTX 4090, están disponibles en muchas plataformas por $ 1–1.50 por hora.

Con el tiempo, especialmente para cargas de trabajo de inferencia extendida, esta diferencia puede sumar Miles de dólares en reducciones de costosmientras que incluso desbloquea la implementación de LLM en grupos más pequeños, estaciones de trabajo locales o configuraciones de escalón de consumo previamente limitadas por la memoria.

Topar el desafío de memoria de LLMS

Ejecutar modelos grandes a menudo requiere compromisos entre el rendimiento y el tamaño.

En la ejercicio, las redes neuronales usan números de punto flotante representar pesos y activaciones. Un número de punto flotante puede expresar una amplia abanico de títulos (muy pequeños, muy grandes, con partes fraccionales).

Esta flexibilidad es útil porque durante el entrenamiento e inferencia, los pesos y las activaciones pueden variar drásticamente en escalera. El uso de punto flotante permite que el maniquí se ajuste con precisión. (Por ejemplo, un peso podría ser 0.0023 o 123.45, y el punto flotante puede capturar uno y otro con una precisión digno).

La cuantización, un método que reduce la precisión de los pesos del maniquí, ofrece una ruta ejercicio cerca de el uso de memoria más bajo, pero generalmente viene con compensaciones en la calidad del maniquí, especialmente con precisión de 4 bits y debajo.

Cuando convierte esos títulos de punto flotante en formatos de pequeño precisión (como enteros de 8 bits), los está aproximando.

Eso significa que almacena y calcula con menos bits, que es más rápido y más capaz en la memoria, pero corre el peligro de perder fidelidad (es sostener, introducir pequeños errores).

El truco es hacer la conversión cuidadosamente para que el comportamiento del maniquí permanezca casi igual, a pesar de que internamente está trabajando con aproximaciones más duras de esos pesos y activaciones.

SINQ aborda estos puntos débiles al introducir una posibilidad plug-and-play que ofrece un rendimiento robusto incluso en la configuración de devaluación precisión, sin requerir datos de calibración o dependencias entre capas.

Cómo funciona Sinq

El enfoque SINQ presenta dos innovaciones principales:

Escalera de doble eje: En oficio de usar un número de escalera único para cuantificar una matriz, SINQ utiliza vectores de escalera separados para filas y columnas. Esto ayuda a mitigar los pertenencias de los títulos atípicos y permite que el error de cuantización se distribuya de modo más flexible a través de la matriz.
Normalización de estilo Sinkhorn-Knopp: Se utiliza un cálculo rápido inspirado en las iteraciones de Sinkhorn para tipificar las desviaciones tipificado de las filas y columnas en una matriz. Esto ayuda a minimizar lo que los autores llaman “desequilibrio de matriz”, una nueva métrica proxy que se muestra más efectiva que las alternativas como la curtosis para mejorar el rendimiento de la cuantización.

La combinación de estas dos características permite a SINQ exceder a otras técnicas sin calibración, como cuantificación de redondea a más reina (RTN), HQQ y basada en Hadamard en múltiples puntos de remisión.

Rendimiento y compatibilidad

SINQ ha sido evaluado en una amplia abanico de arquitecturas y modelos, incluida la serie QWEN3, LLAMA y Deepseek.

En puntos de remisión como Wikitext2 y C4, SINQ reduce constantemente la perplejidad y las tasas de flip en comparación con los métodos de remisión, a menudo acercándose o coincidiendo con el rendimiento de las soluciones calibradas.

Igualmente admite esquemas de cuantización no uniformes como NF4 y se pueden combinar con métodos de calibración como AWQ, lo que lleva a la variable A-SINQ. En configuraciones calibradas, A-Sinq reduce aún más la brecha con modelos de precisión completa.

En términos de eficiencia en tiempo de ejecución, SINQ cuantifica los modelos aproximadamente el doble de rápido que HQQ y más de 30 veces más rápido que AWQ. Esto lo hace adecuadamente adecuado tanto para los entornos de investigación como de producción donde el tiempo de cuantización es una restricción ejercicio.

Código descubierto y hacedero de usar

Huawei ha resuelto a SINQ como un plan de código descubierto bajo una inmoralidad APACHE 2.0 afectuoso para la empresa, con instrucciones de implementación y herramientas de reproducibilidad disponibles en GitHub:

El repositorio incluye soporte para cuantificar los modelos de facilidad con solo unas pocas líneas de código, así como herramientas para abstenerse y recargar pesos cuantizados. La configuración predeterminada ofrece un contrapeso entre el capital de memoria y la precisión, y los usuarios pueden personalizar parámetros como el encantado de bits, la logística de cerámica y el tamaño del asociación en función de sus deposición.

Los autores incluso proporcionan integración de evaluación a través del lm-eval Biblioteca y planean editar modelos precantizados en el Hub Face en el futuro cercano.

Mirando cerca de el futuro

Con una creciente demanda de ejecutar grandes modelos en hardware de escalón consumidor, la cuantización se está convirtiendo en una aparejo esencial. SINQ tiene como objetivo aminorar la barrera de entrada para la implementación de LLM, lo que permite a los desarrolladores e investigadores aminorar de modo capaz modelos sin grandes compensaciones en calidad o compatibilidad.

Se planifican más actualizaciones, incluidas la integración con los transformadores faciales para abrazos y las versiones de maniquí pre-cuantizadas, lo que hace que este sea un plan para observar en el espacio de cuantificación.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

La nueva técnica de código descubierto de Huawei encoge LLMS para hacer que funcionen con hardware menos potente y menos costoso

Topar el desafío de memoria de LLMS

Cómo funciona Sinq

Rendimiento y compatibilidad

Código descubierto y hacedero de usar

Mirando cerca de el futuro

ztevenreal

Related Posts

Se suponía que el 4K nativo sería el final del serie, pero la restablecimiento cambió eso

Scale AI venablo Voice Showdown, el primer punto de relato del mundo positivo para IA de voz, y los resultados son humillantes para algunos de los mejores modelos.

You Missed

Centroamérica siente disputa de Irán con elevación precio gasolinas | AlMomento.net

Ligia Bonetti insta unir carácter y humanidad

Se suponía que el 4K nativo sería el final del serie, pero la restablecimiento cambió eso

Meditación puede someter la actividad de genes asociados al envejecimiento y el estrés

Dominicanos en el exógeno podrán comprar su cédula en mayo sin presentarse en el mes de cumpleaños

Scale AI venablo Voice Showdown, el primer punto de relato del mundo positivo para IA de voz, y los resultados son humillantes para algunos de los mejores modelos.