El maniquí de IA “1 bits” de Microsoft se ejecuta solo en una CPU, mientras coincide con sistemas más grandes

¿Importa el tamaño?

Los requisitos de memoria son la superioridad más obvia de ceñir la complejidad de los pesos internos de un maniquí. El maniquí BITNET B1.58 puede ejecutarse utilizando solo 0.4 GB de memoria, en comparación con cualquier espacio de 2 a 5 GB para otros modelos de peso rajado de aproximadamente el mismo tamaño de parámetros.

Pero el sistema de ponderación simplificado además conduce a una operación más eficaz en el momento de la inferencia, con operaciones internas que se basan mucho más en las instrucciones de añadido simples y menos en las instrucciones de multiplicación computacionalmente costosas. Esas mejoras en la eficiencia BitNet B1.58 utiliza entre 85 y 96 por ciento menos de energía en comparación con modelos similares de precisión completa, estiman los investigadores.

Una demostración de Bitnet B1.58 que se ejecuta a velocidad en una CPU Apple M2.

Utilizando un núcleo enormemente optimizado Diseñado específicamente para la casa BitNet, el maniquí BitNet B1.58 además puede ejecutarse varias veces más rápido que los modelos similares que se ejecutan en un transformador de precisión completo habitual. El sistema es lo suficientemente eficaz como para alcanzar “velocidades comparables a la repaso humana (5-7 tokens por segundo)” Usando una sola CPU, los investigadores escriben (puede Descargue y ejecute esos núcleos optimizados usted mismo en una serie de CPU de protección y x86, o pruébelo usando esta demostración web).

De forma crucial, los investigadores dicen que estas mejoras no tienen costo de rendimiento en varios puntos de narración que prueba el razonamiento, las matemáticas y las capacidades de “conocimiento” (aunque esa afirmación aún no se ha verificado de forma independiente). Promediando los resultados en varios puntos de narración comunes, los investigadores encontraron que BitNet “logra las capacidades casi a la par con los modelos líderes en su clase de tamaño, al tiempo que ofrecen una eficiencia dramáticamente mejorada”.



A pesar de su huella de memoria más pequeña, BitNet todavía funciona de forma similar a los modelos ponderados de “precisión completa” en muchos puntos de narración.

A pesar de su huella de memoria más pequeña, BitNet todavía funciona de forma similar a los modelos ponderados de “precisión completa” en muchos puntos de narración.

A pesar del evidente éxito de este maniquí de BitNet de “prueba de concepto”, los investigadores escriben que no entienden por qué el maniquí funciona tan correctamente como lo hace con una ponderación tan simplificada. “Profundizar más profundamente en los fundamentos teóricos de por qué el entrenamiento de 1 bit a escalera es efectivo sigue siendo un ámbito abierta”, escriben. Y todavía se necesita más investigación para que estos modelos BITNET compitan con el tamaño común y la “memoria” de la ventana de contexto de los modelos más grandes de hoy.

Aún así, esta nueva investigación muestra un posible enfoque independiente para los modelos de IA que enfrentan costos de hardware y energía en hélice Desde pasar con GPU costosas y potentes. Es posible que los modelos de “precisión completa” de hoy en día sean como los muscle cars que están desperdiciando mucha energía y esfuerzo cuando el equivalente de un buen subcompacto podría ofrecer resultados similares.

Related Posts

La solicitud de marca sugiere que AppleCare One pronto podría presentarse a Europa

Apple agregó otro servicio de suscripción a su índice el verano pasado en forma de AppleCare One, y ahora parece que la compañía se está preparando para lanzarlo en Europa.…

El impresionante refrigerador AIO de Thermalright le permite adicionar una pantalla panorámica a su PC por solo $165: obtenga un peculio del 20% en Wonder Vision 360 y trate su CPU

Thermalright tiene que ser uno de los fabricantes destacados de refrigeradores de CPU para todo tipo de construcciones de PC. Efectivamente fabrican algunos de los refrigeradores con mejor relación calidad-precio…

You Missed

La solicitud de marca sugiere que AppleCare One pronto podría presentarse a Europa

La solicitud de marca sugiere que AppleCare One pronto podría presentarse a Europa

Yamelsy Matos Beltré, maestra acusada de maltrato, en prisión

Yamelsy Matos Beltré, maestra acusada de maltrato, en prisión

Yayo Sanz Lovatón impulsa la frontera como eje de producción y ampliación

Yayo Sanz Lovatón impulsa la frontera como eje de producción y ampliación

En 2025 en República Dominicana sólo se crearon 77,060 nuevos empleos

En 2025 en República Dominicana sólo se crearon 77,060 nuevos empleos

IPES fortalece alianza con el IESPEC para impulsar capacitación continua de agentes policiales

IPES fortalece alianza con el IESPEC para impulsar capacitación continua de agentes policiales

El precio de la gasolina sigue subiendo en Nueva York

El precio de la gasolina sigue subiendo en Nueva York