
Los investigadores de Microsoft acaban de crear BITNET B1.58 2B4T, un maniquí de idioma ínclito de 1 bits de código hendido (LLM) con dos mil millones de parámetros entrenados en cuatro billones de tokens. Pero lo que hace que este maniquí de IA sea único es que es lo suficientemente tenue como para funcionar de forma capaz en una CPU, con TechCrunch Aseverar un chip Apple M2 puede ejecutarlo. El maniquí igualmente está fácilmente acondicionado en Cara abrazadapermitiendo que cualquiera experimente con él.
Las redes de bits usan pesos de 1 bits con solo tres títulos posibles: -1, 0 y +1, técnicamente es un “maniquí de 1.58 bits” oportuno al soporte para tres títulos. Esto ahorra mucha memoria en comparación con los modelos AI convencionales con formatos de punto flotante de 32 bits o 16 bits, lo que les permite tratar de forma mucho más capaz y requieren menos memoria y potencia computacional. Sin retención, la simplicidad de Bitnet tiene un inconveniente: es menos preciso en comparación con los modelos de IA más grandes. Sin retención, BITNET B1.58 2B4T compensa esto con sus datos de entrenamiento masivo, que se estima en más de 33 millones de libros.
El equipo detrás de este maniquí tenue lo comparó con los principales modelos convencionales, incluido Meta’s Claridad 3.2 1B, Gemma 3 1B de Google y Qwen 2.5 1.5b de Alibaba. BITNET B1.58 2B4T obtuvo un puntaje relativamente adecuadamente contra estos modelos en la mayoría de las pruebas, e incluso recibió honores en algunos puntos de remisión. Más importante aún, solo consumió 400 MB en memoria no incrustada: menos del 30% de lo que usó el próximo maniquí más pequeño (Gemma 3 1B), que es 1.4 GB.
Punto de remisión |
Bitnet B1.58 2B |
LLaMa 3.2 1B |
Gemma 3 1B |
Qwen 2.5 1.5b |
---|---|---|---|---|
Uso de la memoria que no es incrustante |
0.4 GB |
2 GB |
1.4 GB |
2.6 GB |
Latencia (decodificación de CPU) |
29ms |
48 ms |
41 ms |
65 ms |
Tokens de entrenamiento |
4 billones |
9 billones |
2 billones |
18 billones |
Curva-llamativo |
49.91 |
37.80 |
38.40 |
46.67 |
Curva |
74.79 |
63.17 |
63.13 |
76.01 |
OpenBookqa |
41.60 |
34.80 |
38.80 |
40.80 |
Boolq |
80.18 |
64.65 |
74.22 |
78.04 |
Helaswag |
68.44 |
60.80 |
57.69 |
68.28 |
Piqa |
77.09 |
74.21 |
71.93 |
76.12 |
Winogrande |
71.90 |
59.51 |
58.48 |
62.83 |
Comunessenseqa |
71.58 |
58.48 |
42.10 |
76.41 |
Auténtico |
45.31 |
43.80 |
38.66 |
46.67 |
Triviaqa |
33.57 |
37.60 |
23.49 |
38.37 |
MMLU |
53.17 |
45.58 |
39.91 |
60.25 |
Humaneval+ |
38.40 |
31.10 |
37.20 |
50.60 |
GSM8K |
58.38 |
38.21 |
31.16 |
56.79 |
Matemáticas-500 |
43.40 |
23.00 |
42.00 |
53.00 |
Ifeval |
53.48 |
62.71 |
66.67 |
50.12 |
Mesa |
5.85 |
5.43 |
6.40 |
6.12 |
Promedio |
54.19 |
44.90 |
43.74 |
55.23 |
Sin retención, el LLM debe usar el situación de inferencia bitnet.cpp para que ejecute esto de forma capaz. El equipo dijo específicamente que este maniquí no tendrá las ganancias de eficiencia de rendimiento “cuando lo use con la biblioteca de transformadores unificado, incluso con el ramificado requerido”.
Deberá obtener el situación acondicionado en Girub Si desea utilizar sus beneficios en hardware tenue. El repositorio describe Bitnet.cpp como ofreciendo “un conjunto de núcleos optimizados que admiten una inferencia rápida y sin pérdidas de modelos de 1,58 bits en CPU (con NPU y soporte de GPU que viene a continuación). Si adecuadamente no admite hardware específico de IA en este momento, todavía permite a cualquier persona con una computadora cotejar con AI sin requerir componentes caros.
Los modelos de IA a menudo son criticados por tomar demasiada energía para entrenar y tratar. Pero los LLM livianos, como Bitnet B1.58 2B4T, podrían ayudarnos a ejecutar modelos AI localmente en hardware menos potente. Esto podría sujetar nuestra dependencia de los centros de datos masivos e incluso dar a las personas sin paso a los últimos procesadores con NPU incorporadas y las GPU más poderosas para usar inteligencia sintético.