La inmueble de Bolmo desbloquea una capacitación LM capaz a nivel de bytes sin inmolar la calidad

La inmueble de Bolmo desbloquea una capacitación LM capaz a nivel de bytes sin inmolar la calidad

Las empresas que desean modelos multilingües sin tokenizadores recurren cada vez más a modelos de habla a nivel de bytes para someter la fragilidad en textos ruidosos o de bajos fortuna. Para exprimir ese hornacina y hacerlo práctico a escalera, el Instituto Allen de IA (Ai2) presentó Bolmo.una nueva grupo de modelos que aprovechan su Olmo 3 modelos “bytefiyándolos” y reutilizando su columna vertebral y sus capacidades.

La compañía lanzó dos versiones, Bolmo 7B y Bolmo 1B, que son “el primer maniquí de habla a nivel de bytes completamente hendido”. según Ai2. La compañía dijo que los dos modelos tuvieron un desempeño competitivo (y en algunos casos superaron) a otros modelos basados ​​en caracteres y a nivel de bytes.

Los modelos de habla a nivel de bytes operan directamente en bytes UTF-8 sin procesar, lo que elimina la privación de un vocabulario predefinido o un tokenizador. Esto les permite manejar errores ortográficos, idiomas raros y texto no convencional de modo más confiable: requisitos esencia para moderación, implementaciones perimetrales y aplicaciones multilingües.

Para las empresas que implementan IA en varios idiomas, entradas ruidosas de los usuarios o entornos restringidos, los modelos sin tokenizadores ofrecen una modo de someter la complejidad operativa. Bolmo de Ai2 es un intento de hacer que ese enfoque sea práctico a escalera, sin tener que retornar a capacitarse desde cero.

Cómo funciona Bolmo y cómo se construyó

Ai2 dijo que entrenó los modelos Bolmo utilizando su combinación de datos Dolma 3, lo que ayudó a entrenar su Modelos emblemáticos de Olmoy algunos conjuntos de datos de código hendido y datos a nivel de carácter.

La compañía dijo que su objetivo “es proporcionar un maniquí reproducible e inspeccionable para byteificar modelos de habla de subpalabras fuertes de una modo que la comunidad pueda adoptar y ampliar”. Para conseguir este objetivo, Ai2 publicará sus puntos de control, código y un documento completo para ayudar a otras organizaciones a construir modelos a nivel de bytes sobre su ecosistema Olmo.

Cedido que entrenar un maniquí a nivel de bytes completamente desde cero puede resultar costoso, los investigadores de Ai2 eligieron un punto de control Olmo 3 7B existente para byteificar en dos etapas.

En la primera etapa, Ai2 se congeló. el transformador Olmo 3 para que solo entrenen ciertas partes, como el codificador y decodificador específico, el predictor de límites y el cabezal de modelado de habla. Fue diseñado para ser “módico y rápido” y requiere sólo 9.800 millones de tokens.

La próximo etapa descongela el maniquí y lo entrena con fichas adicionales. Ai2 dijo que el enfoque a nivel de bytes permite a Bolmo evitar los cuellos de botella de vocabulario que limitan los modelos tradicionales de subpalabras.

Resistente desempeño entre sus pares

Los modelos de habla a nivel de bytes no son tan comunes como los modelos de habla pequeño o los LLM, pero este es un campo de investigación en crecimiento. Meta lanzó su inmueble BLT investigación el año pasado, con el objetivo de ofrecer un maniquí que sea robusto, procese datos sin procesar y no dependa de vocabularios fijos.

Otros modelos de investigación en este espacio incluir ByT5, MrT5 de Stanfordy Canino.

Ai2 evaluó a Bolmo utilizando su conjunto de evaluación, que cubre matemáticas, razonamiento STEM, respuesta a preguntas, conocimientos generales y código.

Bolmo 7B mostró un rendimiento sólido, superando los puntos de narración centrados en personajes como CUTE y EXECUTE, y todavía mejoró la precisión con respecto al LLM Olmo 3 esencial.

Bolmo 7B superó a modelos de tamaño comparable en codificación, matemáticas, control de calidad de opción múltiple y comprensión a nivel de caracteres.

Por qué las empresas pueden designar modelos a nivel de bytes

Las empresas encuentran valencia en una estructura de maniquí híbrido, utilizando una combinación de modelos y tamaños de modelos.

Ai2 defiende que las organizaciones todavía deberían considerar modelos a nivel de bytes no solo por su solidez y comprensión multilingüe, sino porque “lógicamente se conectan a un ecosistema de maniquí existente”.

“Una preeminencia esencia de la configuración jerárquica dinámica es que la compresión se convierte en una perilla conmutable”, dijo la compañía.

Para las empresas que ya ejecutan pilas de modelos heterogéneos, Bolmo sugiere que los modelos a nivel de bytes pueden ya no ser puramente académicos. Al modernizar un maniquí de subpalabra sólido en oficio de capacitarlo desde cero, Ai2 está señalando un camino de pequeño peligro para las organizaciones que desean solidez sin entregarse la infraestructura existente.

Related Posts

Hisense lanceta las series 2026 U7 y U6 con grandes funciones y precios amigables

Hisense continúa su impulso para arrostrar la tecnología de televisión de próxima gestación al manifiesto militar sin pagar mucho capital, presentando su raya ULED MiniLED 2026 con las nuevas series…

Nscale recauda 2.000 millones de dólares Serie C con una valoración de 14.600 millones de dólares

El hiperescalador del Reino Unido ha recaudado más de 4.500 millones de dólares en rondas de acciones en menos de seis meses y dice que es la Serie C más…

You Missed

Hisense lanceta las series 2026 U7 y U6 con grandes funciones y precios amigables

Hisense lanceta las series 2026 U7 y U6 con grandes funciones y precios amigables

Arrestan a mujer acusada de maltratar a una pupila en jardín de infantes – Remolacha

Arrestan a mujer acusada de maltratar a una pupila en jardín de infantes – Remolacha

Multitudes abarrotan calles de Irán en apoyo al nuevo ayatolá | AlMomento.net

Multitudes abarrotan calles de Irán en apoyo al nuevo ayatolá | AlMomento.net

La inflación en México sube en febrero al 4.02% e hila dos meses al ascenso

La inflación en México sube en febrero al 4.02% e hila dos meses al ascenso

pensó que habría sido ​“chimba” emanar hombre

pensó que habría sido ​“chimba” emanar hombre

Nscale recauda 2.000 millones de dólares Serie C con una valoración de 14.600 millones de dólares

Nscale recauda 2.000 millones de dólares Serie C con una valoración de 14.600 millones de dólares