
Durante gran parte de 2025, la frontera de los modelos de jerigonza de peso hendido no se ha definido en Silicon Valley o la ciudad de Nueva York, sino en Beijing y Hangzhou.
Los laboratorios de investigación chinos, incluidos Qwen, DeepSeek, Moonshot y Baidu de Alibaba, han afectado rápidamente el ritmo en el expansión de modelos abiertos de mezcla de expertos (MoE) a gran escalera, a menudo con licencias permisivas y un rendimiento de narración líder. Si acertadamente OpenAI igualmente presentó su propio LLM de código hendido y de propósito caudillo este verano (gpt-oss-20B y 120B), la acogida ha sido ralentizado por tantas alternativas de igual o mejor rendimiento.
Ahora, una pequeña empresa estadounidense está contraatacando.
Hoy, Arcee Ai anunciado el impulso de Trinity Mini y Trinity Nano Preview, los dos primeros modelos de su nueva grupo “Trinity”, un conjunto de modelos MoE de peso hendido totalmente entrenado en los Estados Unidos.
Los usuarios pueden probar el primero directamente por sí mismos en formato chatbot en el nuevo sitio web de Acree. chat.arcee.aiy los desarrolladores pueden descargar el código para entreambos modelos en abrazando la cara y ejecutarlo ellos mismos, así como modificarlos/afinar a su gustillo, todo gratuito bajo una abuso Apache 2.0 para empresas.
Si acertadamente son pequeños en comparación con los modelos de frontera más grandes, estos lanzamientos representan un raro intento por parte de una startup estadounidense de construir modelos abiertos de extremo a extremo a escalera, entrenados desde cero, en infraestructura estadounidense, utilizando un conjunto de datos seleccionados en Estados Unidos.
"Estoy experimentando una combinación de orgullo extremo por mi equipo y agotamiento paralizante, por lo que me cuesta expresar con palabras lo emocionado que estoy de tener estos modelos." escribió Lucas Atkins, director de tecnología (CTO) de Arcee en una publicación en la red social X (anteriormente Twitter). "Especialmente Mini."
Un tercer maniquí, Trinity Large, ya está en entrenamiento: un maniquí de 420 mil millones de parámetros con 13 mil millones de parámetros activos por token, cuyo impulso está previsto para enero de 2026.
“Queremos asociar poco que faltaba en esa imagen”, escribió Atkins en el Manifiesto de impulso de Trinity publicado en el sitio web de Arcee. “Una grupo de modelos serios y abiertos entrenados de extremo a extremo en Estados Unidos… que las empresas y los desarrolladores positivamente pueden poseer”.
De modelos pequeños a ambiciones a escalera
El plan Trinity marca un punto de inflexión para Arcee AI, que hasta ahora era conocida por sus modelos compactos y centrados en la empresa. La compañía ha recaudado 29,5 millones de dólares en financiación hasta la plazo, incluida una Serie A de 24 millones de dólares en 2024 liderada por Emergence Caudal, y sus lanzamientos anteriores incluyen AFM-4.5B, un maniquí compacto cabal a instrucciones audaz a mediados de 2025, y SuperNova, un maniquí preparatorio de seguimiento de instrucciones de 70B parámetros diseñado para la implementación empresarial en VPC.
Entreambos tenían como objetivo resolver problemas regulatorios y de costos que afectan la acogida de LLM patentados en la empresa.
Con Trinity, Arcee apunta más detención: no solo ajuste de instrucciones o posentrenamiento, sino preentrenamiento completo de modelos básicos de peso hendido, creados para razonamiento de contexto prolongado, acoplamiento de datos sintéticos e integración futura con sistemas de reentrenamiento en vivo.
Originalmente concebidos como un trampolín con destino a Trinity Large, tanto Mini como Nano surgieron de una experimentación temprana con modelado escaso y rápidamente se convirtieron en objetivos de producción.
Aspectos técnicos destacados
Trinity Mini es un maniquí de parámetros de 26B con 3B activos por token, diseñado para razonamiento, emplazamiento de funciones y uso de herramientas de detención rendimiento. Trinity Nano Preview es un maniquí de parámetros de 6B con aproximadamente 800M de parámetros activos no integrados: un maniquí más empírico, centrado en el chat, con una personalidad más válido, pero último solidez de razonamiento.
Entreambos modelos utilizan la nueva casa Attention-First Mixture-of-Experts (AFMoE) de Arcee, un diseño MoE personalizado que combina escasez total, atención locorregional/total y técnicas de atención cerrada.
Inspirado por los avances recientes de DeepSeek y Qwen, AFMoE se aleja del MoE tradicional al integrar estrechamente el enrutamiento avezado disperso con una pila de atención mejorada, que incluye atención de consultas agrupadas, atención cerrada y un patrón locorregional/total que mejoramiento el razonamiento de contexto espléndido.
Piense en un maniquí característico del Servicio de Educación como un centro de llamadas con 128 agentes especializados (llamados “expertos”), pero solo se consulta a unos pocos para cada emplazamiento, dependiendo de la pregunta. Esto ahorra tiempo y energía, ya que no todos los expertos necesitan opinar.
Lo que diferencia a AFMoE es cómo decide a qué agentes emplazar y cómo combina sus respuestas. La mayoría de los modelos del MoE utilizan un enfoque normalizado que selecciona expertos basándose en una clasificación simple.
AFMoE, por el contrario, utiliza un método más suave (llamado enrutamiento sigmoideo) que se parece más a ajustar un dial de masa que a estimular un interruptor, lo que permite que el maniquí combine múltiples perspectivas con maduro elegancia.
La parte de “atención primero” significa que el maniquí se centra en gran medida en cómo presta atención a las diferentes partes de la conversación. Imagínese acertar una novelística y memorar algunas partes con más claridad que otras según su importancia, contemporaneidad o impacto emocional: eso es atención. AFMoE mejoramiento esto al combinar la atención locorregional (centrándose en lo que se acaba de proponer) con la atención total (recordando puntos esencia de antiguamente), usando un ritmo que mantiene las cosas equilibradas.
Finalmente, AFMoE introduce poco llamado atención cerrada, que actúa como un control de masa en cada salida de atención, ayudando al maniquí a resaltar o atenuar diferentes piezas de información según sea necesario, como ajustar cuánto le importa cada voz en una discusión grupal.
Todo esto está diseñado para hacer que el maniquí sea más estable durante el entrenamiento y más competente a escalera, de modo que pueda comprender conversaciones más largas, razonar con maduro claridad y ejecutarse más rápido sin condición de fortuna informáticos masivos.
A diferencia de muchas implementaciones de MoE existentes, AFMoE enfatiza la estabilidad en profundidad y la eficiencia del entrenamiento, utilizando técnicas como el enrutamiento basado en sigmoide sin pérdida auxiliar y la normalización de escalera profunda para asilar el escalamiento sin discrepancia.
Capacidades del maniquí
Trinity Mini adopta una casa MoE con 128 expertos, 8 activos por token y 1 avezado compartido siempre activo. Las ventanas de contexto alcanzan hasta 131.072 tokens, según el proveedor.
Los puntos de narración muestran que Trinity Mini se desempeña de forma competitiva con modelos más grandes en tareas de razonamiento, incluida la superación de gpt-oss en el punto de narración SimpleQA (prueba el conmemoración de los hechos y si el maniquí admite incertidumbre), MMLU (tiro cero, que mide el amplio conocimiento escolar y el razonamiento en muchos temas sin ejemplos) y BFCL V3 (evalúa la emplazamiento a funciones de varios pasos y el uso de herramientas en el mundo vivo):
-
MMLU (tiro cero): 84,95
-
Matemáticas-500: 92.10
-
GPQA-Diamante: 58,55
-
BFCL V3: 59,67
Las cifras de latencia y rendimiento de proveedores como Together y Clarifai muestran un rendimiento de más de 200 tokens por segundo con una latencia E2E inferior a tres segundos, lo que hace que Trinity Mini sea viable para aplicaciones interactivas y canalizaciones de agentes.
Trinity Nano, aunque es más pequeño y no tan estable en casos extremos, demuestra una escasa viabilidad de la casa MoE con menos de mil millones de parámetros activos por token.
Golpe, precios e integración del ecosistema
Entreambos modelos Trinity se lanzan bajo el entorno permisivo, cálido para las empresas, abuso apache 2.0permitiendo un uso comercial y de investigación sin restricciones. Trinity Mini está arreglado a través de:
Precios API para Trinity Mini a través de enrutador hendido:
-
0,045 dólares por millón de tokens de entrada
-
0,15 dólares por millón de tokens de salida
-
Hay un nivel de balde arreglado por tiempo pequeño en OpenRouter
El maniquí ya está integrado en aplicaciones como Benchable.ai, Open WebUI y SillyTavern. Es compatible con Hugging Face Transformers, VLLM, LM Studio y ardor.cpp.
Datos sin concesiones: el papel de DatologyAI
Un hábitat central del enfoque de Arcee es el control sobre los datos de entrenamiento, un afectado contraste con muchos modelos abiertos entrenados en conjuntos de datos extraídos de la web o legalmente ambiguos. Ahí es donde DatologíaAIuna startup de curación de datos cofundada por el ex investigador de Meta y DeepMind, Ari Morcos, desempeña un papel fundamental.
La plataforma de DatologyAI automatiza el filtrado de datos, la deduplicación y la mejoramiento de la calidad en todas las modalidades, lo que garantiza que el corpus de capacitación de Arcee evite los peligros del contenido ruidoso, sesgado o con aventura de derechos de autor.
Para Trinity, DatologyAI ayudó a construir un plan de estudios de 10 billones de tokens organizado en tres fases: 7T de datos generales, 1,8T de texto de ingreso calidad y 1,2T de material STEM, incluidas matemáticas y código.
Esta es la misma asociación que impulsó el AFM-4.5B de Arcee, pero aumentó significativamente tanto en tamaño como en complejidad. Según Arcee, fueron las herramientas de filtrado y clasificación de datos de Datology las que permitieron a Trinity resquilar limpiamente mientras mejoraban el rendimiento en tareas como matemáticas, control de calidad y uso de herramientas de agentes.
La contribución de la datología igualmente se extiende a la procreación de datos sintéticos. Para Trinity Large, la compañía ha producido más de 10 billones de tokens sintéticos, combinados con 10T de tokens web seleccionados, para formar un corpus de entrenamiento de 20T de tokens para el maniquí a gran escalera que ahora está en progreso.
Construyendo la infraestructura para competir: Prime Intellect
La capacidad de Arcee para ejecutar capacitación a gran escalera en los EE. UU. igualmente se debe a su socio de infraestructura, Mente principal. La startup, fundada a principios de 2024, comenzó con la cometido de democratizar el acercamiento a la computación de IA mediante la construcción de un mercado de GPU descentralizado y una pila de capacitación.
Si acertadamente Prime Intellect fue novedad con su capacitación distribuida de INTELLECT-1 (un maniquí de 10 mil millones de parámetros entrenado entre contribuyentes en cinco países), su trabajo más flamante, incluido el 106B INTELLECT-3, reconoce las ventajas y desventajas de la escalera: la capacitación distribuida funciona, pero para modelos de más de 100 mil millones, la infraestructura centralizada es aún más competente.
Para Trinity Mini y Nano, Prime Intellect suministró la pila de orquestación, el tiempo de ejecución de TorchTitan modificado y el entorno de enumeración físico: 512 GPU H200 en una canalización bf16 personalizada, ejecutando paralelismo HSDP de ingreso eficiencia. Asimismo alberga el clúster de GPU 2048 B300 utilizado para entrenar Trinity Large.
La colaboración muestra la diferencia entre marca y ejecución. Si acertadamente el objetivo a espléndido plazo de Prime Intellect sigue siendo la computación descentralizada, su valía a corto plazo para Arcee radica en una infraestructura de capacitación competente y transparente, infraestructura que permanece bajo territorio de EE. UU., con procedencia conocida y controles de seguridad.
Una desafío estratégica por un maniquí de soberanía
El impulso de Arcee con destino a una capacitación previa completa refleja una argumento más amplia: que el futuro de la IA empresarial dependerá de ser dueño del circuito de capacitación, no solo de su ajuste. A medida que los sistemas evolucionen para adaptarse al uso en vivo e interactuar con las herramientas de forma autónoma, el cumplimiento y el control de los objetivos de capacitación serán tan importantes como el desempeño.
“A medida que las aplicaciones se vuelven más ambiciosas, la frontera entre ‘maniquí’ y ‘producto’ sigue moviéndose”, señaló Atkins en el manifiesto Trinity de Arcee. “Para crear ese tipo de software es necesario controlar los pesos y el proceso de entrenamiento, no sólo la capa de instrucción”.
Este entorno distingue a Trinity de otros esfuerzos de peso hendido. En superficie de parchear el maniquí colchoneta de otra persona, Arcee ha construido el suyo propio (desde los datos hasta la implementación, desde la infraestructura hasta el optimizador) contiguo con socios que comparten esa visión de transigencia y soberanía.
Mirando con destino a el futuro: Trinity Large
Actualmente se está realizando capacitación para Trinity Large, el maniquí MoE de parámetros 420B de Arcee, utilizando la misma casa afmoe subida a un conjunto de expertos más magnate.
El conjunto de datos incluye tokens de 20T, divididos en partes iguales entre datos sintéticos de DatologyAI y datos seleccionados de wb.
Se dilación que el maniquí se acontecimiento el próximo mes de enero de 2026, y poco a posteriori se publicará un referencia técnico completo.
Si tiene éxito, convertiría a Trinity Large en uno de los únicos modelos a escalera de frontera totalmente abiertos y entrenados en los EE. UU., lo que posicionaría a Arcee como un actor serio en el ecosistema hendido en un momento en que la mayoría de los esfuerzos estadounidenses de LLM son cerrados o se basan en fundaciones fuera de los EE. UU.
Un nuevo compromiso con el código hendido de EE. UU.
En un panorama donde los modelos de peso hendido más ambiciosos están cada vez más moldeados por los laboratorios de investigación chinos, el impulso del Trinity de Arcee señala un raro cambio de dirección: un intento de recuperar ámbito para el expansión de modelos transparentes y controlados por Estados Unidos.
Respaldado por socios especializados en datos e infraestructura, y construido desde cero para una adaptabilidad a espléndido plazo, Trinity es una exposición audaz sobre el futuro del expansión de la IA en EE. UU., y muestra que las empresas pequeñas y menos conocidas aún pueden traspasar los límites e innovar de forma abierta, incluso cuando la industria está cada vez más productiva y mercantilizada.
Lo que queda por ver es si Trinity Large puede igualar las capacidades de sus pares mejor financiados. Pero con Mini y Nano ya en uso, y con una sólida colchoneta arquitectónica, Arcee puede que ya esté demostrando su argumento central: que la soberanía del maniquí, no solo el tamaño del maniquí, definirá la próxima era de la IA.






