¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora
Ha pasado un poco más de un mes desde que la startup china de IA Deepseek, una rama de High-Kong Haber Management con sede en Hong Kong, lanzó la última traducción de su exitoso maniquí de código amplio Deepseek, R1-0528.
Al igual que su predecesor, Deepseek-R1, que sacudió a las comunidades comerciales de IA y entero con lo saldo que estaba capacitado y qué tan perfectamente se desempeñó en las tareas de razonamiento, todas disponibles para los desarrolladores y empresas de forma gratuita: R1-0528 ya está siendo adaptado y remezclado por otros laboratorios y desarrolladores de IA, gracias en gran parte por su inmoralidad de apache de apache 2.0 permisiva.
Esta semana, la empresa alemana de 24 abriles TNG Technology Consulting GmbH lanzó uno Tal acondicionamiento: Deepseek-tng r1t2 quimerael extremo maniquí en su grupo Chimera Language Model (LLM). R1T2 ofrece un impulso importante en eficiencia y velocidad, anotando a más de 90% de los puntajes de narración de inteligencia de R1-0528mientras se genera respuestas con Menos del 40% del recuento de tokens de salida de R1-0528.
Eso significa que produce respuestas más cortas, traduciendo directamente en inferencia más rápida y costos de cálculo más bajos. En la polímero maniquí TNG puyazo para su nuevo R1T2 en la cara de estrujón de la comunidad compartida de código AI, la compañía afirma que es “aproximadamente un 20% más rápido que el R1 regular” (el resuelto en enero) “y más del doble de R1-0528” (la puesta al día oficial de mayo de Deepseek).
La respuesta ya ha sido increíblemente positiva en la comunidad de desarrolladores de IA. “¡Maldita sea! en x. “Significativamente mejor que R1 en GPQA & AIME 24, realizado a través de un ensamblaje de expertos con DS V3, R1 y R1-0528, y es universitario en MIT, arreglado en la cara abrazada”.
Esta provecho es posible posible por el método de ensamblaje de expertos (AOE) de TNG, una técnica para construir LLM fusionando selectivamente los tensores de peso (parámetros internos) de múltiples modelos previamente capacitados que TNG describió en un Documento publicado en mayo En ARXIV, la revista en diámetro de Open Access Online revisó Open en diámetro.
Un sucesor de la quimera R1T innovador, R1T2 presenta una nueva configuración “Tri-Mind” que integra tres modelos principales: Deepseek-R1-0528, Deepseek-R1 y Deepseek-V3-0324. El resultado es un maniquí diseñado para perdurar una entrada capacidad de razonamiento al tiempo que reduce significativamente el costo de inferencia.
R1T2 se construye sin más ajuste o reentrenamiento. Hereda la fuerza de razonamiento de R1-0528, los patrones de pensamiento estructurados de R1 y el comportamiento conciso y orientado a la instrucción de V3-0324, que ofrece un maniquí más efectivo pero capaz para el uso empresarial y de investigación.
Cómo se diferencia el ensamblaje de expertos (AOE) de la mezcla de expertos (MOE)
La mezcla de expertos (MOE) es un diseño arquitectónico en el que diferentes componentes o “expertos” se activan condicionalmente por entrada. En MOE LLM como Deepseek-V3 o Mixtral, solo un subconjunto de las capas expertas del maniquí (por ejemplo, 8 de 256) están activos durante el pase con destino a delante de cualquier token cedido. Esto permite que los modelos muy grandes logren recuentos y especialización de parámetros más altos mientras mantienen los costos de inferencia manejables, porque solo se evalúa una fracción de la red por token.
El ensamblaje de expertos (AOE) es una técnica de fusión de modelos, no una construcción. Se utiliza para crear un nuevo maniquí a partir de múltiples modelos MOE previamente capacitados interpolando selectivamente sus tensores de peso.
Los “expertos” en AOE se refieren a los componentes del maniquí que se fusionan, generalmente los tensores de expertos enrutados internamente de las capas MOE, no los expertos activados dinámicamente en tiempo de ejecución.
La implementación de TNG de AOE se centra principalmente en fusionar tensores de expertos enrutados, la parte de un maniquí más responsable del razonamiento especializado, al tiempo que conserva las capas compartidas y de atención más eficientes de modelos más rápidos como V3-0324. Este enfoque permite que los modelos de quimera resultantes hereden la fuerza del razonamiento sin replicar la verbosidad o la latencia de los modelos principales más fuertes.
Rendimiento y velocidad: lo que muestran en realidad los puntos de narración
Según las comparaciones de narración presentadas por TNG, R1T2 logra entre 90% y 92% del rendimiento de razonamiento de su padre más inteligente, Deepseek-R1-0528, medido por AIME-24, AIME-25 y los conjuntos de pruebas GPQA-Diamond.

Sin retención, a diferencia de Deepseek-R1-0528, que tiende a producir respuestas largas y detalladas conveniente a su razonamiento extendido de la sujeción de pensamiento, R1T2 está diseñado para ser mucho más conciso. Ofrece respuestas igualmente inteligentes mientras usa significativamente menos palabras.
En superficie de centrarse en el tiempo de procesamiento en bruto o las tokens por segundo, TNG mide la “velocidad” en términos de Recuento de token de salida por respuesta – Un proxy práctico tanto por costo como para la latencia. Según los puntos de narración compartidos por TNG, R1T2 genera respuestas utilizando Aproximadamente el 40% de las tokens Requerido por R1-0528.
Que se traduce en un Reducción del 60% en la largo de salidaque reduce directamente el tiempo de inferencia y calcula la carga, acelerando las respuestas en 2X, o 200%.
En comparación con el innovador Deepseek-R1, R1T2 incluso está cerca 20% más conciso en promedioofreciendo ganancias significativas en eficiencia para implementaciones de parada rendimiento o sensibles a los costos.
Esta eficiencia no tiene costo de inteligencia. Como se muestra en la tabla de narración presentada en el documento técnico de TNG, R1T2 se encuentra en una zona deseable en la curva de costo de inteligencia frente a de salida. Preserva la calidad del razonamiento al tiempo que minimiza la verbosidad, un resultado crítico para las aplicaciones empresariales donde la velocidad, el rendimiento y el costo de la inferencia.
Consideraciones de implementación y disponibilidad
R1T2 se garrocha bajo una inmoralidad MIT permisiva y ahora está arreglado en la cara de estrujón, lo que significa que es de código amplio y está arreglado para ser utilizado y integrado en aplicaciones comerciales.
TNG señala que si perfectamente el maniquí es adecuado para tareas de razonamiento universal, actualmente no se recomienda para casos de uso que requieren llamadas a funciones o uso de herramientas, conveniente a limitaciones heredadas de su categoría Deepseek-R1. Estos pueden abordarse en futuras actualizaciones.
La compañía incluso aconseja a los usuarios europeos que evalúen el cumplimiento de la Ley de AI de la UE, que entra en vigencia el 2 de agosto de 2025.
Las empresas que operan en la UE deben revisar las disposiciones relevantes o considerar detener el uso del maniquí a posteriori de esa data si no se pueden cumplir los requisitos.
Sin retención, las empresas estadounidenses que operan a nivel franquista y que atienden a los usuarios con sede en los Estados Unidos, o las de otras naciones, son no Sujeto a los términos de la Ley de AI de la UE, que debería darles una flexibilidad considerable al usar e implementar este maniquí de razonamiento de código amplio regalado y rápido. Si atienden a los usuarios en la UE, algunos Las disposiciones de la Ley de la UE aún se aplicarán.
TNG ya ha puesto a disposición variantes de quimera previas a través de plataformas como OpenRouter y Chutes, donde, según los informes, procesaron miles de millones de tokens todos los días. La huida de R1T2 representa una crecimiento adicional en este esfuerzo de disponibilidad pública.
Acerca de TNG Technology Consulting GmbH
Fundado en enero de 2001, TNG Technology Consulting GmbH Tiene su sede en Baviera, Alemania, y emplea a más de 900 personas, con una entrada concentración de doctorados y especialistas técnicos.
La compañía se centra en el mejora de software, la inteligencia fabricado y los servicios de DevOps/en la nimbo, que atiende a los principales clientes empresariales en todas las industrias, como telecomunicaciones, seguros, automotriz, comercio electrónico y provisión.
TNG opera como una asociación de consultoría basada en títulos. Su estructura única, basada en la investigación operativa y los principios de autogobierno, respalda una civilización de innovación técnica.
Contribuye activamente a las comunidades e investigaciones de código amplio, como se demuestra a través de lanzamientos públicos como R1T2 y la publicación de su metodología de la Asamblea de Expertos.
Lo que significa para los tomadores de decisiones técnicas empresariales
Para los CTO, los propietarios de la plataforma de IA, los clientes potenciales de ingeniería y los equipos de adquisición de TI, R1T2 presenta beneficios tangibles y opciones estratégicas:
- Costos de inferencia más bajos: Con menos tokens de salida por tarea, R1T2 reduce el tiempo de GPU y el consumo de energía, que se traduce directamente en ahorros de infraestructura, especialmente importante en entornos de parada rendimiento o tiempo positivo.
- Entrada calidad de razonamiento sin gastos generales: Preserva gran parte del poder de razonamiento de los modelos de primer nivel como R1-0528, pero sin su larga alivio. Esto es ideal para tareas estructuradas (matemáticas, programación, dialéctica) donde las respuestas concisas son preferibles.
- Rajado y modificable: La inmoralidad del MIT permite el control y la personalización de la implementación completa, lo que permite el alojamiento privado, la línea del maniquí o la capacitación adicional en entornos regulados o recopilados por flato.
- Modularidad emergente: El enfoque AOE sugiere un futuro donde los modelos se construyen modularmente, lo que permite a las empresas ensamblar variantes especializadas recombinando las fuerzas de los modelos existentes, en superficie de reentrenarse desde cero.
- Advertencias: Las empresas que dependen de las funciones, el uso de la utensilio o la orquestación de agentes avanzados deben tener en cuenta las limitaciones actuales, aunque las futuras actualizaciones de quimera pueden chocar estas brechas.
TNG alienta a los investigadores, desarrolladores y usuarios empresariales a explorar el maniquí, probar su comportamiento y proporcionar comentarios. La quimera R1T2 está arreglado en huggingface.co/tngtech/deepseek-tng-r1t2-chimeray las consultas técnicas pueden dirigirse a investigar@tngtech.com.
Para obtener informes técnicos y metodología de narración, el trabajo de investigación de TNG está arreglado en ARXIV: 2506.14794.




