MiroThinker 1.5 de MiroMind ofrece un rendimiento de billones de parámetros desde un maniquí 30B, a 1/20 del costo

MiroThinker 1.5 de MiroMind ofrece un rendimiento de billones de parámetros desde un maniquí 30B, a 1/20 del costo

Unirse a las filas de un número creciente de modelos de razonamiento más pequeños y poderosos es Miro Pensador 1.5 de MiroMind, con solo 30 mil millones de parámetros, en comparación con los cientos de miles de millones o billones utilizados por los principales modelos básicos de lenguajes grandes (LLM).

Pero MiroThinker 1.5 se destaca entre estos razonadores más pequeños por una razón importante: ofrece capacidades de investigación agente que rivalizan con competidores de billones de parámetros como Kimi K2 y DeepSeek, a una fracción del costo de inferencia.

El divulgación marca un hito en el impulso cerca de agentes de IA eficientes y desplegables. Las empresas se han conocido obligadas durante mucho tiempo a nominar entre costosas llamadas API a modelos fronterizos o un rendimiento particular comprometido. MiroThinker 1.5 ofrece una tercera vía: modelos abiertos diseñados específicamente para el uso extendido de herramientas y el razonamiento de varios pasos.

Una de las mayores tendencias que están surgiendo en la industria es el alejamiento de agentes mucho especializados cerca de agentes más generalizados. Hasta hace poco, esa capacidad se limitaba en gran medida a los modelos propietarios. MiroThinker 1.5 representa un serio contendiente de peso hendido en este espacio. mira mi vídeo de youtube en él a continuación.

Reducción del aventura de alucinaciones mediante razonamiento verificable

Para los equipos de TI que evalúan la implementación de la IA, las alucinaciones siguen siendo la principal barrera para el uso de modelos abiertos en producción. MiroThinker 1.5 aborda esto a través de lo que MiroMind vehemencia “modo sabio”, un cambio arquitectónico fundamental en la forma en que el maniquí maneja la incertidumbre.

En empleo de crear respuestas estadísticamente plausibles a partir de patrones memorizados (la causa fundamental de la mayoría de las alucinaciones), MiroThinker está capacitado para ejecutar un ciclo de investigación verificable: proponer hipótesis, consultar fuentes externas en búsqueda de evidencia, identificar discrepancias, revisar conclusiones y confirmar nuevamente. Durante el entrenamiento, el maniquí es penalizado explícitamente por resultados de reincorporación confianza que carecen de soporte fuente.

La implicación ejercicio para la implementación empresarial es la auditabilidad. Cuando MiroThinker produce una respuesta, puede sacar a la luz tanto la cautiverio de razonamiento como las fuentes externas que consultó. Para sectores regulados como los de servicios financieros, sanitarios y jurídicos, esto crea un huella de documentación que los modelos basados ​​en la memorización no pueden proporcionar. Los equipos de cumplimiento pueden revisar no sólo las conclusiones del maniquí, sino todavía cómo llegó allí.

Este enfoque todavía reduce el problema de las “alucinaciones seguras” global en los sistemas de producción de IA. El maniquí está entrenado para agenciárselas demostración en empleo de descontextualizar cuando no hay certeza, un comportamiento que se traduce directamente en menos errores costosos.

Rendimiento de remisión: exceder su peso

Bajo este entorno, MiroThinker-v1.5-30B ofrece un rendimiento comparable al de modelos con hasta 30 veces más parámetros, incluido el maniquí Kimi-K2-Thinking de billones de parámetros.

En BrowseComp-ZH, un punto de remisión secreto para las capacidades de investigación web, el maniquí 30B en ingenuidad superó a su competidor de un billón de parámetros con una puntuación de 69,8.

El diferencial de costos es igualmente sobresaliente. MiroMind informa costos de inferencia tan bajos como 0,07 dólares por indicación para la variable 30B (aproximadamente una vigésima parte del costo de Kimi-K2-Thinking) adyacente con velocidades de inferencia más rápidas.

Una variable más amplio de 235B (con 22B de parámetros activos en una obra mixta de expertos) se ubica en el nivel superior entero en múltiples evaluaciones comparativas de agentes de búsqueda. En las evaluaciones de búsqueda agente caudillo, estos modelos se mantienen firmes frente a los sistemas de DeepSeek V3.2, Minimax, GLM y Kimi-K2.

En las pruebas, el maniquí más amplio se acerca al Gemini 3 Pro en varios puntos de remisión y se acerca más a los sistemas de clase GPT-5 de lo que podría sugerir su recuento de parámetros. Si aceptablemente progresar puntos de remisión es cada vez más global, lo que más importa es la competitividad caudillo, y MiroThinker se mantiene aceptablemente.

Uso extendido de herramientas: hasta 400 llamadas de herramientas por sesión

La capacidad que define a MiroThinker 1.5 es el uso sostenido de la útil.

Los modelos admiten hasta 256 000 tokens de contexto y afirman alojar hasta 400 llamadas de herramientas por sesión, un requisito crítico para flujos de trabajo de investigación complejos que implican una amplia resumen, síntesis y demostración cruzada de información.

Esto coloca a MiroThinker firmemente en la categoría emergente de modelos agentes diseñados para completar tareas de forma autónoma en empleo de preguntas y respuestas en un solo turno. Las aplicaciones prácticas incluyen flujos de trabajo de investigación profunda, canales de contenido, engendramiento de informes y resultados de estilo podcast similares a NotebookLM.

Innovación en formación: Sandbox urgente

Otra innovación importante en MiroThinker 1.5 es su Sandbox de entrenamiento sensible al tiempo.

El entrenamiento de modelos tradicional opera desde lo que MiroMind describe como una “visión de Altísimo”, donde el maniquí tiene comunicación a resultados finales internamente de conjuntos de datos estáticos, lo que crea un sesgo retrospectivo. La formación de MiroThinker elimina esa preeminencia.

Durante el entrenamiento, el maniquí solo puede interactuar con la información publicada antaño de una marca de tiempo determinada, lo que evita fugas futuras y lo obliga a razonar en condiciones realistas de información incompleta.

El proceso combina el ajuste supervisado con el enseñanza reforzado utilizando recompensas verificables a través de la optimización de políticas relativas al colección (GRPO), un cálculo liberal de enseñanza reforzado popularizado por DeepSeek, que anima al maniquí a distinguir la útil adecuada en el momento adecuado.

Este enfoque es especialmente relevante para casos de uso empresarial donde los modelos deben razonar sobre situaciones en cambio en empleo de recapacitar hechos estáticos.

Consideraciones prácticas de implementación

Para los equipos de TI que están considerando la implementación, los requisitos de hardware siguen siendo importantes. Incluso el maniquí 30B requiere una cantidad sustancial de memoria GPU y las configuraciones más pequeñas pueden tener dificultades.

Una preeminencia es la compatibilidad. MiroThinker se ejecuta en servidores vLLM con puntos finales API compatibles con OpenAI, lo que facilita la integración en cadenas de herramientas existentes y flujos de trabajo de indicación de funciones como un reemplazo directo.

Entreambos tamaños de maniquí están disponibles bajo la deshonestidad MIT permisiva y afectuoso para empresas en Hugging Face, y hay una demostración en vírgula habitable para su evaluación. La deshonestidad permisiva elimina barreras importantes para la implementación interna y el ajuste.

Panorama caudillo: escalado interactivo frente a escalado de parámetros

MiroThinker 1.5 llega cuando la industria enfrenta los límites de las leyes de escalamiento tradicionales. Los modelos más grandes ya no garantizan un mejor rendimiento en el mundo efectivo. Como ha señalado Industrial Analysis, muchos puntos de remisión están saturados, lo que empuja a la industria cerca de evaluaciones basadas en la utilidad económica en empleo de razonamientos abstractos nada más.

La puesta de MiroMind es el escalamiento interactivo: mejorar la capacidad a través de una interacción más profunda con las herramientas en empleo de un recuento de parámetros cada vez maduro. Si es correcto, esto podría habilitar agentes sofisticados en una infraestructura que no dependa de costosas API de frontera.

La empresa, fundada por Tianqiao Chen y el sabio de IA Jifeng Dai, describe su representación como construir “Inteligencia Nativa”: IA que razona a través de la interacción, no de la memorización.

Aún es una cuestión abierta si este enfoque se vuelve dominante o sigue siendo un hornacina especializado. Pero para las empresas que luchan con compensaciones entre costo y capacidad, MiroThinker 1.5 ofrece un noticia convincente: a veces, enseñar a un maniquí cómo investigar es más importante que enseñarle a recapacitar todo.

Related Posts

Su antiguo enrutador es un mejor punto de llegada dedicado que cualquier dilatador de malla que pueda comprar

Cuando la mayoría de la concurrencia piensa en extensores de malla, piensa en sin cables, en una configuración rápida y en una cobertura instantánea. Así se comercializan. Esa suposición de…

La Marcha de los Nueves de Karpathy muestra por qué el 90% de confiabilidad de la IA ni siquiera es suficiente

“Cuando obtienes una demostración y poco funciona el 90% de las veces, son solo los primeros nueve”. — Andrej Karpathy El “Marcha de los Nueve“enmarca una existencia de producción global:…

You Missed

Qué revela sustentar la observación fija durante una conversación, según la psicología

Qué revela sustentar la observación fija durante una conversación, según la psicología

Cómo acicalar la pantalla del televisor sin dañarla ni dejar manchas

Cómo acicalar la pantalla del televisor sin dañarla ni dejar manchas

Su antiguo enrutador es un mejor punto de llegada dedicado que cualquier dilatador de malla que pueda comprar

Su antiguo enrutador es un mejor punto de llegada dedicado que cualquier dilatador de malla que pueda comprar

Trump y presidentes latinoamericanos firman proclamación de “coalición marcial” contra carteles

Trump y presidentes latinoamericanos firman proclamación de “coalición marcial” contra carteles

Corte rechaza el intento de Trump de eliminar la protección temporal a 350.000 haitianos

Corte rechaza el intento de Trump de eliminar la protección temporal a 350.000 haitianos

Renuevo 2026 favorecerá bienes y al Gobierno (Opinión) | AlMomento.net

Renuevo 2026 favorecerá bienes y al Gobierno (Opinión) | AlMomento.net