Únase al evento confiable por los líderes empresariales durante casi dos décadas. VB Transform reúne a las personas que construyen una logística de IA empresarial vivo. Obtenga más información
La querida francesa de IA Mistral mantiene los nuevos lanzamientos este verano.
Solo unos días posteriormente de anunciar su propio servicio estrato de la estrato Optimizado de AI-COMAL, la compañía acertadamente financiada tiene lanzó una modernización a su maniquí de código despejado de parámetros 24B MISTRAL Smallsaltando de una lectura 3.1 a 3.2-24b instructcu-2506.
La nueva lectura se pedestal directamente en Mistral Small 3.1, con el objetivo de mejorar los comportamientos específicos, como la ulterior instrucción, la estabilidad de salida y la función que claridad a la robustez. Si acertadamente los detalles arquitectónicos generales permanecen sin cambios, la modernización introduce refinamientos específicos que afectan tanto las evaluaciones internas como los puntos de narración públicos.
Según la IA Mistral, Small 3.2 es mejor para incorporarse a instrucciones precisas y reduce la probabilidad de generaciones infinitas o repetitivas, un problema que ocasionalmente se ve en versiones anteriores al manejar indicaciones largas o ambiguas.
Del mismo modo, la plantilla de llamadas de funciones se ha actualizado para amparar escenarios de uso de herramientas más confiables, particularmente en marcos como VLLM.
Y al mismo tiempo, podría ejecutarse en una configuración con una sola GPU NVIDIA A100/H100 80GB, abriendo drásticamente las opciones para las empresas con posibles de enumeración ajustados y/o presupuestos.
Un maniquí actualizado posteriormente de solo 3 meses
Mistral Small 3.1 se anunció en marzo de 2025 como un impulso despejado insignia en el rango de parámetros 24B. Ofreció capacidades multimodales completas, comprensión multilingüe y procesamiento de contexto liberal de hasta 128k tokens.
El maniquí se posicionó explícitamente contra pares patentados como GPT-4O Mini, Claude 3.5 Haiku y Gemma 3-IT, y, según Mistral, los superó en muchas tareas.
Small 3.1 además enfatizó la implementación competente, con reclamos de inferencia de ejecución a 150 tokens por segundo y soporte para el uso en el dispositivo con 32 GB de RAM.
Ese impulso llegó con puntos de control de saco e instruye, ofreciendo flexibilidad para ajustar a través de dominios como campos legales, médicos y técnicos.
En contraste, Small 3.2 se centra en las mejoras quirúrgicas al comportamiento y la confiabilidad. No tiene como objetivo introducir nuevas capacidades o cambios en la cimentación. En cambio, actúa como una lectura de mantenimiento: exactitud de casos de borde en la engendramiento de salida, ajuste del cumplimiento de las instrucciones y la refinación de interacciones indicadoras del sistema.
Pequeño 3.2 vs. pequeño 3.1: ¿Qué cambió?
Los puntos de narración de seguimiento de instrucciones muestran una mejoría pequeña pero medible. La precisión interna de Mistral aumentó de 82.75% en un pequeño 3.1 a 84.78% en 3.2 pequeños.

Del mismo modo, el rendimiento en conjuntos de datos externos como Wildbench V2 y Arena Hard V2 mejoró significativamente: Wildbench aumentó en casi 10 puntos porcentuales, mientras que Arena se duplicó más que duplicado, saltando de 19.56% a 43.10%.
Las métricas internas además sugieren una repetición de salida limitada. La tasa de generaciones infinitas cayó del 2.11% en la pequeña 3.1 a 1.29% en 3.2 pequeñas, casi una reducción de 2 ×. Esto hace que el maniquí sea más confiable para los desarrolladores que crean aplicaciones que requieren respuestas constantes y limitadas.
El rendimiento a través del texto y los puntos de narración de codificación presenta una imagen más matizada. Small 3.2 mostró ganancias en Humaneval Plus (88.99% a 92.90%), MBPP Pass@5 (74.63% a 78.33%) y SimpleQA. Todavía mejoró modestamente los resultados de MMLU Pro y Math.

Los puntos de narración de visión siguen siendo principalmente consistentes, con ligeras fluctuaciones. Chartqa y Docvqa vieron ganancias marginales, mientras que AI2D y Mathvista cayeron en menos de dos puntos porcentuales. El rendimiento de la visión promedio disminuyó sutilmente de 81.39% en un pequeño 3.1 a 81.00% en un pequeño 3.2.

Esto se alinea con la intención declarada de Mistral: Small 3.2 no es una revisión del maniquí, sino un refinamiento. Como tal, la mayoría de los puntos de narración están internamente de la varianza esperada, y algunas regresiones parecen ser compensaciones para mejoras específicas en otros lugares.
Sin bloqueo, como heredero e influencer de AI Power @chatgpt21 publicado en x: “Empeoró en MMLU”, lo que significa el ámbito de narración masivo de comprensión de habla múltiple, una prueba multidisciplinaria con 57 preguntas diseñadas para evaluar el rendimiento de LLM amplio en todos los dominios. De hecho, Small 3.2 obtuvo un puntaje 80.50%, sutilmente por debajo del 80.62%de 3.1.
La atrevimiento de código despejado lo hará más atractivo para los usuarios conscientes de costos y personalizados
Tanto 3.1 y 3.2 están disponibles bajo la atrevimiento Apache 2.0 y se puede ingresar a través de la popular. Repositorio de intercambio de códigos de IA Cara abrazada (en sí misma una startup con sede en Francia y Nueva York).
Small 3.2 es compatible con marcos como VLLM y Transformers y requiere aproximadamente 55 GB de RAM GPU para ejecutarse en precisión BF16 o FP16.
Para los desarrolladores que buscan construir o servir aplicaciones, se proporcionan indicaciones del sistema y ejemplos de inferencia en el repositorio de modelos.
Si acertadamente Mistral Small 3.1 ya está integrado en plataformas como Google Cloud Vertex AI y está programado para la implementación en NVIDIA NIM y Microsoft Azure, Small 3.2 actualmente parece establecido al comunicación a sí mismo a través de la implementación de la cara y la implementación directa.
Lo que las empresas deben aprender al considerar Mistral Small 3.2 para sus casos de uso
Mistral Small 3.2 puede no cambiar el posicionamiento competitivo en el espacio maniquí de peso despejado, pero representa el compromiso de la IA Mistral con el refinamiento del maniquí iterativo.
Con mejoras notables en la confiabilidad y el manejo de tareas, particularmente en torno a la precisión de la instrucción y el uso de la utensilio, Small 3.2 ofrece una experiencia de heredero más limpia para los desarrolladores y empresas que se basan en el ecosistema maltral.
El hecho de que sea hecho por una startup francesa y que cumple con las reglas y regulaciones de la UE como GDPR y la Ley de AI de la UE además lo hace atractivo para las empresas que trabajan en esa parte del mundo.
Aún así, para aquellos que buscan los saltos más grandes en el rendimiento de narración, Small 3.1 sigue siendo un punto de narración, especialmente cubo que en algunos casos, como MMLU, Small 3.2 no supera a su predecesor. Eso hace que la modernización sea más una opción centrada en la estabilidad que una modernización pura, dependiendo del caso de uso.





