Z.ai presenta GLM-4.6V de código campechano, un maniquí de visión de emplazamiento de herramientas nativo para razonamiento multimodal

La startup china de IA Zipu AI además conocida como Z.ai ha animado su serie GLM-4.6Vuna nueva concepción de modelos de habla de visión (VLM) de código campechano optimizados para el razonamiento multimodal, la automatización frontend y la implementación de suscripción eficiencia.

El dispersión incluye dos modelos en "amplio" y "pequeño" tamaños:

GLM-4.6V (106B)un maniquí más amplio de 106 mil millones de parámetros destinado a la inferencia a escalera de cúmulo
GLM-4.6V-Flash (9B)un maniquí más pequeño de solo 9 mil millones de parámetros diseñado para aplicaciones locales de muerto latencia

Recuerde que, en términos generales, los modelos con más parámetros (o configuraciones internas que rigen su comportamiento, es asegurar, ponderaciones y sesgos) son más potentes, eficaces y capaces de desempeñarse a un nivel común más suspensión en tareas más variadas.

Sin secuestro, los modelos más pequeños pueden ofrecer una mejor eficiencia para aplicaciones perimetrales o en tiempo existente donde la latencia y las limitaciones de fortuna son críticas.

La innovación que define esta serie es la presentación de emplazamiento a función nativa en un maniquí de visión-lenguaje, que permite el uso directo de herramientas como búsqueda, recortadura o gratitud de gráficos con entradas visuales.

Con una largo de contexto de 128.000 tokens (equivalente al texto de una novelística de 300 páginas intercambiado en una única interacción de entrada/salida con el afortunado) y resultados de última concepción (SoTA) en más de 20 puntos de narración, la serie GLM-4.6V se posiciona como una alternativa enormemente competitiva a los VLM tanto cerrados como de código campechano. Está adecuado en los siguientes formatos:

Paso API a través de una interfaz compatible con OpenAI
Pruebe la demostración en la interfaz web de Zhipu
Descargar mancuerna de abrazar la cara
Aplicación de asistente de escritorio adecuado en Abrazar espacios faciales

Licencias y uso empresarial

GLM‑4.6V y GLM‑4.6V‑Flash se distribuyen bajo el MI abusouna abuso permisiva de código campechano que permite el uso, modificación, redistribución e implementación nave, comercial y no comercial, sin obligación de rajar trabajos derivados.

Este maniquí de abuso hace que la serie sea adecuada para la acogida empresarial, incluidos escenarios que requieren control total sobre la infraestructura, cumplimiento de la gobernanza interna o entornos aislados.

Los pesos y la documentación de los modelos están alojados públicamente en abrazando la caracon código de soporte y herramientas disponibles en GitHub.

La abuso MIT garantiza la máxima flexibilidad para la integración en sistemas propietarios, incluidas herramientas internas, procesos de producción e implementaciones perimetrales.

Edificio y capacidades técnicas

Los modelos GLM-4.6V siguen una edificio codificador-decodificador convencional con adaptaciones significativas para entrada multimodal.

Los dos modelos incorporan un codificador Vision Transformer (ViT), basado en AIMv2-Huge, y un proyector MLP para alinear características visuales con un decodificador de maniquí de habla amplio (LLM).

Las entradas de vídeo se benefician de las convoluciones 3D y la compresión temporal, mientras que la codificación espacial se maneja mediante 2D-RoPE e interpolación bicúbica de incrustaciones posicionales absolutas.

Una característica técnica secreto es la compatibilidad del sistema con resoluciones de imagen y relaciones de aspecto arbitrarias, incluidas entradas panorámicas amplias de hasta 200:1.

Adicionalmente del disección de imágenes estáticas y documentos, GLM-4.6V puede ingerir secuencias temporales de fotogramas de vídeo con tokens de marca de tiempo explícitos, lo que permite un razonamiento temporal sólido.

En el flanco de la decodificación, el maniquí admite la concepción de tokens alineados con protocolos de emplazamiento de funciones, lo que permite un razonamiento estructurado en texto, imágenes y resultados de herramientas. Esto está respaldado por un vocabulario ampliado de tokenizadores y plantillas de formato de salida para asegurar una compatibilidad consistente con la API o el agente.

Uso de herramientas multimodales nativas

GLM-4.6V introduce llamadas de funciones multimodales nativas, lo que permite suceder activos visuales (como capturas de pantalla, imágenes y documentos) directamente como parámetros a las herramientas. Esto elimina la requisito de conversiones intermedias de solo texto, que históricamente han introducido pérdida de información y complejidad.

El mecanismo de invocación de herramientas funciona bidireccionalmente:

A las herramientas de entrada se les pueden suceder imágenes o vídeos directamente (por ejemplo, páginas de documentos para recortar o analizar).
Las herramientas de salida, como los renderizadores de gráficos o las utilidades de instantáneas web, devuelven datos visuales, que GLM-4.6V integra directamente en la prisión de razonamiento.

En la actos, esto significa que el GLM-4.6V puede realizar tareas como:

Producir informes estructurados a partir de documentos de formato cerilla
Realización de auditoría visual de imágenes candidatas.
Recortar automáticamente figuras de papeles durante la concepción
Realizar búsquedas web visuales y contestar consultas multimodales.

Puntos de narración de suspensión rendimiento en comparación con otros modelos de tamaño similar

GLM-4.6V se evaluó en más de 20 puntos de narración públicos que abarcan VQA común, comprensión de gráficos, OCR, razonamiento STEM, replicación anterior y agentes multimodales.

Según el boceto de narración publicado por Zhipu AI:

GLM-4.6V (106B) logra puntuaciones SoTA o casi SoTA entre modelos de código campechano de tamaño comparable (106B) en MMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench y más.
GLM-4.6V-Flash (9B) supera a otros modelos livianos (por ejemplo, Qwen3-VL-8B, GLM-4.1V-9B) en casi todas las categorías probadas.
La ventana de 128K token del maniquí 106B le permite exceder a modelos más grandes como Step-3 (321B) y Qwen3-VL-235B en tareas de documentos de contexto abundante, resúmenes de video y razonamiento multimodal estructurado.

Ejemplos de puntuaciones de la tabla de clasificación incluyen:

MathVista: 88,2 (GLM-4.6V) frente a 84,6 (GLM-4.5V) frente a 81,4 (Qwen3-VL-8B)
WebVoyager: 81,0 frente a 68,4 (Qwen3-VL-8B)
Prueba Ref-L4: 88,9 frente a 89,5 (GLM-4.5V), pero con mejor fidelidad de conexión a tierra en 87,7 (Flash) frente a 86,8

Los dos modelos se evaluaron utilizando el backend de inferencia vLLM y admiten SGLang para tareas basadas en video.

Automatización frontend y flujos de trabajo de contexto abundante

Zhipu AI enfatizó la capacidad del GLM-4.6V para reconocer flujos de trabajo de progreso frontend. El maniquí puede:

Replica HTML/CSS/JS con precisión de píxeles a partir de capturas de pantalla de la interfaz de afortunado
Acepte comandos de estampación de habla natural para modificar diseños.
Identificar y manipular componentes específicos de la interfaz de afortunado visualmente.

Esta capacidad está integrada en una interfaz de programación visual de un extremo a otro, donde el maniquí itera sobre el diseño, la intención del diseño y el código de salida utilizando su comprensión nativa de las capturas de pantalla.

En escenarios de documentos largos, GLM-4.6V puede procesar hasta 128 000 tokens, lo que permite una única transferencia de inferencia:

150 páginas de texto (entrada)
200 plataformas de diapositivas
vídeos de 1 hora

Zhipu AI informó sobre el uso exitoso del maniquí en el disección financiero de corpus de múltiples documentos y en el epítome de retransmisiones deportivas completas con detección de eventos con marca de tiempo.

Entrenamiento y formación por refuerzo

El maniquí se entrenó mediante un preentrenamiento de múltiples etapas seguido de un ajuste fino supervisado (SFT) y formación por refuerzo (RL). Las innovaciones secreto incluyen:

Muestreo curricular (RLCS): ajusta dinámicamente la dificultad de entrenar muestras según el progreso del maniquí.
Sistemas de remuneración multidominio: verificadores de tareas específicas para STEM, razonamiento boceto, agentes GUI, control de calidad por video y conexión a tierra espacial
Capacitación con gratitud de funciones: utiliza etiquetas estructuradas (p. ej., , , <|begin_of_box|>) para alinear el razonamiento y el formato de las respuestas.

El proceso de formación por refuerzo enfatiza las recompensas verificables (RLVR) sobre la feedback humana (RLHF) para ganar escalabilidad y evita las pérdidas de KL/entropía para estabilizar el entrenamiento en dominios multimodales.

Precios (API)

Zhipu AI ofrece precios competitivos para la serie GLM-4.6V, con el maniquí insignia y su reforma liviana posicionados para una suscripción accesibilidad.

GLM-4.6V: $0,30 (entrada) / $0,90 (salida) por 1 millón de tokens
GLM-4.6V-Flash: De gorra

En comparación con los principales LLM con capacidad de visión y texto primero, GLM-4.6V se encuentra entre los más rentables para el razonamiento multimodal a escalera. A continuación se muestra una instantánea comparativa de los precios entre proveedores:

USD por 1 millón de tokens: clasificados como el más bajo → el costo total más suspensión

Maniquí	Aporte	Producción	Costo total	Fuente
Qwen3 Turbo	$0.05	$0.20	$0.25	Nubarrón de Alibaba
ERNIE 4.5 Turbo	$0.11	$0.45	$0.56	Qianfan
GLM-4.6V	$0.30	$0.90	$1.20	Z.AI
Grok 4.1 Rápido (razonamiento)	$0.20	$0.50	$0.70	xAI
Grok 4.1 Rápido (sin razonamiento)	$0.20	$0.50	$0.70	xAI
chat de búsqueda profunda (V3.2-Exp)	$0.28	$0.42	$0.70	búsqueda profunda
razonador de búsqueda profunda (V3.2-Exp)	$0.28	$0.42	$0.70	búsqueda profunda
Qwen 3 Plus	$0.40	$1.20	$1.60	Nubarrón de Alibaba
ERNIE 5.0	$0.85	$3.40	$4.25	Qianfan
qwen-max	$1.60	$6.40	$8.00	Nubarrón de Alibaba
GPT-5.1	$1.25	$10.00	$11.25	AbiertoAI
Géminis 2.5 Pro (≤200K)	$1.25	$10.00	$11.25	Google
Géminis 3 Pro (≤200K)	$2.00	$12.00	$14.00	Google
Géminis 2.5 Pro (>200K)	$2.50	$15.00	$17.50	Google
Grok 4 (0709)	$3.00	$15.00	$18.00	xAI
Géminis 3 Pro (>200K)	$4.00	$18.00	$22.00	Google
Cerrar Trabajo 4.1	$15.00	$75.00	$90.00	antrópico

Lanzamientos anteriores: Serie GLM‑4.5 y aplicaciones empresariales

Antiguamente de GLM‑4.6V, Z.ai lanzó la tribu GLM‑4.5 a mediados de 2025, lo que estableció a la empresa como un serio competidor en el progreso de LLM de código campechano.

El buque insignia GLM‑4.5 y su hermano último GLM‑4.5‑Air admiten el razonamiento, el uso de herramientas, la codificación y los comportamientos agentes, al tiempo que ofrecen un rendimiento sólido en los puntos de narración en serie.

Los modelos introdujeron modos de razonamiento duales (“pensamiento” y “no pensamiento”) y podían ocasionar automáticamente presentaciones completas de PowerPoint a partir de un solo mensaje, una característica preparada para su uso en flujos de trabajo de informes empresariales, educación y comunicaciones internas. Z.ai además amplió la serie GLM‑4.5 con variantes adicionales como GLM‑4.5‑X, AirX y Flash, dirigidas a inferencias ultrarrápidas y escenarios de bajo costo.

Juntas, estas características posicionan a la serie GLM-4.5 como una alternativa rentable, abierta y relación para producción para empresas que necesitan autonomía sobre la implementación de modelos, la mandato del ciclo de vida y el proceso de integración.

Implicaciones para el ecosistema

El dispersión del GLM-4.6V representa un avance extraordinario en la IA multimodal de código campechano. Si correctamente durante el año pasado proliferaron grandes modelos de visión y habla, pocos ofrecen:

Uso de herramientas visuales integradas
Procreación multimodal estructurada
Memoria orientada a agentes y razonamiento de valentía.

El fuerza de Zhipu AI en “cerrar el círculo” de la percepción a la movimiento mediante la emplazamiento de funciones nativas marca un paso en torno a los sistemas multimodales agentes.

La edificio del maniquí y el proceso de capacitación muestran una desarrollo continua de la tribu GLM, posicionándola competitivamente inmediato a ofertas como GPT-4V de OpenAI y Gemini-VL de Google DeepMind.

Conclusión para los líderes empresariales

Con GLM-4.6V, Zhipu AI presenta un VLM de código campechano capaz de utilizar herramientas visuales nativas, razonamiento de contexto prolongado y automatización de interfaz. Establece nuevas marcas de rendimiento entre modelos de tamaño similar y proporciona una plataforma escalable para construir sistemas de IA multimodales y agentes..

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Z.ai presenta GLM-4.6V de código campechano, un maniquí de visión de emplazamiento de herramientas nativo para razonamiento multimodal

Licencias y uso empresarial

Edificio y capacidades técnicas

Uso de herramientas multimodales nativas

Puntos de narración de suspensión rendimiento en comparación con otros modelos de tamaño similar

Automatización frontend y flujos de trabajo de contexto abundante

Entrenamiento y formación por refuerzo

Precios (API)

Lanzamientos anteriores: Serie GLM‑4.5 y aplicaciones empresariales

Implicaciones para el ecosistema

Conclusión para los líderes empresariales

ztevenreal

Related Posts

Guatar su SSD al 100% no lo matará, pero podría hacerlo

Esta configuración de 3 widgets es la única pantalla de inicio de Android que necesitas

You Missed

Clubes deportivos del Distrito Doméstico se suman a organización doméstico de prevención y convivencia

¿Cuánto cobra un miembro por esconder un haitiano?

Ocupación de Sanidad y Foro realizarán actividades para conmemorar el Día Internacional de la Gusto

Guatar su SSD al 100% no lo matará, pero podría hacerlo

COD garantiza billete equipo béisbol en olimpíadas 2028

MEXICO: Merienda muertos deja activo contra cártel Sinaloa | AlMomento.net