El nuevo maniquí de visión de Cohere se ejecuta en dos GPU, Beats VLMS de primer nivel en tareas visuales

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora

El aumento de las características de investigación profunda y otros exploración propulsados por la IA han cedido ocupación a más modelos y servicios que buscan simplificar ese proceso y estudiar más de los documentos que las empresas efectivamente usan.

Compañía de IA canadiense Agregarse IS es bancarde de sus modelos, incluido un maniquí visual recientemente arrojado, para argumentar que las características de investigación profunda asimismo deben optimizarse para los casos de uso empresarial.

La compañía ha arrojado Command A Vision, un maniquí visual específicamente dirigido a casos de uso empresarial, construidos en la parte posterior de su comando un maniquí. El maniquí de parámetros de 112 mil millones puede “desbloquear información valiosa de los datos visuales y tomar decisiones enormemente precisas basadas en datos a través del inspección de caracteres ópticos (OCR) y el exploración de imágenes”, dice la compañía.

“Ya sea que se trate de interpretar manuales de productos con diagramas complejos o analizar fotografías de escenas del mundo efectivo para la detección de riesgos, la visión sobresale para atracar los desafíos de visión empresarial más exigentes”, dijo la compañía “, dijo la compañía”, dijo la compañía “, dijo En una publicación de blog.

La serie AI Impact regresa a San Francisco – 5 de agosto

La venidero etapa de IA está aquí: ¿estás sagaz? Únase a los líderes de Block, GSK y SAP para una visión monopolio de cómo los agentes autónomos están remodelando los flujos de trabajo empresariales, desde la toma de decisiones en tiempo efectivo hasta la automatización de extremo a extremo.

Asegure su ocupación ahora: el espacio es condicionado: https://bit.ly/3guuplf

Esto significa que el comando una visión puede estudiar y analizar los tipos más comunes de imágenes que las empresas necesitan: gráficos, gráficos, diagramas, documentos escaneados y PDF.

? @agregarse Acabo de dejar caer una visión en @huggingface ?
Diseñado para casos de uso multimodal empresarial: interpretar manuales de productos, analizar fotos, preguntar sobre gráficos … ❓ ??
Un maniquí de jerga de visión denso de 112B con rendimiento de SOTA: consulte las métricas de narración en … pic.twitter.com/ormfm5f8cf
– Jeff Boudier? (@JeffBoudier) 31 de julio de 2025

Regalado que se fundamento en la bloque del comando A, el comando una visión requiere dos o menos GPU, al igual que el maniquí de texto. El maniquí de visión asimismo conserva las capacidades de texto del comando A para estudiar palabras en imágenes y comprende al menos 23 idiomas. Cohere dijo que, a diferencia de otros modelos, el comando una visión reduce el costo total de propiedad para las empresas y está completamente optimizado para los casos de uso de recuperación para las empresas.

¿Cómo cohere está arquitectando el comando un

Cohere dijo que siguió a un Edificación de Llav Para construir su comando, un modelos, incluido el maniquí visual. Esta bloque convierte las características visuales en tokens de visión suave, que se pueden dividir en diferentes mosaicos.

Estos mosaicos se pasan al comando una torre de texto, “un denso y 111B parámetros textuales LLM”, dijo la compañía. “De esta modo, una sola imagen consume hasta 3,328 fichas”.

Cohere dijo que entrenó el maniquí visual en tres etapas: alineamiento en idioma de visión, ajuste fino supervisado (SFT) y educación de refuerzo posterior al entrenamiento con comentarios humanos (RLHF).

“Este enfoque permite el mapeo de las características del codificador de imágenes para el espacio de incrustación del maniquí de jerga”, dijo la compañía. “Por el contrario, durante la etapa SFT, entrenamos simultáneamente al codificador de visión, el adaptador de visión y el maniquí de jerga en un conjunto diverso de tareas multimodales que siguen instrucciones”.

Visualización de Enterprise AI

Las pruebas de narración mostraron que el comando es una visión que supera a otros modelos con capacidades visuales similares.

Cohere se enfrenta una visión contra Opadai‘S GPT 4.1, Meta’s Vehemencia 4 Maverick, MistralS PIXTRAL Gran y Medio Medio 3 en nueve pruebas de narración. La compañía no mencionó si probó el maniquí contra la API centrada en OCR de Mistral, Mistral OCR.

Permite a los agentes ver de forma segura los datos visuales de su estructura, desbloqueando la automatización de tareas tediosas que involucran diapositivas, diagramas, PDF y fotos. pic.twitter.com/ihznuwekrk
– Cohere (@cohere) 31 de julio de 2025

Comandar una visión superó a los otros modelos en pruebas como Chartqa, Ocrbench, AI2D y TextVQA. En genérico, el Comando A Visión tuvo una puntuación promedio de 83.1% en comparación con el 78.6% de GPT 4.1, LLAMA 4 Maverick’s 80.5% y el 78.3% de Medio Mistral 3.

La mayoría de los modelos de idiomas grandes (LLM) en estos días son multimodales, lo que significa que pueden ocasionar o comprender medios visuales como fotos o videos. Sin requisa, las empresas generalmente usan documentos más gráficos, como gráficos y PDF, por lo que extraer información de estas fuentes de datos no estructuradas a menudo resulta difícil.

Con una investigación profunda sobre el aumento, la importancia de traer modelos capaces de estudiar, analizar e incluso descargar datos no estructurados ha crecido.

Cohere asimismo dijo que está ofreciendo una visión en un sistema de mancuerna abiertas, con la esperanza de que las empresas que buscan alejarse de los modelos cerrados o propietarios comiencen a usar sus productos. Hasta ahora, hay algún interés de los desarrolladores.

¡Muy impresionado por su precisión extrayendo notas escritas a mano a mano de una imagen!
– Adam Sardo (@sardo_adam) 31 de julio de 2025

Finalmente, una IA que no juzgará a mis terribles garabatos.
– Martha Wisener? (@Martwisener) 1 de agosto de 2025

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jerarca, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

El nuevo maniquí de visión de Cohere se ejecuta en dos GPU, Beats VLMS de primer nivel en tareas visuales

¿Cómo cohere está arquitectando el comando un

Visualización de Enterprise AI

ztevenreal

Related Posts

iFixit derriba el nuevo MacBook Neo, le gusta (la veterano parte) de lo que ve

Las próximas GPU RDNA 5 de AMD podrían mejorar la ejecución de doble problema y utilizar unidades de sombreado de forma más competente: el parche LLVM agrega nuevas instrucciones FMA para favorecer la compilación

You Missed

Razones por las que cayó la rentabilidad de las empresas eléctricas

iFixit derriba el nuevo MacBook Neo, le gusta (la veterano parte) de lo que ve

Amy Madigan deseo el Óscar a Mejor Actriz de Reparto por Weapons

“K-Pop Demon Hunters” apetencia mejor película animada y “The Girl Who Cried Pearls” mejor cortometraje animado en los Oscar

alimentos con grasas saludables que ayudan a cuidar el corazón

Las próximas GPU RDNA 5 de AMD podrían mejorar la ejecución de doble problema y utilizar unidades de sombreado de forma más competente: el parche LLVM agrega nuevas instrucciones FMA para favorecer la compilación