¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora
El aumento de las características de investigación profunda y otros exploración propulsados por la IA han cedido ocupación a más modelos y servicios que buscan simplificar ese proceso y estudiar más de los documentos que las empresas efectivamente usan.
Compañía de IA canadiense Agregarse IS es bancarde de sus modelos, incluido un maniquí visual recientemente arrojado, para argumentar que las características de investigación profunda asimismo deben optimizarse para los casos de uso empresarial.
La compañía ha arrojado Command A Vision, un maniquí visual específicamente dirigido a casos de uso empresarial, construidos en la parte posterior de su comando un maniquí. El maniquí de parámetros de 112 mil millones puede “desbloquear información valiosa de los datos visuales y tomar decisiones enormemente precisas basadas en datos a través del inspección de caracteres ópticos (OCR) y el exploración de imágenes”, dice la compañía.
“Ya sea que se trate de interpretar manuales de productos con diagramas complejos o analizar fotografías de escenas del mundo efectivo para la detección de riesgos, la visión sobresale para atracar los desafíos de visión empresarial más exigentes”, dijo la compañía “, dijo la compañía”, dijo la compañía “, dijo En una publicación de blog.
La serie AI Impact regresa a San Francisco – 5 de agosto
La venidero etapa de IA está aquí: ¿estás sagaz? Únase a los líderes de Block, GSK y SAP para una visión monopolio de cómo los agentes autónomos están remodelando los flujos de trabajo empresariales, desde la toma de decisiones en tiempo efectivo hasta la automatización de extremo a extremo.
Asegure su ocupación ahora: el espacio es condicionado: https://bit.ly/3guuplf
Esto significa que el comando una visión puede estudiar y analizar los tipos más comunes de imágenes que las empresas necesitan: gráficos, gráficos, diagramas, documentos escaneados y PDF.
Regalado que se fundamento en la bloque del comando A, el comando una visión requiere dos o menos GPU, al igual que el maniquí de texto. El maniquí de visión asimismo conserva las capacidades de texto del comando A para estudiar palabras en imágenes y comprende al menos 23 idiomas. Cohere dijo que, a diferencia de otros modelos, el comando una visión reduce el costo total de propiedad para las empresas y está completamente optimizado para los casos de uso de recuperación para las empresas.
¿Cómo cohere está arquitectando el comando un
Cohere dijo que siguió a un Edificación de Llav Para construir su comando, un modelos, incluido el maniquí visual. Esta bloque convierte las características visuales en tokens de visión suave, que se pueden dividir en diferentes mosaicos.
Estos mosaicos se pasan al comando una torre de texto, “un denso y 111B parámetros textuales LLM”, dijo la compañía. “De esta modo, una sola imagen consume hasta 3,328 fichas”.
Cohere dijo que entrenó el maniquí visual en tres etapas: alineamiento en idioma de visión, ajuste fino supervisado (SFT) y educación de refuerzo posterior al entrenamiento con comentarios humanos (RLHF).
“Este enfoque permite el mapeo de las características del codificador de imágenes para el espacio de incrustación del maniquí de jerga”, dijo la compañía. “Por el contrario, durante la etapa SFT, entrenamos simultáneamente al codificador de visión, el adaptador de visión y el maniquí de jerga en un conjunto diverso de tareas multimodales que siguen instrucciones”.
Visualización de Enterprise AI
Las pruebas de narración mostraron que el comando es una visión que supera a otros modelos con capacidades visuales similares.
Cohere se enfrenta una visión contra Opadai‘S GPT 4.1, Meta’s Vehemencia 4 Maverick, MistralS PIXTRAL Gran y Medio Medio 3 en nueve pruebas de narración. La compañía no mencionó si probó el maniquí contra la API centrada en OCR de Mistral, Mistral OCR.
Comandar una visión superó a los otros modelos en pruebas como Chartqa, Ocrbench, AI2D y TextVQA. En genérico, el Comando A Visión tuvo una puntuación promedio de 83.1% en comparación con el 78.6% de GPT 4.1, LLAMA 4 Maverick’s 80.5% y el 78.3% de Medio Mistral 3.
La mayoría de los modelos de idiomas grandes (LLM) en estos días son multimodales, lo que significa que pueden ocasionar o comprender medios visuales como fotos o videos. Sin requisa, las empresas generalmente usan documentos más gráficos, como gráficos y PDF, por lo que extraer información de estas fuentes de datos no estructuradas a menudo resulta difícil.
Con una investigación profunda sobre el aumento, la importancia de traer modelos capaces de estudiar, analizar e incluso descargar datos no estructurados ha crecido.
Cohere asimismo dijo que está ofreciendo una visión en un sistema de mancuerna abiertas, con la esperanza de que las empresas que buscan alejarse de los modelos cerrados o propietarios comiencen a usar sus productos. Hasta ahora, hay algún interés de los desarrolladores.






