Liquid AI’s LFM2-VL proporciona a los teléfonos inteligentes pequeños modelos de visión de IA

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora

Liquid Ai ha descocado LFM2-VLuna nueva concepción de modelos de saco en el idioma de visión diseñados para una implementación válido en una amplia grado de hardware, desde teléfonos inteligentes y computadoras portátiles hasta wearables y sistemas integrados.

Los modelos prometen un rendimiento de herido latencia, una resistente precisión y flexibilidad para aplicaciones del mundo existente.

LFM2-VL se zócalo en el existente Obra LFM2 Introducido hace poco más de un mes. La compañía dice que ofrece los “modelos de cimientos en el mercado más rápidos en el mercado” gracias a su enfoque de difundir “pesos” o configuraciones de maniquí en la mosca para cada entrada (conocido como un sistema de variable de entrada rectilíneo (LIV)), lo que lo extiende al procesamiento multimodal que admite las entradas de texto y de imágenes en resoluciones variables.

Según Liquid AI, los modelos entregan hasta el doble de la velocidad de inferencia de GPU de modelos comparables en idioma de visión, al tiempo que mantienen un rendimiento competitivo en puntos de narración comunes.

AI Scaling alcanza sus límites

Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:

Convertir la energía en una delantera estratégica

Obra de inferencia válido para ganancias reales de rendimiento

Desbloquear ROI competitivo con sistemas de IA sostenibles

Asegure su área para mantenerse a la vanguardia: https://bit.ly/4mwgngo

“La eficiencia es nuestro producto”, el cofundador y CEO de Liquid AI Ramin Hasani en una publicación sobre X anunciando la nueva tribu maniquí:

Conozca LFM2-VL: un maniquí válido en idioma de visión líquida para la clase de dispositivo. Pesos abiertos, 440m y 1.6b, hasta 2 × más rápido en GPU con precisión competitiva, nativo de 512 × 512, parches inteligentes para imágenes grandes.
La eficiencia es nuestro producto @Liquidai_
descargarlos en @huggingface: … pic.twitter.com/3lze6hc6ys
– Ramin Hasani (@Ramin_M_H) 12 de agosto de 2025

Dos variantes para diferentes evacuación

El tiro incluye dos tamaños de maniquí:

LFM2-VL-450M -Un maniquí hipereficiente con menos de medio mil millones de parámetros (configuración interna) dirigida a entornos en extremo limitados por bienes.

LFM2-VL-1.6B -Un maniquí más capaz que permanece lo suficientemente desvergonzado para la implementación basada en GPU y de dispositivos.

Ambas variantes procesan imágenes a resoluciones nativas de hasta 512×512 píxeles, evitando la distorsión o la ampliación innecesaria.

Para imágenes más grandes, el sistema aplica parches no superpuestos y agrega una miniatura para el contexto integral, lo que permite al maniquí capturar tanto detalles finos como la decorado más amplia.

Circunstancias sobre AI puro

Liquid AI fue fundada por ex investigadores del Laboratorio de Informática e Inteligencia Sintético del MIT (CSAIL) con el objetivo de construir arquitecturas de IA que se muevan más allá del maniquí de transformador ampliamente utilizado.

La innovación insignia de la compañía, los modelos de Foundation Liquid (LFMS), se basan en principios de sistemas dinámicos, procesamiento de señales y álgebra rectilíneo numérica, produciendo modelos de IA de uso caudillo capaces de manejar texto, video, audio, series de tiempo y otros datos de secuenciales.

A diferencia de las arquitecturas tradicionales, el enfoque de Liquid tiene como objetivo ofrecer un rendimiento competitivo o superior utilizando significativamente menos bienes computacionales, lo que permite la adaptabilidad en tiempo existente durante la inferencia mientras mantiene los bajos requisitos de memoria. Esto hace que LFMS sea adecuado tanto para casos de uso empresarial a gran escalera como para implementaciones de bordes limitados por bienes.

En julio, la compañía amplió su organización de plataforma con el tiro de la plataforma Liquid Edge AI (LEAP), un SDK multiplataforma diseñado para solucionar que los desarrolladores ejecutaran modelos de idioma pequeños directamente en dispositivos móviles e integrados.

Leap ofrece soporte descreído de OS para iOS y Android, integración con los modelos de Liquid’s y otros SLM de código hendido, y una biblioteca incorporada con modelos tan pequeños como 300 MB, lo suficientemente pequeños para teléfonos modernos con RAM mínima.

Su aplicación complementaria, Apollo, permite a los desarrolladores probar modelos completamente fuera de bisectriz, alineándose con el vigor de Liquid AI en la IA de herido latencia de preservación de la privacidad. Juntos, Leap y Apolo reflejan el compromiso de la compañía con la descentralización de la ejecución de la IA, reduciendo la dependencia de la infraestructura en la nimbo y capacitar a los desarrolladores para construir modelos optimizados y específicos de tareas para entornos del mundo existente.

Compensaciones de velocidad/calidad y diseño técnico

LFM2-VL utiliza una inmueble modular que combina una columna vertebral del maniquí de idioma, un codificador de visión NAFLEX SIGLIP2 y un proyector multimodal.

El proyector incluye un conector MLP de dos capas con píxeles desacoplables, reduciendo el número de tokens de imagen y mejorando el rendimiento.

Los usuarios pueden ajustar parámetros, como el número mayor de tokens o parches de imagen, lo que les permite equilibrar la velocidad y la calidad según el marco de implementación. El proceso de capacitación involucró aproximadamente 100 mil millones de tokens multimodales, procedentes de conjuntos de datos abiertos y datos sintéticos internos.

Rendimiento y puntos de narración

Los modelos logran resultados de narración competitivos en una grado de evaluaciones en idioma de visión. LFM2-VL-1.6B obtiene un buen puntaje en RealWorldqa (65.23), InfoVQA (58.68) y Ocrbench (742), y mantiene resultados sólidos en tareas de razonamiento multimodal.

En pruebas de inferencia, LFM2-VL logró los tiempos de procesamiento de GPU más rápidos en su clase cuando se probó en una carga de trabajo habitual de una imagen 1024×1024 y un aviso corto.

Licencias y disponibilidad

Los modelos LFM2-VL están disponibles ahora en la cara de indisposición, adjunto con el ejemplo de código de ajuste fino en Colab. Son compatibles con abrazando transformadores faciales y TRL.

Los modelos se lanzan bajo una “Atrevimiento LFM1.0” personalizada. Liquid AI ha descrito esta inmoralidad basada en los principios de Apache 2.0, pero el texto completo aún no se ha publicado.

La compañía ha indicado que el uso comercial se permitirá bajo ciertas condiciones, con diferentes términos para empresas superiores y inferiores a $ 10 millones en ingresos anuales.

Con LFM2-VL, Liquid AI tiene como objetivo hacer que la IA multimodal de parada rendimiento sea más accesible para implementaciones en dispositivos y bienes limitados, sin inmolar la capacidad.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jerarca, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.