Apple entrenó a un LLM para comprender eficientemente el video de forma larga

Los investigadores de Apple han desarrollado una interpretación adaptada del maniquí Slowfast-Llava que supera los modelos más grandes en el examen y la comprensión de video de forma larga. Esto es lo que eso significa.

Los bits nerd

Muy Básicamente, cuando un LLM está capacitado para comprender igualmente el video, aprende a dividir videos en marcos, aplicar la visión por computadora para extraer características visuales, analizar cómo cambian esas características con el tiempo y alinear todo eso con el idioma para que pueda describir o razonar sobre el video en forma de texto.

Una forma muy ineficiente de hacerlo es analizar cada cuadro de un video, lo que crea una cantidad abrumadora de información duplicada, ya que la mayoría de los cuadros rara vez incluyen cambios significativos de uno a otro.

Con esta abrumadora cantidad de información duplicada a la mano, es muy acomodaticio esfumarse más allá de la ventana de contexto de la LLM, que es la cantidad máxima de información que puede retener de inmediato. Una vez que un LLM excede su ventana de contexto, para que una conversación continúe, deja de tener en cuenta los tokens más antiguos para dejar espacio para otros nuevos, ya que predice cada nuevo token.

Por supuesto, hay formas más eficientes de entrenar Video LLMS (NVIDIA publicó recientemente un papel interesante Sobre esto), pero esta es la idea normal de tener en cuenta el estudio de Apple.

Estudio de Apple

Como los investigadores de Apple lo explican en el folleto Slowfast-Llava-1.5: una grupo de videos de videos de token grandes modelos de idioma para la comprensión de video de forma larga:

“Video ínclito modelos de idioma (LLMS) integran la percepción de video en LLM previas capacitados para procesar videos y originar respuestas a los comandos de los usuarios. Aunque se han realizado progresos significativos, quedan limitaciones notables en los LLM de video existentes”.

Las limitaciones, según ellos, son triple:

Los modelos existentes tienden a obedecer en gran medida de las ventanas de contexto largas y un gran número de marcos, que es ineficiente y no fácilmente transferible a modelos más pequeños;
La mayoría de ellos requieren tuberías de entrenamiento de varias etapas complejas (a menudo utilizando conjuntos de datos privados) que son difíciles de reproducir;
Muchos están optimizados solo para tareas de video, lo que limita su utilidad como modelos de propósito normal que igualmente entienden las imágenes.

Para invadir esas limitaciones, Apple primero analizó Slowfast-Llava, un maniquí de código campechano que ya había mostrado resultados prometedores al combinar señales espaciales y temporales a través de una configuración de dos flujos: una corriente lenta que mira menos cuadros con maduro detalle para capturar lo que está en la estampa, y una corriente rápida que mira más marcos en detalles más bajos para rastrear cómo las cosas se mueven sobre el tiempo.

Primero, Apple Slowfast-Llava en imágenes, para construir capacidades generales de razonamiento visual. Luego, fue capacitado conjuntamente en imágenes y videos (desde conjuntos de datos públicos), para asimilar la estructura temporal sin martirizar la comprensión de la imagen.

El resultado fue Slowfast-Llava-1.5 (o SF-LLAVA-1.5), una grupo de modelos a las escalas de parámetros 1b, 3b y 7b, que logra aventajar modelos mucho más grandes en una gradación de tareas de video, a veces “por márgenes significativos”, como lo señalaron los propios investigadores.

De hecho, en puntos de relato de video de forma larga como LongVideObench y MLVU, el maniquí de Apple establece nuevos resultados de vanguardia en todos los tamaños del maniquí, incluida su interpretación más pequeña, 1B y.

Encima, el maniquí igualmente supera una de las tres deficiencias observadas por los investigadores, y igualmente funciona proporcionadamente en las tareas de imagen, incluidos los puntos de relato para el conocimiento, el razonamiento matemático, el OCR y los escenarios ricos en texto.

El equipo incluso probó varias estrategias de compresión de video, pero descubrió que su configuración logró el mejor compensación entre la velocidad, la precisión y el recuento de tokens.

Aún así, hay limitaciones

Con SF-LLAVA-1.5, los investigadores de Apple decidieron que el maniquí tendría una distancia máxima de situación de entrada de 128.

Esto significa que si está analizando un clip que dura unos minutos o unas pocas horas, siempre alcanza el mayor de 128 cuadros, con 96 marcos espaciados uniformemente seleccionados para la corriente rápida, y 32 cuadros espaciados uniformemente seleccionados para la corriente lenta.

Con eso en mente, los investigadores dicen que:

“Este enfoque puede perderse algunos marcos secreto en los videos de forma larga y engañar al maniquí sobre la velocidad de reproducción de un video. (…) El rendimiento de SF-LLAVA-1.5 se puede mejorar aún más al ajustar todos los parámetros, incluidos el codificador visual. BP “.

Dicho esto, el enfoque de Apple lo convirtió en un maniquí de vanguardia, con las habilidades adicionales de ser entrenado exclusivamente en conjuntos de datos públicos. SF-LLAVA-1.5 es ahora un maniquí de código campechano apto en Girub y Cara abrazaday puedes encontrar el estudio completo en arxiv.

A continuación se presentan algunos ejemplos del maniquí en entusiasmo: