
Lvmin zhang y Giruben colaboración con Maneesh Agrawala en la Universidad de Stanford, ha presentado FramePack esta semana. FramePack ofrece una implementación actos de la difusión de video utilizando un contexto temporal de largura fija para un procesamiento más capaz, lo que permite videos más largos y de maduro calidad. Un maniquí de parámetros de 13 mil millones construido con la bloque de FramePack puede suscitar un clip de 60 segundos con solo 6 GB de memoria de video.
FramePack es una bloque de red neuronal que utiliza técnicas de optimización de varias etapas para habilitar la engendramiento de videos de IA locales. Al momento de escribir este artículo, se dice que la GUI de FramePack ejecuta un maniquí personalizado con sede en Hunyuan bajo el capó, aunque el trabajo de investigación menciona que los modelos previamente capacitados existentes pueden ajustarse utilizando FramePack.
Los modelos de difusión típicos procesan datos de marcos ruidosos generados previamente para predecir el posterior ámbito un poco menos ruidoso. El número de marcos de entrada considerados para cada predicción se fogata largura del contexto temporal, que crece con el tamaño del video. Los modelos de difusión de video normalizado exigen una gran piscina VRAM, con 12 GB de ser un punto de partida global. Claro, puede escaparse con la suya con menos memoria, pero eso tiene costo de clips más cortos, pequeño calidad y tiempos de procesamiento más largos.
Ingrese FramePack: una nueva bloque que comprime los marcos de entrada, según su importancia, en una largura de contexto de tamaño fijo, reduciendo drásticamente la sobrecarga de la memoria de GPU. Todos los cuadros deben comprimirse para converger en un remate superior deseado para la largura de contexto. Los autores describen los costos computacionales como similares a la difusión de imágenes.
Anejo con las técnicas para mitigar la “deriva”, donde la calidad se degrada con la largura del video, FramePack ofrece una engendramiento de video más larga sin un compromiso significativo para la fidelidad. Tal como está, FramePack requiere una GPU de la serie RTX 30/40/50 con soporte para los formatos de datos FP16 y BF16. No se ha verificado el soporte de arquitecturas de Turing y mayores, sin mencionar el hardware AMD/Intel. Linux además se encuentra entre los sistemas operativos compatibles.
Encima de las GPU RTX 3050 4GB, la mayoría de las GPU modernas (RTX) cumplen o exceden los criterios de 6GB. En términos de velocidad, un RTX 4090 puede repartir hasta 0.6 cuadros/segundo (optimizado con Teacache), por lo que su kilometraje variará según su maleable gráfica. De cualquier modo, cada cuadro se mostrará posteriormente de que se genere, proporcionando feedback visual inmediata.
El maniquí empleado probablemente tenga un remate de 30 fps, que podría ser limitante para muchos usuarios. Dicho esto, en oficio de abandonarse en costosos servicios de terceros, FramePack está allanando el camino para hacer que la engendramiento de videos de IA sea más accesible para el consumidor promedio. Incluso si no eres un creador de contenido, esta es una útil barragana para hacer GIF, memes y otras cosas. Sé que lo intentaré en mi tiempo atrevido.