
Únase al evento confiable por los líderes empresariales durante casi dos décadas. VB Transform reúne a las personas que construyen una logística de IA empresarial actual. Obtenga más información
Si proporcionadamente los modelos de idiomas grandes (LLM) han dominado el texto (y otras modalidades hasta cierto punto), carecen del “sentido global” físico para negociar en entornos dinámicos y del mundo actual. Esto ha condicionado el despliegue de IA en áreas como la fabricación y la transporte, donde comprender la causa y el impresión es crítico.
El posterior maniquí de Meta, V-Jepa 2da un paso en dirección a unir esta brecha al estudiar un maniquí mundial de videos e interacciones físicas.
V-JepA 2 puede ayudar a crear aplicaciones de IA que requieran predecir resultados y acciones de planificación en entornos impredecibles con muchos casos de borde. Este enfoque puede proporcionar un camino claro en dirección a robots más capaces y automatización vanguardia en entornos físicos.
Cómo un ‘maniquí mundial’ aprende a planificar
Los humanos desarrollan intuición física temprano en la vida observando su entorno. Si ve una pelota lanzazo, crees instintivamente su trayectoria y puedes predecir dónde aterrizará. V-JepA 2 aprende un “maniquí mundial” similar, que es la simulación interna de un sistema de IA de cómo funciona el mundo físico.
El maniquí se zócalo en tres capacidades centrales que son esenciales para las aplicaciones empresariales: comprender lo que está sucediendo en una espectáculo, predecir cómo la espectáculo cambiará en función de una acto y planifica una secuencia de acciones para conseguir un objetivo específico. Como meta estados en su blogsu “visión a amplio plazo es que los modelos mundiales permitirán a los agentes de IA planificar y razonar en el mundo físico”.
La casa del maniquí, citación Video Joint Incrushding Predictive Architecture (V-JEPA), consta de dos partes secreto. Un “codificador” mira un video clip y lo condena en un recopilación numeral compacto, conocido como incrustación. Esta incrustación captura la información esencial sobre los objetos y sus relaciones en la espectáculo. Un segundo componente, el “predictor”, toma este recopilación e imagina cómo evolucionará la espectáculo, generando una predicción de cómo será el próximo recopilación.

Esta casa es la última crecimiento del ámbito JEPA, que se aplicó por primera vez a las imágenes con I-JEPA y ahora avanza al video, lo que demuestra un enfoque consistente para construir modelos mundiales.
A diferencia de los modelos AI generativos que intentan predecir el color exacto de cada píxel en un ámbito futuro, una tarea computacionalmente intensiva, V-JepA 2 funciona en un espacio espiritual. Se centra en predecir las características de detención nivel de una espectáculo, como la posición y la trayectoria de un objeto, en motivo de su textura o detalles de fondo, lo que lo hace mucho más eficaz que otros modelos más grandes con solo 1.2 mil millones de parámetros
Eso se traduce en costos de enumeración más bajos y lo hace más adecuado para la implementación en entornos del mundo actual.
Memorizar de la observación y la acto
V-Jepa 2 está entrenado en dos etapas. Primero, construye su comprensión fundamental de la física a través del formación auto-supervisado, observando más de un millón de horas de videos de Internet sin etiquetar. Simplemente observando cómo los objetos se mueven e interactúan, desarrolla un maniquí mundial de uso caudillo sin ninguna derrotero humana.
En la segunda etapa, este maniquí previamente capacitado está preciso en un pequeño conjunto de datos especializado. Al procesar solo 62 horas de video que muestra un autómata que realiza tareas, conexo con los comandos de control correspondientes, V-JepA 2 aprende a conectar acciones específicas con sus resultados físicos. Esto da como resultado un maniquí que puede planificar y controlar las acciones en el mundo actual.

Esta capacitación en dos etapas permite una capacidad crítica para la automatización del mundo actual: planificación de robots cero. Un autómata impulsado por V-JEPA 2 puede implementarse en un nuevo entorno y manipular con éxito objetos que nunca antiguamente había enfrentado, sin privación de retornar a capacitarse para esa configuración específica.
Este es un avance significativo sobre los modelos anteriores que requerían datos de capacitación del exacto autómata y entorno donde operarían. El maniquí fue entrenado en un conjunto de datos de código franco y luego se implementó con éxito en diferentes robots en los laboratorios de Meta.
Por ejemplo, para completar una tarea como congregar un objeto, el autómata tiene una imagen de meta del resultado deseado. Luego usa el predictor V-JEPA 2 para afectar internamente un rango de posibles movimientos posibles. Obtiene cada acto imaginada en función de qué tan cerca se acerca a la meta, ejecuta la acto mejor calificada y repite el proceso hasta que se complete la tarea.
Utilizando este método, el maniquí logró tasas de éxito entre 65% y 80% en tareas de pick-y motivo con objetos desconocidos en nuevos entornos.
Impacto del mundo actual del razonamiento físico
Esta capacidad de planificar y comportarse en situaciones novedosas tiene implicaciones directas para las operaciones comerciales. En transporte y fabricación, permite robots más adaptables que pueden manejar variaciones en productos y diseños de almacén sin una reprogramación extensa. Esto puede ser especialmente útil ya que las empresas están explorando el despliegue de robots humanoides en fábricas y líneas de ensamblaje.
El mismo maniquí mundial puede suministrar prismáticos digitales mucho realistas, lo que permite a las empresas afectar nuevos procesos o capacitar a otros AIS en un entorno potencial físicamente preciso. En entornos industriales, un maniquí podría monitorear videos de maquinaria y, según su comprensión aprendida de la física, predecir problemas de seguridad y fallas antiguamente de que ocurran.
Esta investigación es un paso secreto en dirección a lo que Meta fogata “inteligencia de máquina vanguardia (AMI)”, donde los sistemas de IA pueden “estudiar sobre el mundo como lo hacen los humanos, planificar cómo ejecutar tareas desconocidas y adaptarse eficientemente al mundo en constante cambio que nos rodea”.
Meta ha publicado el maniquí y su código de entrenamiento y retraso “construir una comunidad amplia en torno a esta investigación, impulsando el progreso en dirección a nuestro objetivo final de desarrollar modelos mundiales que puedan variar la forma en que la IA interactúa con el mundo físico”.
Lo que significa para los tomadores de decisiones técnicas empresariales
V-JEPA 2 se acerca a la robótica al maniquí definido por software que los equipos en la nimbo ya reconocen: pre-entrenado una vez, implementan en cualquier motivo. Conveniente a que el maniquí aprende física caudillo del video divulgado y solo necesita unas pocas docenas de horas de imágenes específicas de la tarea, las empresas pueden resumir el ciclo de convento de datos que generalmente arrastra los proyectos piloto. En términos prácticos, puede prototipos de un autómata de selección y motivo en un remo de escritorio asequible, luego enrollar la misma política en una plataforma industrial en el asfalto de la manufactura sin reunir miles de muestras frescas o escribir scripts de movimiento personalizados.
La sobrecarga de capacitación más mengua incluso reforma la ecuación de costos. Con 1,2 mil millones de parámetros, V-JepA 2 se ajusta cómodamente en una sola GPU de reincorporación grado, y sus objetivos de predicción abstracta reducen aún más la carga de inferencia. Eso permite a los equipos ejecutar el control de circuito cerrado en el borde o en el borde, evitando la latencia de la nimbo y los dolores de persona de cumplimiento que vienen con videos de transmisión fuera de la planta. El presupuesto que una vez fue a grupos de enumeración masivos puede financiar sensores adicionales, exceso o ciclos de iteración más rápidos.