¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora
La IA física, donde se unen los modelos de robótica y fundación, se está convirtiendo rápidamente en un espacio en crecimiento con empresas como Nvidia, Google y Meta Liberar la investigación y tantear en la fusión de modelos de idiomas grandes (LLM) con robots.
Una nueva investigación del Allen Institute for AI (AI2) tiene como objetivo desafiar a Nvidia y Google en IA física con la independencia de Molmoact 7b, un nuevo maniquí de código libre que permite que los robots “razonen en el espacio. Molmoact, basado en el código libre de AI2,” cree “en tres dimensiones. Incluso está liberando sus datos de entrenamiento. AI2 tiene una atrevimiento de apache 2.0 para la atrevimiento del maniquí, por lo que los datos de las tres dimensiones. CC BY-4.0.
AI2 clasifica a Molmoact como un maniquí de razonamiento de batalla, en el que los modelos de fundación razonan sobre las acciones interiormente de un espacio físico 3D.
Lo que esto significa es que Molmoact puede usar sus capacidades de razonamiento para comprender el mundo físico, planificar cómo ocupa el espacio y luego tomar esa batalla.
AI Scaling alcanza sus límites
Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:
- Convertir la energía en una preeminencia estratégica
- Inmueble de inferencia válido para ganancias reales de rendimiento
- Desbloquear ROI competitivo con sistemas de IA sostenibles
Asegure su oportunidad para mantenerse a la vanguardia: https://bit.ly/4mwgngo
“Molmoact tiene un razonamiento en las capacidades de espacio 3D frente a los modelos tradicionales de acción-lengua (VLA)”, dijo AI2 a VentureBeat en un correo electrónico. “La mayoría de los modelos de robótica son VLA que no piensan o razonan en el espacio, pero Molmoact tiene esta capacidad, lo que lo hace más performiente y generalizable desde un punto de pinta arquitectónico”.
Comprensión física
Hexaedro que los robots existen en el mundo físico, AI2 afirma que Molmoact ayuda a los robots a tomar su entorno y tomar mejores decisiones sobre cómo interactuar con ellos.
“Molmoact podría aplicarse en cualquier oportunidad que una máquina tenga que razonar sobre su entorno físico”, dijo la compañía. “Lo pensamos principalmente en un entorno casero porque ahí es donde se encuentra el veterano desafío para la robótica, porque las cosas son irregulares y cambian constantemente, pero Molmoact se puede aplicar en cualquier oportunidad”.
Molmoact puede comprender el mundo físico al ocasionar “tokens de percepción espacialmente fundamentados”, que son tokens previos a la aparición y extraídos utilizando un autoencoder variacional cuantiado con vector o un maniquí que convierte las entradas de datos, como video, en tokens. La compañía dijo que estos tokens difieren de los utilizados por los VLA en que no son entradas de texto.
Estos permiten que Molmoact obtenga una comprensión espacial y codifica estructuras geométricas. Con estos, el maniquí estima la distancia entre objetos.
Una vez que tiene una distancia estimada, Molmoact predice una secuencia de puntos de remisión o puntos de “espacio de imagen” en el dominio donde puede establecer una ruta. A posteriori de eso, el maniquí comenzará a ocasionar acciones específicas, como dejar caer un protección por unas pocas pulgadas o estirarse.
Los investigadores de AI2 dijeron que pudieron hacer que el maniquí se adaptara a diferentes realizaciones (es sostener, un protección mecánico o un autómata humanoide) “con un ajuste minúsculo minúsculo”.
Las pruebas de evaluación comparativa realizada por AI2 mostraron que Molmoact 7b tenía una tasa de éxito de tareas del 72.1%, superando los modelos de Google, Microsoft y nvidia.
Un pequeño paso delante
La investigación de AI2 es la última en servirse los beneficios únicos de LLM y VLM, especialmente a medida que el ritmo de innovación en la IA generativa continúa creciendo. Los expertos en el campo ven el trabajo de AI2 y otras compañías tecnológicas como bloques de construcción.
Alan Fern, profesor en el Oregon State University College of Engineeringle dijo a VentureBeat que la investigación de AI2 “representa una progresión natural en la mejoría de los VLM para la robótica y el razonamiento físico”.
“Si acertadamente no lo llamaría revolucionario, es un importante paso delante en el mejora de modelos de razonamiento físico 3D más capaz”, dijo Fern. “Su enfoque en la comprensión de la panorama verdaderamente 3D, en oportunidad de esperar en modelos 2D, marca un cambio trascendente en la dirección correcta. Han realizado mejoras sobre modelos anteriores, pero estos puntos de remisión aún no alcanzan la complejidad del mundo vivo y siguen siendo relativamente controlados y de naturaleza alegre”.
Agregó que si acertadamente todavía hay beneficio de mejoría en los puntos de remisión, está “ansioso por probar este nuevo maniquí en algunas de nuestras tareas de razonamiento físico”.
Daniel Maturana, cofundador de la nueva empresa Cosechar aielogió la tolerancia de los datos, señalando que “esta es una gran anuncio porque el mejora y la capacitación de estos modelos es costoso, por lo que esta es una pulvínulo sólida para construir y ajustar para otros laboratorios académicos e incluso para aficionados dedicados”.
Aumento del interés en la IA física
Ha sido un sueño de larga data para muchos desarrolladores e informáticos crear robots más inteligentes, o al menos más conscientes espacialmente.
Sin retención, construir robots que procesan lo que pueden “ver” rápidamente y moverse y reaccionar sin problemas se vuelve difícil. Antaño del comienzo de LLMS, los científicos tenían que codificar cada movimiento. Lógicamente, esto significaba mucho trabajo y menos flexibilidad en los tipos de acciones robóticas que pueden ocurrir. Ahora, los métodos basados en LLM permiten que los robots (o al menos los brazos robóticos) determinen las siguientes acciones posibles que tomen en función de los objetos con los que está interactuando.
Google Research’s Proponer Ayuda a un autómata razón sobre las tareas que usan un LLM, lo que permite al autómata determinar la secuencia de movimientos necesarios para conseguir un objetivo. OK-Androide de la Universidad de Meta y Nueva York utiliza modelos de idioma visual para la planificación del movimiento y la manipulación de objetos.
Cara abrazada Lanzó un autómata de escritorio de $ 299 en un esfuerzo por democratizar el mejora de la robótica. Nvidia, que proclamó la IA física para ser la próxima gran tendencia, lanzó varios modelos para acelerar el entrenamiento robótico, incluido Cosmos-Transfer1.
El helecho de OSU dijo que hay más interés en la IA física a pesar de que las demostraciones siguen siendo limitadas. Sin retención, la búsqueda para conseguir la inteligencia física normal, que elimina la condición de programar las acciones individuales para los robots, se está volviendo más viable.
“El paisaje es más desafiante ahora, con menos frutos menos bajos. Por otro flanco, los grandes modelos de inteligencia física todavía están en sus primeras etapas y están mucho más maduras para avances rápidos, lo que hace que este espacio sea particularmente emocionante”, dijo.






