El nuevo maniquí de Apple recrea objetos 3D con pertenencias de iluminación realistas

Los investigadores de Apple han creado un maniquí de inteligencia sintético que reconstruye un objeto 3D a partir de una sola imagen, manteniendo al mismo tiempo reflejos, luces y otros pertenencias consistentes en diferentes ángulos de visión. Aquí están los detalles.

Un poco de contexto

Si aceptablemente el concepto de espacio escondido en el educación obligatorio no es exactamente nuevo, se ha vuelto más popular que nunca en los últimos primaveras, con la crisis de modelos de IA basados en la inmueble transformadora y, más recientemente, modelos mundiales.

En pocas palabras (y corriendo el aventura de ser un poco impreciso al explicar el panorama caudillo), “espacio escondido” o “espacio de incrustación” son términos que describen lo que sucede cuando:

Estrechar la información a representaciones numéricas de sus conceptos;
Organiza estos números en un espacio multidimensional, permitiendo calcular las distancias entre ellos para cada dimensión diferente.

Si esto todavía suena demasiado espiritual, un ejemplo clásico es obtener la representación matemática de la ficha “rey”, restar la representación matemática de la ficha “hombre”, ampliar la representación matemática de la ficha “mujer” y terminará en la región multidimensional caudillo de la ficha “reina”.

En términos prácticos, juntar información como representaciones matemáticas en el espacio escondido hace que sea más rápido y menos costoso computacionalmente calibrar distancias entre ellas y estimar la probabilidad de lo que debería generarse.

Aquí hay un video corto que explica el espacio escondido usando una equivalencia diferente:

Aunque los ejemplos anteriores se centran en juntar texto en espacio escondido, la misma idea se puede aplicar a muchos otros tipos de datos. Lo que nos lleva al estudio de Apple.

LiTo: tokenización del campo de luz de superficie

En el nuevo estudio de Apple, titulado LiTo: tokenización del campo de luz de superficielos investigadores “proponen una representación escondido en 3D que modela conjuntamente la geometría del objeto y la apariencia dependiente de la pinta”.

En otras palabras, crearon una guisa de representar, en el espacio escondido, no sólo cómo reedificar un objeto tridimensional, sino igualmente cómo debería aparecer la luz que interactúa con él desde diferentes ángulos.

Así lo explican:

La mayoría de los trabajos anteriores se centran en reedificar la geometría 3D o predecir la apariencia difusa independiente de la pinta y, por lo tanto, tienen dificultades para capturar pertenencias realistas dependientes de la pinta. Nuestro enfoque aprovecha que las imágenes de profundidad RGB proporcionan muestras de un campo de luz superficial. Al codificar submuestras aleatorias de este campo de luz superficial en un conjunto compacto de vectores latentes, nuestro maniquí aprende a representar tanto la geometría como la apariencia en el interior de un espacio escondido 3D unificado. Esta representación reproduce pertenencias dependientes de la pinta, como reflejos especulares y reflejos de Fresnel bajo una iluminación compleja.

Es más, los investigadores lograron entrenar el maniquí para que pueda hacer todo eso a partir de una sola imagen, en superficie de los métodos más comunes que requieren imágenes desde diferentes ángulos para permitir la reconstrucción 3D.

Si aceptablemente todo el método es mucho técnico y se explica en detalle en el estudio, la idea central es en existencia relativamente simple, una vez que se comprende cómo funciona el espacio escondido:

Primero, un codificador comprime la información sobre el objeto en una representación compacta en el espacio escondido. Entonces, en superficie de juntar cada detalle visible, aprende una descripción matemática condensada de la forma del objeto y cómo la luz interactúa con su superficie.
Luego, un decodificador hace lo contrario. Reconstruye el objeto 3D completo a partir de esa representación compacta, generando tanto la geometría como la representación de cómo deberían aparecer los pertenencias de iluminación, como reflejos y luces, desde diferentes ángulos de visión.

Entrenamiento LiTo

Para entrenar el maniquí, los investigadores seleccionaron miles de objetos representados desde 150 ángulos de visión diferentes y 3 condiciones de iluminación.

Luego, en superficie de introducir toda esa información directamente en el maniquí, el sistema seleccionó aleatoriamente pequeños subconjuntos de estas muestras y los comprimió en una representación escondido.

A continuación, se entrenó al decodificador para reedificar el objeto completo y su apariencia bajo diferentes ángulos y condiciones de luz, solo a partir de ese subconjunto de datos.

Durante el transcurso del entrenamiento, el sistema aprendió una representación escondido que capturó tanto la geometría del objeto como cómo cambia su apariencia dependiendo de la dirección de observación.

Una vez hecho esto, entrenaron otro maniquí que toma una única imagen de un objeto y predice la representación escondido que le corresponde. A continuación, el decodificador reconstruye el objeto 3D completo, incluido cómo cambia su apariencia a medida que varía el ángulo de visión.

Aquí hay algunas comparaciones de reconstrucción entre LiTo y un maniquí llamado TRELLIS, como publicó Apple en el pagina del esquema:

Asegúrate de echa un vistazo a la página del esquemadonde igualmente puede cargar comparaciones interactivas en paralelo entre LiTo y TRELLIS, como se ve en la imagen destacada de esta publicación.

Y para el estudio completo, sigue este enlace.