La nueva tecnología NeRF de NVIDIA podría ayudar a marcar el comienzo del Metaverso

  • Nvidia introdujo recientemente una técnica que convierte fotos 2D en escenas 3D en cuestión de segundos.
  • El método utiliza la potencia de la computadora para aproximar cómo se comporta la luz en el mundo real.
  • El metaverso es un área donde las escenas 3D son útiles, ya que se pueden ver desde cualquier perspectiva de cámara.

nvidia


La nueva tecnología de inteligencia artificial (IA) de Nvidia pronto podría convertir fotos 2D en escenas 3D en segundos, haciendo que la creación de espacios virtuales inmersivos como Metaverse sea tan trivial como el procesamiento de textos.

Nvidia demostró recientemente un método fotográfico llamado Instant NeRF que utiliza la potencia informática para aproximarse a cómo se comporta la luz en el mundo real. Podría convertir tus fotos antiguas en una escena de videojuego, o se puede usar para entrenar robots y autos autónomos para comprender el tamaño y la forma de los objetos reales.

«Las imágenes en 3D traen un nuevo mundo de transformación», dijo Oren Debbi, CEO de Visionary.ai, una empresa de visión artificial que ejecuta sus algoritmos 3D en la plataforma Nvidia, en una entrevista por correo electrónico con Lifewire. “Con 3D, imitas la profundidad del mundo real en la escena, haciendo que la imagen parezca más vívida y realista. Además de AR/VR y cámaras industriales, donde el 3D es muy común, ahora lo vemos en casi todos los teléfonos inteligentes sin que el usuario lo sepa”.

añadir dimensiones

La primera foto instantánea, tomada hace 75 años con una cámara Polaroid, pretendía capturar rápidamente el mundo 3D en una imagen 2D. Ahora, los investigadores de IA están trabajando en lo contrario: transforman una colección de imágenes fijas en una escena digital 3D en cuestión de segundos.

El proceso, conocido como representación inversa, utiliza IA para aproximarse a cómo se comporta la luz en el mundo real y permite a los investigadores armar una escena 3D a partir de un puñado de imágenes 2D tomadas desde diferentes ángulos. Nvidia afirma haber desarrollado un enfoque que hace el trabajo casi al instante.

Nvidia aprovechó este enfoque con una nueva tecnología llamada Neural Radiation Fields o NeRF. El resultado, llamado Instant NeRF, es la tecnología NeRF más rápida hasta la fecha, según la empresa. El modelo tarda solo unos segundos en entrenarse con unas pocas docenas de imágenes fijas y luego puede renderizar la escena 3D resultante en decenas de milisegundos.

«Si las representaciones 3D tradicionales, como las mallas, se asemejan a imágenes vectoriales, los NeRF son como imágenes de mapa de bits: capturan densamente cómo la luz se irradia desde un objeto o dentro de una escena», dijo David Luebke, vicepresidente de investigación de gráficos de Nvidia, en un comunicado. «En ese sentido, NeRF instantáneo podría ser tan importante para 3D como lo son las cámaras digitales y la compresión JPEG para la fotografía 2D, lo que aumenta en gran medida la velocidad, la facilidad y el alcance de la captura y el intercambio en 3D».

La recopilación de datos para operar un NeRF requiere que la red neuronal capture algunas docenas de imágenes tomadas desde múltiples ubicaciones alrededor de la escena y la posición de la cámara de cada una de esas capturas.

El NeRF entrena una pequeña red neuronal para reconstruir la escena al predecir el color de la luz que emana en cada dirección desde cada punto en el espacio 3D.

El atractivo del 3D

El metaverso es un área donde las escenas 3D son útiles porque se pueden ver desde cualquier ángulo de cámara, dijo Brad Quinton, fundador de la plataforma de realidad aumentada (AR) Perceptus, en una entrevista por correo electrónico con Lifewire. Así como podemos caminar por una habitación en la vida real y ver su contenido desde muchos ángulos diferentes, una escena 3D reconstruida nos permite movernos virtualmente por una habitación y verla desde cualquier perspectiva.

imágenes falsas


«Esto puede ser particularmente útil para crear entornos para usar en realidad virtual», dijo Quinton.

Los programas como Object Capture de Apple utilizan una técnica llamada fotogrametría para crear objetos virtuales en 3D a partir de una serie de imágenes en 2D. Los modelos 3D se utilizarán ampliamente en aplicaciones de realidad virtual y AR, predijo Quinton. Por ejemplo, algunas IA, como las de la plataforma Perceptus AR, usan modelos 3D para crear una comprensión del mundo real y habilitar aplicaciones AR en tiempo real.

El uso de imágenes en 3D también imita la profundidad del mundo real en una escena, lo que hace que la imagen parezca más vívida y realista, dijo Debbi. Para crear un efecto bokeh (también conocido como modo retrato o modo cinematográfico), se requiere un mapeo de profundidad 3D. La tecnología se utiliza en casi todos los teléfonos inteligentes.

«Este ya es el estándar para los videógrafos profesionales que hacen películas y se está convirtiendo en el estándar para todos los consumidores», agregó Debbi.