Imagínese conducir por un túnel en un vehículo autónomo, pero, sin que usted lo sepa, un accidente ha detenido el tráfico más adelante. Normalmente, tendrías que confiar en el coche que tienes delante para saber que debes empezar a frenar. Pero, ¿qué pasaría si su vehículo pudiera ver alrededor del automóvil de adelante y aplicar los frenos incluso antes?
Investigadores del MIT y Meta han desarrollado una técnica de visión por computadora que algún día podría permitir que un vehículo autónomo haga precisamente eso.
Han introducido un método que crea modelos 3D físicamente precisos de una escena completa, incluidas áreas bloqueadas de la vista, utilizando imágenes desde una única posición de cámara. Su técnica utiliza sombras para determinar qué hay en las partes obstruidas de la escena.
Llaman a su enfoque PlatoNeRF, basado en la alegoría de la cueva de Platón, un pasaje de la “República” del filósofo griego. en el que los prisioneros encadenados en una cueva disciernen la realidad del mundo exterior a partir de las sombras proyectadas en la pared de la cueva.
Al combinar la tecnología lidar (detección y alcance de luz) con el aprendizaje automático, PlatoNeRF puede generar reconstrucciones de geometría 3D más precisas que algunas técnicas de inteligencia artificial existentes. Además, PlatoNeRF es mejor para reconstruir suavemente escenas donde las sombras son difíciles de ver, como aquellas con mucha luz ambiental o fondos oscuros.
Además de mejorar la seguridad de los vehículos autónomos, PlatoNeRF podría hacer que los auriculares AR/VR sean más eficientes al permitir al usuario modelar la geometría de una habitación sin la necesidad de caminar tomando medidas. También podría ayudar a los robots de almacén a encontrar más rápidamente artículos en entornos desordenados.
“Nuestra idea clave era tomar estas dos cosas que se han hecho antes en diferentes disciplinas y unirlas: lidar multirrebote y aprendizaje automático. Resulta que cuando se juntan estos dos, es cuando se encuentran muchas nuevas oportunidades para explorar y obtener lo mejor de ambos mundos”, dice Tzofi Klinghoffer, estudiante de posgrado en artes y ciencias de los medios del MIT, afiliado del MIT. Media Lab y autor principal de un artículo sobre PlatoNeRF.
Klinghoffer escribió el artículo con su asesor, Ramesh Raskar, profesor asociado de artes y ciencias de los medios y líder del Camera Culture Group en el MIT; el autor principal Rakesh Ranjan, director de investigación de IA en Meta Reality Labs; así como Siddharth Somasundaram en el MIT, y Xiaoyu Xiang, Yuchen Fan y Christian Richardt en Meta. La investigación se presentará en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones.
Arrojando luz sobre el problema
Reconstruir una escena 3D completa desde el punto de vista de una cámara es un problema complejo.
Algunos enfoques de aprendizaje automático emplean modelos de IA generativa que intentan adivinar qué hay en las regiones ocluidas, pero estos modelos pueden alucinar objetos que en realidad no están allí. Otros enfoques intentan inferir las formas de objetos ocultos utilizando sombras en una imagen en color, pero estos métodos pueden tener dificultades cuando las sombras son difíciles de ver.
Para PlatoNeRF, los investigadores del MIT desarrollaron estos enfoques utilizando una nueva modalidad de detección llamada lidar de fotón único. Los lidars mapean una escena en 3D emitiendo pulsos de luz y midiendo el tiempo que tarda esa luz en rebotar en el sensor. Dado que los lidares de fotón único pueden detectar fotones individuales, proporcionan datos de mayor resolución.
Los investigadores utilizan un lidar de fotón único para iluminar un punto objetivo en la escena. Parte de la luz rebota en ese punto y regresa directamente al sensor. Sin embargo, la mayor parte de la luz se dispersa y rebota en otros objetos antes de regresar al sensor. PlatoNeRF se basa en estos segundos rebotes de luz.
Al calcular cuánto tiempo tarda la luz en rebotar dos veces y luego regresar al sensor lidar, PlatoNeRF captura información adicional sobre la escena, incluida la profundidad. El segundo rebote de luz también contiene información sobre las sombras.
El sistema rastrea los rayos de luz secundarios (aquellos que rebotan desde el punto objetivo hacia otros puntos de la escena) para determinar qué puntos se encuentran en la sombra (debido a la ausencia de luz). Según la ubicación de estas sombras, PlatoNeRF puede inferir la geometría de los objetos ocultos.
El lidar ilumina secuencialmente 16 puntos, capturando múltiples imágenes que se utilizan para reconstruir toda la escena 3D.
“Cada vez que iluminamos un punto de la escena, estamos creando nuevas sombras. Debido a que tenemos todas estas fuentes de iluminación diferentes, tenemos muchos rayos de luz disparados a nuestro alrededor, por lo que estamos tallando la región que está ocluida y se encuentra más allá del ojo visible”, dice Klinghoffer.
Una combinación ganadora
La clave de PlatoNeRF es la combinación de lidar de rebote múltiple con un tipo especial de modelo de aprendizaje automático conocido como campo de radiación neuronal (NeRF). Un NeRF codifica la geometría de una escena en los pesos de una red neuronal, lo que le da al modelo una gran capacidad para interpolar o estimar vistas novedosas de una escena.
Esta capacidad de interpolar también conduce a reconstrucciones de escenas de alta precisión cuando se combina con un lidar de rebote múltiple, afirma Klinghoffer.
“El mayor desafío fue descubrir cómo combinar estas dos cosas. Realmente tuvimos que pensar en la física de cómo se transporta la luz con lidar multirrebote y cómo modelarlo con aprendizaje automático”, afirma.
Compararon PlatoNeRF con dos métodos alternativos comunes, uno que solo usa lidar y el otro que solo usa un NeRF con una imagen en color.
Descubrieron que su método podía superar a ambas técnicas, especialmente cuando el sensor lidar tenía una resolución más baja. Esto haría que su enfoque fuera más práctico de implementar en el mundo real, donde los sensores de menor resolución son comunes en los dispositivos comerciales.
“Hace unos 15 años, nuestro grupo inventó la primera cámara para ‘ver’ en las esquinas, que funciona explotando múltiples rebotes de luz o ‘ecos de luz’. Esas técnicas utilizaron láseres y sensores especiales, y utilizaron tres rebotes de luz. Desde entonces, la tecnología lidar se ha vuelto más común, lo que llevó a nuestra investigación sobre cámaras que pueden ver a través de la niebla. Este nuevo trabajo utiliza sólo dos rebotes de luz, lo que significa que la relación señal/ruido es muy alta y la calidad de la reconstrucción 3D es impresionante”, afirma Raskar.
En el futuro, los investigadores quieren intentar rastrear más de dos rebotes de luz para ver cómo eso podría mejorar las reconstrucciones de escenas. Además, están interesados en aplicar técnicas de aprendizaje más profundo y combinar PlatoNeRF con mediciones de imágenes en color para capturar información de textura.
“Si bien las imágenes de sombras de las cámaras se han estudiado durante mucho tiempo como un medio para la reconstrucción 3D, este trabajo revisa el problema en el contexto del lidar, demostrando mejoras significativas en la precisión de la geometría oculta reconstruida. El trabajo muestra cómo algoritmos inteligentes pueden permitir capacidades extraordinarias cuando se combinan con sensores comunes, incluidos los sistemas lidar que muchos de nosotros llevamos ahora en el bolsillo”, dice David Lindell, profesor asistente en el Departamento de Ciencias de la Computación de la Universidad de Toronto. que no participó en este trabajo.