Cuando un automóvil viaja por una calle estrecha de la ciudad, los reflejos de la pintura brillante o los espejos laterales de los vehículos estacionados pueden ayudar al conductor a vislumbrar cosas que de otro modo estarían ocultas a la vista, como un niño jugando en la acera detrás de los automóviles estacionados.
Basándose en esta idea, los investigadores del MIT y la Universidad de Rice han creado una técnica de visión artificial que aprovecha los reflejos para crear imágenes del mundo. Su método utiliza reflejos para convertir objetos brillantes en «cámaras», lo que permite al usuario ver el mundo como si estuviera mirando a través de las «lentes» de objetos cotidianos como una taza de café de cerámica o un pisapapeles metálico.
Usando imágenes de un objeto tomadas desde diferentes ángulos, la técnica convierte la superficie de ese objeto en un sensor virtual que captura los reflejos. El sistema de inteligencia artificial mapea estos reflejos de una manera que le permite estimar la profundidad en la escena y capturar vistas novedosas que solo serían visibles desde la perspectiva del objeto. Se podría usar esta técnica para ver alrededor de las esquinas o más allá de los objetos que bloquean la vista del observador.
Este método podría ser especialmente útil en vehículos autónomos. Por ejemplo, podría permitir que un automóvil autónomo use los reflejos de los objetos que pasa, como postes de luz o edificios, para ver alrededor de un camión estacionado.
“Hemos demostrado que cualquier superficie se puede convertir en un sensor con esta formulación que convierte los objetos en píxeles virtuales y sensores virtuales. Esto se puede aplicar en muchas áreas diferentes”, dice Kushagra Tiwary, estudiante de posgrado en Camera Culture Group en Media Lab y coautor principal de un artículo sobre esta investigación.
A Tiwary se unen en el artículo el coautor principal Akshat Dave, estudiante de posgrado en la Universidad de Rice; Nikhil Behari, asociado de apoyo a la investigación del MIT; Tzofi Klinghoffer, estudiante de posgrado del MIT; Ashok Veeraraghavan, profesor de ingeniería eléctrica e informática en la Universidad Rice; y el autor principal Ramesh Raskar, profesor asociado de artes y ciencias de los medios y líder del Camera Culture Group en el MIT. La investigación será presentada en la Conferencia sobre Visión por Computador y Reconocimiento de Patrones.
Reflexionando sobre reflejos
Los héroes de los programas de televisión sobre crímenes a menudo «acercan y mejoran» las imágenes de vigilancia para capturar reflejos, tal vez los que se ven en las gafas de sol de un sospechoso, que les ayudan a resolver un crimen.
“En la vida real, explotar estos reflejos no es tan fácil como presionar un botón de mejora. Obtener información útil de estos reflejos es bastante difícil porque los reflejos nos dan una visión distorsionada del mundo”, dice Dave.
Esta distorsión depende de la forma del objeto y del mundo que refleja el objeto, sobre los cuales los investigadores pueden tener información incompleta. Además, el objeto brillante puede tener su propio color y textura que se mezcla con los reflejos. Además, los reflejos son proyecciones bidimensionales de un mundo tridimensional, lo que dificulta juzgar la profundidad en las escenas reflejadas.
Los investigadores encontraron una manera de superar estos desafíos. Su técnica, conocida como ORCa (que significa Objects as Radiance-Field Cameras), funciona en tres pasos. Primero, toman fotografías de un objeto desde muchos puntos de vista, capturando múltiples reflejos en el objeto brillante.
Luego, para cada imagen de la cámara real, ORCa usa el aprendizaje automático para convertir la superficie del objeto en un sensor virtual que captura la luz y los reflejos que golpean cada píxel virtual en la superficie del objeto. Finalmente, el sistema utiliza píxeles virtuales en la superficie del objeto para modelar el entorno 3D desde el punto de vista del objeto.
Atrapar rayos
La obtención de imágenes del objeto desde muchos ángulos permite a ORCa capturar reflejos de vista múltiple, que el sistema utiliza para estimar la profundidad entre el objeto brillante y otros objetos en la escena, además de estimar la forma del objeto brillante. ORCa modela la escena como un campo de radiación 5D, que captura información adicional sobre la intensidad y la dirección de los rayos de luz que emanan y golpean cada punto de la escena.
La información adicional contenida en este campo de radiación 5D también ayuda a ORCa a estimar con precisión la profundidad. Y debido a que la escena se representa como un campo de radiación 5D, en lugar de una imagen 2D, el usuario puede ver características ocultas que de otro modo estarían bloqueadas por esquinas u obstrucciones.
De hecho, una vez que ORCa ha capturado este campo de radiación 5D, el usuario puede colocar una cámara virtual en cualquier lugar de la escena y sintetizar lo que esa cámara vería, explica Dave. El usuario también podría insertar objetos virtuales en el entorno o cambiar la apariencia de un objeto, como de cerámica a metálico.
La información adicional que se captura en el campo de radiación 5D que ORCa aprende permite al usuario cambiar la apariencia de los objetos en la escena, en este caso, al representar la esfera brillante y la taza como objetos metálicos. Crédito: Cortesía de los investigadores.
“Fue especialmente desafiante pasar de una imagen 2D a un entorno 5D. Debe asegurarse de que el mapeo funcione y sea físicamente preciso, por lo que se basa en cómo viaja la luz en el espacio y cómo interactúa la luz con el medio ambiente. Pasamos mucho tiempo pensando en cómo podemos modelar una superficie”, dice Tiwary.
Estimaciones precisas
Los investigadores evaluaron su técnica comparándola con otros métodos que modelan reflejos, que es una tarea ligeramente diferente a la que realiza ORCa. Su método se desempeñó bien al separar el color verdadero de un objeto de los reflejos, y superó las líneas de base al extraer texturas y geometría de objetos más precisas.
Compararon las estimaciones de profundidad del sistema con datos reales simulados sobre la distancia real entre los objetos en la escena y encontraron que las predicciones de ORCa eran confiables.
«Consistentemente, con ORCa, no solo estima el entorno con precisión como una imagen 5D, sino que para lograrlo, en los pasos intermedios, también hace un buen trabajo estimando la forma del objeto y separando los reflejos de la textura del objeto». dice Dave.
Partiendo de esta prueba de concepto, los investigadores quieren aplicar esta técnica a las imágenes de drones. ORCa podría usar reflejos débiles de objetos sobre los que vuela un dron para reconstruir una escena desde el suelo. También quieren mejorar ORCa para que pueda utilizar otras señales, como sombras, para reconstruir información oculta o combinar reflejos de dos objetos para obtener imágenes de nuevas partes de una escena.
“Estimar los reflejos especulares es realmente importante para ver alrededor de las esquinas, y este es el siguiente paso natural para ver alrededor de las esquinas usando reflejos tenues en la escena”, dice Raskar.
“Por lo general, los objetos brillantes son difíciles de manejar para los sistemas de visión. Este papel es muy creativo porque convierte la larga debilidad del brillo de los objetos en una ventaja. Al explotar los reflejos del entorno de un objeto brillante, el papel no solo puede ver partes ocultas de la escena, sino también comprender cómo se ilumina la escena. Esto permite aplicaciones en la percepción 3D que incluyen, pero no se limitan a, la capacidad de componer objetos virtuales en escenas reales de manera que parezcan perfectas, incluso en condiciones de iluminación difíciles”, dice Achuta Kadambi, profesor asistente de ingeniería eléctrica y ciencias de la computación en la Universidad de California en Los Ángeles, que no participó en este trabajo. “Una de las razones por las que otros no han podido usar objetos brillantes de esta manera es que la mayoría de los trabajos anteriores requieren superficies con geometría o textura conocidas. Los autores han obtenido una formulación nueva e intrigante que no requiere tal conocimiento”.
La investigación fue apoyada, en parte, por la Actividad de Proyectos de Investigación Avanzada de Inteligencia y la Fundación Nacional de Ciencias.