Crear modelos 3D realistas para aplicaciones como realidad virtual, cine y diseño de ingeniería puede ser un proceso engorroso que requiere muchas pruebas y errores manuales.
Si bien los modelos de inteligencia artificial generativa para imágenes pueden agilizar los procesos artísticos al permitir a los creadores producir imágenes 2D realistas a partir de indicaciones de texto, estos modelos no están diseñados para generar formas 3D. Para cerrar la brecha, una técnica desarrollada recientemente llamada Score Distillation aprovecha los modelos de generación de imágenes 2D para crear formas 3D, pero su resultado a menudo termina borroso o caricaturesco.
Los investigadores del MIT exploraron las relaciones y diferencias entre los algoritmos utilizados para generar imágenes 2D y formas 3D, identificando la causa raíz de los modelos 3D de menor calidad. A partir de ahí, crearon una solución simple para Score Distillation, que permite la generación de formas 3D nítidas y de alta calidad que tienen una calidad más cercana a las mejores imágenes 2D generadas por modelos.
Estos ejemplos muestran dos objetos giratorios 3D diferentes: una abeja robótica y una fresa. Los investigadores utilizaron IA generativa basada en texto y su nueva técnica para crear objetos 3D.Imagen: Cortesía de los investigadores; Noticias del MIT
Algunos otros métodos intentan solucionar este problema reentrenando o ajustando el modelo de IA generativa, lo que puede resultar costoso y llevar mucho tiempo.
Por el contrario, la técnica de los investigadores del MIT logra una calidad de forma 3D igual o mejor que estos enfoques sin capacitación adicional ni posprocesamiento complejo.
Además, al identificar la causa del problema, los investigadores han mejorado la comprensión matemática de la destilación de puntuaciones y las técnicas relacionadas, lo que permite que trabajos futuros mejoren aún más el rendimiento.
«Ahora sabemos hacia dónde debemos dirigirnos, lo que nos permite encontrar soluciones más eficientes, más rápidas y de mayor calidad», afirma Artem Lukoianov, estudiante de posgrado en ingeniería eléctrica e informática (EECS) y autor principal de un artículo sobre esta técnica. «A largo plazo, nuestro trabajo puede ayudar a facilitar el proceso y ser copiloto para los diseñadores, facilitando la creación de formas 3D más realistas».
Los coautores de Lukoianov son Haitz Sáez de Ocáriz Borde, estudiante de posgrado de la Universidad de Oxford; Kristjan Greenewald, científico investigador del Laboratorio de IA Watson del MIT-IBM; Vitor Campagnolo Guizilini, científico del Instituto de Investigación Toyota; Timur Bagautdinov, científico investigador del Meta; y los autores principales Vincent Sitzmann, profesor asistente de EECS en el MIT que dirige el Grupo de Representación de Escenas en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y Justin Solomon, profesor asociado de EECS y líder del Grupo de Procesamiento de Datos Geométricos de CSAIL. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
De imágenes 2D a formas 3D
Los modelos de difusión, como DALL-E, son un tipo de modelo de IA generativa que puede producir imágenes realistas a partir de ruido aleatorio. Para entrenar estos modelos, los investigadores agregan ruido a las imágenes y luego le enseñan al modelo a revertir el proceso y eliminar el ruido. Los modelos utilizan este proceso aprendido de «eliminación de ruido» para crear imágenes basadas en las indicaciones de texto del usuario.
Pero los modelos de difusión tienen un rendimiento inferior a la hora de generar directamente formas 3D realistas porque no hay suficientes datos 3D para entrenarlos. Para solucionar este problema, los investigadores desarrollaron una técnica llamada Score Distillation Sampling (SDS) en 2022 que utiliza un modelo de difusión previamente entrenado para combinar imágenes 2D en una representación 3D.
La técnica implica comenzar con una representación 3D aleatoria, renderizar una vista 2D de un objeto deseado desde un ángulo de cámara aleatorio, agregar ruido a esa imagen, eliminar el ruido con un modelo de difusión y luego optimizar la representación 3D aleatoria para que coincida con la imagen eliminada del ruido. Estos pasos se repiten hasta que se genera el objeto 3D deseado.
Sin embargo, las formas 3D producidas de esta manera tienden a verse borrosas o sobresaturadas.
“Esto ha sido un cuello de botella durante un tiempo. Sabemos que el modelo subyacente es capaz de funcionar mejor, pero la gente no sabía por qué sucede esto con las formas 3D”, dice Lukoianov.
Los investigadores del MIT exploraron los pasos del SDS e identificaron una discrepancia entre una fórmula que forma una parte clave del proceso y su contraparte en los modelos de difusión 2D. La fórmula le dice al modelo cómo actualizar la representación aleatoria agregando y eliminando ruido, paso a paso, para que se parezca más a la imagen deseada.
Dado que parte de esta fórmula implica una ecuación demasiado compleja para resolverla de manera eficiente, SDS la reemplaza con ruido muestreado aleatoriamente en cada paso. Los investigadores del MIT descubrieron que este ruido genera formas 3D borrosas o caricaturescas.
Una respuesta aproximada
En lugar de intentar resolver esta engorrosa fórmula con precisión, los investigadores probaron técnicas de aproximación hasta identificar la mejor. En lugar de muestrear aleatoriamente el término de ruido, su técnica de aproximación infiere el término faltante a partir de la representación de forma 3D actual.
«Al hacer esto, como predice el análisis del artículo, se generan formas 3D que parecen nítidas y realistas», afirma.
Además, los investigadores aumentaron la resolución de la representación de la imagen y ajustaron algunos parámetros del modelo para mejorar aún más la calidad de las formas 3D.
Al final, pudieron utilizar un modelo de difusión de imágenes previamente entrenado y disponible para crear formas 3D suaves y de apariencia realista sin la necesidad de un costoso reentrenamiento. Los objetos 3D son igualmente nítidos que los producidos utilizando otros métodos que dependen de soluciones ad hoc.
“Intento experimentar a ciegas con diferentes parámetros, a veces funciona y otras no, pero no sabes por qué. Sabemos que esta es la ecuación que necesitamos resolver. Ahora, esto nos permite pensar en formas más eficientes de solucionarlo”, afirma.
Debido a que su método se basa en un modelo de difusión previamente entrenado, hereda los sesgos y deficiencias de ese modelo, lo que lo hace propenso a alucinaciones y otras fallas. Mejorar el modelo de difusión subyacente mejoraría su proceso.
Además de estudiar la fórmula para ver cómo podrían resolverla de manera más efectiva, los investigadores están interesados en explorar cómo estos conocimientos podrían mejorar las técnicas de edición de imágenes.
Este trabajo está financiado, en parte, por el Instituto de Investigación Toyota, la Fundación Nacional de Ciencias de EE. UU., la Agencia de Ciencia y Tecnología de Defensa de Singapur, la Actividad de Proyectos de Investigación Avanzada de Inteligencia de EE. UU., el Amazon Science Hub, IBM, la Oficina de Investigación del Ejército de EE. UU., el Programa CSAIL Future of Data, Wistron Corporation y el Laboratorio de IA Watson del MIT-IBM.