Es posible que investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y de Google Research hayan realizado brujería digital, en forma de un modelo de difusión que puede cambiar las propiedades materiales de los objetos en imágenes.
Apodado Alchemist, el sistema permite a los usuarios alterar cuatro atributos de imágenes reales y generadas por IA: rugosidad, metalicidad, albedo (el color base inicial de un objeto) y transparencia. Como modelo de difusión de imagen a imagen, se puede ingresar cualquier fotografía y luego ajustar cada propiedad dentro de una escala continua de -1 a 1 para crear una nueva imagen. Estas capacidades de edición de fotografías podrían extenderse a la mejora de los modelos de los videojuegos, ampliar las capacidades de la IA en efectos visuales y enriquecer los datos de entrenamiento robótico.
La magia detrás de Alchemist comienza con un modelo de difusión de eliminación de ruido: en la práctica, los investigadores utilizaron Stable Diffusion 1.5, que es un modelo de conversión de texto a imagen elogiado por sus resultados fotorrealistas y sus capacidades de edición. Trabajos anteriores se basaron en el popular modelo para permitir a los usuarios realizar cambios de nivel superior, como intercambiar objetos o alterar la profundidad de las imágenes. Por el contrario, el método de CSAIL y Google Research aplica este modelo para centrarse en atributos de bajo nivel, revisando los detalles más finos de las propiedades materiales de un objeto con una interfaz única basada en controles deslizantes que supera a sus contrapartes.
Mientras que los sistemas de difusión anteriores podían sacar un proverbial conejo de un sombrero para obtener una imagen, Alchemist podía transformar ese mismo animal para que pareciera translúcido. El sistema también podría hacer que un pato de goma parezca metálico, eliminar el tono dorado de un pez dorado y lustrar un zapato viejo. Programas como Photoshop tienen capacidades similares, pero este modelo puede cambiar las propiedades del material de una manera más sencilla. Por ejemplo, modificar el aspecto metálico de una fotografía requiere varios pasos en la aplicación ampliamente utilizada.
«Cuando miras una imagen que has creado, a menudo el resultado no es exactamente lo que tienes en mente», dice Prafull Sharma, estudiante de doctorado en ingeniería eléctrica e informática del MIT, afiliado a CSAIL y autor principal de un nuevo artículo que describe la obra. “Quieres controlar la imagen mientras la editas, pero los controles existentes en los editores de imágenes no pueden cambiar los materiales. Con Alchemist, aprovechamos el fotorrealismo de los resultados de los modelos de texto a imagen y creamos un control deslizante que nos permite modificar una propiedad específica después de proporcionar la imagen inicial”.
Control preciso
“Los modelos generativos de texto a imagen han permitido a los usuarios cotidianos generar imágenes con tanta facilidad como escribir una oración. Sin embargo, controlar estos modelos puede ser un desafío”, afirma Jun-Yan Zhu, profesor asistente de la Universidad Carnegie Mellon, que no participó en el artículo. “Si bien generar un jarrón es simple, sintetizar un jarrón con propiedades materiales específicas, como transparencia y rugosidad, requiere que los usuarios pasen horas probando diferentes indicaciones de texto y semillas aleatorias. Esto puede resultar frustrante, especialmente para los usuarios profesionales que requieren precisión en su trabajo. Alchemist presenta una solución práctica a este desafío al permitir un control preciso sobre los materiales de una imagen de entrada mientras aprovecha los antecedentes basados en datos de los modelos de difusión a gran escala, inspirando trabajos futuros para incorporar sin problemas modelos generativos en las interfaces existentes de creación de contenido de uso común. software.»
Las capacidades de diseño de Alchemist podrían ayudar a modificar la apariencia de diferentes modelos en los videojuegos. La aplicación de un modelo de difusión de este tipo en este ámbito podría ayudar a los creadores a acelerar su proceso de diseño, refinando las texturas para que se ajusten a la jugabilidad de un nivel. Además, el proyecto de Sharma y su equipo podría ayudar a alterar elementos de diseño gráfico, videos y efectos de películas para mejorar el fotorrealismo y lograr la apariencia del material deseada con precisión.
El método también podría refinar los datos de entrenamiento robótico para tareas como la manipulación. Al presentarles a las máquinas más texturas, pueden comprender mejor los diversos elementos que captarán en el mundo real. Alchemist puede incluso ayudar potencialmente con la clasificación de imágenes, analizando dónde una red neuronal no reconoce los cambios materiales de una imagen.
El trabajo de Sharma y su equipo superó modelos similares al editar fielmente sólo el objeto de interés solicitado. Por ejemplo, cuando un usuario pidió a diferentes modelos que modificaran un delfín para lograr la máxima transparencia, solo Alchemist logró esta hazaña y dejó el fondo del océano sin editar. Cuando los investigadores entrenaron el modelo de difusión comparable InstructPix2Pix con los mismos datos que su método de comparación, descubrieron que Alchemist logró puntuaciones de precisión superiores. Asimismo, un estudio de usuarios reveló que se prefería el modelo del MIT y se lo consideraba más fotorrealista que su homólogo.
Manteniéndolo real con datos sintéticos
Según los investigadores, recopilar datos reales no era práctico. En cambio, entrenaron su modelo en un conjunto de datos sintéticos, editando aleatoriamente los atributos materiales de 1200 materiales aplicados a 100 objetos 3D únicos y disponibles públicamente en Blender, una popular herramienta de diseño de gráficos por computadora.
«Hasta ahora, el control de la síntesis de imágenes de IA generativa se ha visto limitado por lo que el texto puede describir», dice Frédo Durand, profesor de Computación Amar Bose en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT y miembro de CSAIL, quien es un autor principal del artículo. «Este trabajo abre un control nuevo y más fino para los atributos visuales heredados de décadas de investigación en gráficos por computadora».
«Alchemist es el tipo de técnica que se necesita para hacer que los modelos de difusión y aprendizaje automático sean prácticos y útiles para la comunidad CGI y los diseñadores gráficos», añade Mark Matthews, ingeniero de software senior y coautor de Google Research. Este tipo de estocasticidad incontrolable puede ser divertido por un tiempo, pero en algún momento, necesitas hacer un trabajo real y que obedezca a una visión creativa».
El último proyecto de Sharma llega un año después de que dirigiera una investigación sobre Materialista, un método de aprendizaje automático que puede identificar materiales similares en una imagen. Este trabajo anterior demostró cómo los modelos de IA pueden perfeccionar sus habilidades de comprensión de materiales y, al igual que Alchemist, se ajustó en un conjunto de datos sintéticos de modelos 3D de Blender.
Aún así, Alchemist tiene algunas limitaciones por el momento. El modelo tiene dificultades para inferir correctamente la iluminación, por lo que en ocasiones no sigue la entrada del usuario. Sharma señala que este método a veces también genera transparencias físicamente inverosímiles. Imagínese una mano parcialmente dentro de una caja de cereal, por ejemplo; en la configuración máxima de Alchemist para este atributo, vería un recipiente transparente sin que los dedos se metan.
A los investigadores les gustaría ampliar cómo un modelo de este tipo podría mejorar los recursos 3D para gráficos a nivel de escena. Además, Alchemist podría ayudar a inferir propiedades materiales a partir de imágenes. Según Sharma, este tipo de trabajo podría desbloquear vínculos entre las características visuales y mecánicas de los objetos en el futuro.
William T. Freeman, profesor del MIT EECS y miembro de CSAIL, también es autor principal y se une a Varun Jampani y a los científicos de Google Research Yuanzhen Li PhD ’09, Xuhui Jia y Dmitry Lagun. El trabajo fue financiado, en parte, por una subvención de la Fundación Nacional de Ciencias y donaciones de Google y Amazon. El trabajo del grupo se destacará en CVPR en junio.