La capacidad de generar imágenes de alta calidad rápidamente es crucial para producir entornos simulados realistas que se pueden usar para entrenar autos autónomos para evitar riesgos impredecibles, haciéndolos más seguros en las calles reales.
Pero las técnicas generativas de inteligencia artificial que se utilizan cada vez más para producir tales imágenes tienen inconvenientes. Un tipo de modelo popular, llamado modelo de difusión, puede crear imágenes increíblemente realistas, pero es demasiado lento y computacionalmente intensivo para muchas aplicaciones. Por otro lado, los modelos autorregresivos que encienden LLM como ChatGPT son mucho más rápidos, pero producen imágenes de calidad más pobre que a menudo están plagadas de errores.
Investigadores del MIT y Nvidia desarrollaron un nuevo enfoque que reúne lo mejor de ambos métodos. Su herramienta de generación de imágenes híbridas utiliza un modelo autorregresivo para capturar rápidamente el panorama general y luego un pequeño modelo de difusión para refinar los detalles de la imagen.
Su herramienta, conocida como HART (abreviatura de transformador autorregresivo híbrido), puede generar imágenes que coinciden o excedan la calidad de los modelos de difusión de vanguardia, pero lo hagan aproximadamente nueve veces más rápido.
El proceso de generación consume menos recursos computacionales que los modelos de difusión típicos, lo que permite a HART ejecutarse localmente en una computadora portátil o teléfono inteligente comercial. Un usuario solo necesita ingresar una solicitud de lenguaje natural en la interfaz HART para generar una imagen.
Hart podría tener una amplia gama de aplicaciones, como ayudar a los investigadores a capacitar a los robots para completar tareas complejas del mundo real y ayudar a los diseñadores a producir escenas sorprendentes para videojuegos.
«Si está pintando un paisaje, y solo pinta todo el lienzo una vez, puede que no se vea muy bien. Pero si pinta el panorama general y luego refina la imagen con pinceladas más pequeñas, su pintura podría verse mucho mejor. Esa es la idea básica con Hart», dice Haotian Tang ’22, Phd ’25, co-autor de un nuevo papel sobre Hart.
Se le une el co-autor Yecheng Wu, un estudiante universitario en la Universidad de Tsinghua; El autor senior Song Han, profesor asociado en el Departamento de Ingeniería Eléctrica e Informática del MIT (EECS), miembro del Laboratorio MIT-IBM Watson AI y un distinguido científico de Nvidia; así como otros en el MIT, la Universidad de Tsinghua y Nvidia. La investigación se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje.
Lo mejor de ambos mundos
Se sabe que los modelos de difusión populares, como la difusión estable y el Dall-E, producen imágenes altamente detalladas. Estos modelos generan imágenes a través de un proceso iterativo en el que predicen cierta cantidad de ruido aleatorio en cada píxel, restan el ruido y luego repiten el proceso de predicción y «eliminando» varias veces hasta que generan una nueva imagen que está completamente libre de ruido.
Debido a que el modelo de difusión elimina todos los píxeles en una imagen en cada paso, y puede haber 30 o más pasos, el proceso es lento y computacionalmente costoso. Pero debido a que el modelo tiene múltiples posibilidades de corregir los detalles que se equivocó, las imágenes son de alta calidad.
Los modelos autorregresivos, comúnmente utilizados para predecir el texto, pueden generar imágenes prediciendo parches de una imagen secuencialmente, unos pocos píxeles a la vez. No pueden regresar y corregir sus errores, pero el proceso de predicción secuencial es mucho más rápido que la difusión.
Estos modelos utilizan representaciones conocidas como tokens para hacer predicciones. Un modelo autorregresivo utiliza un autoencoder para comprimir los píxeles de imagen sin procesar en tokens discretos, así como reconstruir la imagen de los tokens predichos. Si bien esto aumenta la velocidad del modelo, la pérdida de información que ocurre durante la compresión causa errores cuando el modelo genera una nueva imagen.
Con Hart, los investigadores desarrollaron un enfoque híbrido que utiliza un modelo autorregresivo para predecir tokens de imagen discretos y comprimidos, luego un pequeño modelo de difusión para predecir tokens residuales. Los tokens residuales compensan la pérdida de información del modelo al capturar detalles que dejan los tokens discretos.
«Podemos lograr un gran impulso en términos de calidad de reconstrucción. Nuestros tokens residuales aprenden detalles de alta frecuencia, como los bordes de un objeto, o el cabello, los ojos o la boca de una persona. Estos son lugares donde las fichas discretas pueden cometer errores», dice Tang.
Debido a que el modelo de difusión solo predice los detalles restantes después de que el modelo autorregresivo haya hecho su trabajo, puede lograr la tarea en ocho pasos, en lugar de los 30 o más un modelo de difusión estándar que requiere generar una imagen completa. Esta sobrecarga mínima del modelo de difusión adicional permite a HART retener la ventaja de velocidad del modelo autorregresivo al tiempo que mejora significativamente su capacidad para generar detalles de imagen intrincados.
«El modelo de difusión tiene un trabajo más fácil, lo que conduce a una mayor eficiencia», agrega.
Superar modelos más grandes
Durante el desarrollo de HART, los investigadores encontraron desafíos para integrar efectivamente el modelo de difusión para mejorar el modelo autorregresivo. Descubrieron que la incorporación del modelo de difusión en las primeras etapas del proceso autorregresivo resultó en una acumulación de errores. En cambio, su diseño final de aplicar el modelo de difusión para predecir solo tokens residuales a medida que el paso final mejoró significativamente la calidad de la generación.
Su método, que utiliza una combinación de un modelo de transformador autorregresivo con 700 millones de parámetros y un modelo de difusión ligero con 37 millones de parámetros, puede generar imágenes de la misma calidad que las creadas por un modelo de difusión con 2 mil millones de parámetros, pero lo hace aproximadamente nueve veces más rápido. Utiliza aproximadamente un 31 por ciento menos de cálculo que los modelos de última generación.
Además, debido a que HART utiliza un modelo autorregresivo para hacer la mayor parte del trabajo, el mismo tipo de modelo que alimenta LLMS, es más compatible para la integración con la nueva clase de modelos generativos de lenguaje de visión unificado. En el futuro, uno podría interactuar con un modelo generativo de lenguaje de visión unificado, tal vez pidiéndole que muestre los pasos intermedios necesarios para ensamblar un mueble.
«Los LLM son una buena interfaz para todo tipo de modelos, como modelos y modelos multimodales que pueden razonar. Esta es una forma de llevar la inteligencia a una nueva frontera. Un modelo eficiente de generación de imágenes desbloquearía muchas posibilidades», dice.
En el futuro, los investigadores quieren seguir este camino y construir modelos en idioma de visión en la parte superior de la arquitectura Hart. Dado que Hart es escalable y generalizable a múltiples modalidades, también quieren aplicarlo para tareas de generación de videos y predicción de audio.
Esta investigación fue financiada, en parte, por el MIT-IBM Watson AI Lab, el MIT y Amazon Science Hub, el programa de hardware MIT AI y la Fundación Nacional de Ciencias de los Estados Unidos. La infraestructura de GPU para capacitar a este modelo fue donada por NVIDIA.