Probablemente hayas escuchado que una imagen vale más que mil palabras, pero ¿puede un modelo de lenguaje grande (LLM) obtener la imagen si nunca antes ha visto imágenes?
Resulta que los modelos de lenguaje que se entrenan exclusivamente en texto tienen una comprensión sólida del mundo visual. Pueden escribir código de representación de imágenes para generar escenas complejas con objetos y composiciones intrigantes, e incluso cuando ese conocimiento no se utiliza correctamente, los LLM pueden refinar sus imágenes. Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT observaron esto cuando solicitaron a los modelos de lenguaje que autocorrigieran su código para diferentes imágenes, donde los sistemas mejoraron sus simples dibujos de imágenes prediseñadas con cada consulta.
El conocimiento visual de estos modelos de lenguaje se obtiene a partir de cómo se describen conceptos como formas y colores en Internet, ya sea en lenguaje o código. Cuando se les da una instrucción como «dibujar un loro en la jungla», los usuarios activan el LLM para considerar lo que se leyó en las descripciones anteriores. Para evaluar cuánto conocimiento visual tienen los LLM, el equipo de CSAIL construyó un «chequeo de la visión» para los LLM: utilizando su «Conjunto de datos de aptitud visual», probaron las habilidades de los modelos para dibujar, reconocer y autocorregir estos conceptos. Al recopilar cada borrador final de estas ilustraciones, los investigadores entrenaron un sistema de visión por computadora que identifica el contenido de fotografías reales.
«Básicamente, entrenamos un sistema de visión sin utilizar directamente ningún dato visual», dice Tamar Rott Shaham, coautora principal del estudio y posdoctorada en ingeniería eléctrica e informática (EECS) del MIT en CSAIL. “Nuestro equipo consultó modelos de lenguaje para escribir códigos de representación de imágenes para generar datos para nosotros y luego entrenó el sistema de visión para evaluar imágenes naturales. Nos inspiró la cuestión de cómo se representan los conceptos visuales a través de otros medios, como el texto. Para expresar su conocimiento visual, los LLM pueden utilizar el código como punto común entre el texto y la visión «.
Para construir este conjunto de datos, los investigadores primero consultaron los modelos para generar código para diferentes formas, objetos y escenas. Luego, compilaron ese código para representar ilustraciones digitales simples, como una fila de bicicletas, lo que demuestra que los LLM comprenden las relaciones espaciales lo suficientemente bien como para dibujar los vehículos de dos ruedas en una fila horizontal. Como otro ejemplo, el modelo generó un pastel con forma de automóvil, combinando dos conceptos aleatorios. El modelo de lenguaje también produjo una bombilla brillante, lo que indica su capacidad para crear efectos visuales.
«Nuestro trabajo muestra que cuando se consulta un LLM (sin capacitación previa multimodal) para crear una imagen, sabe mucho más de lo que parece», dice Pratyusha Sharma, coautora principal, estudiante de doctorado de EECS y miembro de CSAIL. “Digamos que le pides que dibuje una silla. El modelo sabe otras cosas sobre este mueble que quizás no haya renderizado inmediatamente, por lo que los usuarios pueden consultar el modelo para mejorar la imagen que produce con cada iteración. Sorprendentemente, el modelo puede enriquecer iterativamente el dibujo mejorando el código de renderizado en gran medida”.
Los investigadores reunieron estas ilustraciones, que luego se utilizaron para entrenar un sistema de visión por computadora que puede reconocer objetos dentro de fotografías reales (a pesar de nunca haber visto uno antes). Con estos datos sintéticos generados por texto como único punto de referencia, el sistema supera a otros conjuntos de datos de imágenes generados por procedimientos que fueron entrenados con fotografías auténticas.
El equipo de CSAIL cree que combinar el conocimiento visual oculto de los LLM con las capacidades artísticas de otras herramientas de inteligencia artificial, como los modelos de difusión, también podría resultar beneficioso. Los sistemas como Midjourney a veces carecen de los conocimientos necesarios para modificar constantemente los detalles más finos de una imagen, lo que les dificulta manejar solicitudes como reducir la cantidad de automóviles que se muestran en la imagen o colocar un objeto detrás de otro. Si un LLM esbozara de antemano el cambio solicitado para el modelo de difusión, la edición resultante podría ser más satisfactoria.
La ironía, como reconocen Rott Shaham y Sharma, es que los LLM a veces no reconocen los mismos conceptos que pueden extraer. Esto quedó claro cuando los modelos identificaron incorrectamente recreaciones humanas de imágenes dentro del conjunto de datos. Representaciones tan diversas del mundo visual probablemente desencadenaron los conceptos erróneos de los modelos lingüísticos.
Si bien los modelos lucharon por percibir estas representaciones abstractas, demostraron la creatividad para dibujar los mismos conceptos de manera diferente cada vez. Cuando los investigadores pidieron a los LLM que dibujaran conceptos como fresas y arcadas varias veces, produjeron imágenes desde diversos ángulos con diferentes formas y colores, insinuando que los modelos podrían tener imágenes mentales reales de conceptos visuales (en lugar de recitar ejemplos que vieron antes).
El equipo de CSAIL cree que este procedimiento podría ser una base para evaluar qué tan bien un modelo de IA generativa puede entrenar un sistema de visión por computadora. Además, los investigadores buscan ampliar las tareas en las que desafían los modelos lingüísticos. En cuanto a su estudio reciente, el grupo del MIT señala que no tienen acceso al conjunto de capacitación de los LLM que utilizaron, lo que dificulta investigar más a fondo el origen de su conocimiento visual. En el futuro, tienen la intención de explorar la formación de un modelo de visión aún mejor permitiendo que el LLM trabaje directamente con él.
A Sharma y Rott Shaham se unen en el artículo la ex afiliada de CSAIL Stephanie Fu ’22, los estudiantes de doctorado de MNG ’23 y EECS Manel Baradad, Adrián Rodríguez-Muñoz ’22 y Shivam Duggal, todos afiliados de CSAIL; así como el profesor asociado del MIT Phillip Isola y el profesor Antonio Torralba. Su trabajo fue apoyado, en parte, por una subvención del MIT-IBM Watson AI Lab, una beca LaCaixa, el programa de liderazgo STEM Zuckerman y la beca Viterbi. Presentan su artículo esta semana en la Conferencia de Reconocimiento de Patrones y Visión por Computadora IEEE/CVF.