En el actual espíritu de la IA, los modelos de secuencia se han disparado en popularidad por su capacidad para analizar datos y predecir qué hacer a continuación. Por ejemplo, probablemente haya utilizado modelos de predicción del siguiente token como ChatGPT, que anticipan cada palabra (token) en una secuencia para formar respuestas a las consultas de los usuarios. También existen modelos de difusión de secuencia completa como Sora, que convierten palabras en imágenes deslumbrantes y realistas al «eliminar ruido» sucesivamente de una secuencia de vídeo completa.
Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han propuesto un cambio simple en el esquema de entrenamiento de difusión que hace que esta secuencia de eliminación de ruido sea considerablemente más flexible.
Cuando se aplican a campos como la visión por computadora y la robótica, los modelos de difusión de secuencia completa y de siguiente token tienen compensaciones de capacidad. Los modelos de siguiente token pueden generar secuencias que varían en longitud. Sin embargo, crean estas generaciones sin ser conscientes de los estados deseables en el futuro lejano (como dirigir su generación de secuencia hacia un objetivo determinado a 10 tokens de distancia) y, por lo tanto, requieren mecanismos adicionales para la planificación a largo plazo (largo plazo). Los modelos de difusión pueden realizar este tipo de muestreo condicionado al futuro, pero carecen de la capacidad de los modelos de siguiente token para generar secuencias de longitud variable.
Los investigadores de CSAIL quieren combinar las fortalezas de ambos modelos, por lo que crearon una técnica de entrenamiento de modelos de secuencia llamada «Forzado de difusión». El nombre proviene de “Teacher Forcing”, el esquema de capacitación convencional que divide la generación de secuencia completa en pasos más pequeños y fáciles de la siguiente generación de tokens (muy parecido a un buen maestro que simplifica un concepto complejo).
El forzamiento por difusión encontró puntos en común entre los modelos de difusión y el forzamiento docente: ambos utilizan esquemas de entrenamiento que implican predecir tokens enmascarados (ruidosos) a partir de tokens desenmascarados. En el caso de los modelos de difusión, añaden gradualmente ruido a los datos, lo que puede verse como un enmascaramiento fraccionario. El método Diffusion Forcing de los investigadores del MIT entrena redes neuronales para limpiar una colección de tokens, eliminando diferentes cantidades de ruido dentro de cada uno y al mismo tiempo prediciendo los siguientes tokens. El resultado: un modelo de secuencia flexible y confiable que resultó en videos artificiales de mayor calidad y una toma de decisiones más precisa para robots y agentes de IA.
Al clasificar datos ruidosos y predecir de manera confiable los siguientes pasos en una tarea, Diffusion Forcing puede ayudar a un robot a ignorar las distracciones visuales para completar tareas de manipulación. También puede generar secuencias de vídeo estables y consistentes e incluso guiar a un agente de IA a través de laberintos digitales. Este método podría permitir que los robots domésticos y de fábrica se generalicen a nuevas tareas y mejoren el entretenimiento generado por IA.
“Los modelos de secuencia pretenden condicionar el pasado conocido y predecir el futuro desconocido, una especie de enmascaramiento binario. Sin embargo, el enmascaramiento no tiene por qué ser binario”, dice el autor principal, estudiante de doctorado en ingeniería eléctrica e informática (EECS) del MIT y miembro de CSAIL, Boyuan Chen. “Con Diffusion Forcing, agregamos diferentes niveles de ruido a cada token, lo que efectivamente sirve como un tipo de enmascaramiento fraccional. En el momento de la prueba, nuestro sistema puede «desenmascarar» una colección de tokens y difundir una secuencia en un futuro próximo con un nivel de ruido más bajo. Sabe en qué confiar dentro de sus datos para superar los insumos fuera de distribución”.
En varios experimentos, Diffusion Forcing prosperó al ignorar datos engañosos para ejecutar tareas mientras anticipa acciones futuras.
Cuando se implementó en un brazo robótico, por ejemplo, ayudó a intercambiar dos frutas de juguete en tres tapetes circulares, un ejemplo mínimo de una familia de tareas de largo horizonte que requieren recuerdos. Los investigadores entrenaron al robot controlándolo a distancia (o teleoperándolo) en realidad virtual. El robot está entrenado para imitar los movimientos del usuario desde su cámara. A pesar de comenzar desde posiciones aleatorias y ver distracciones como una bolsa de compras que bloqueaba los marcadores, colocó los objetos en sus lugares objetivo.
Para generar videos, entrenaron a Diffusion Forcing en juegos “Minecraft” y coloridos entornos digitales creados dentro del DeepMind Lab Simulator de Google. Cuando se le dio un solo cuadro de metraje, el método produjo videos más estables y de mayor resolución que líneas de base comparables, como un modelo de difusión de secuencia completa similar a Sora y modelos de siguiente token tipo ChatGPT. Estos enfoques crearon videos que parecían inconsistentes, y estos últimos a veces no lograban generar videos funcionales más allá de los 72 fotogramas.
Diffusion Forcing no solo genera videos elegantes, sino que también puede servir como un planificador de movimiento que orienta hacia los resultados o recompensas deseados. Gracias a su flexibilidad, Diffusion Forcing puede generar de forma única planes con horizontes variables, realizar búsquedas de árboles e incorporar la intuición de que el futuro lejano es más incierto que el futuro cercano. En la tarea de resolver un laberinto 2D, Diffusion Forcing superó seis líneas de base al generar planes más rápidos que conducen a la ubicación del objetivo, lo que indica que podría ser un planificador eficaz para los robots en el futuro.
En cada demostración, Diffusion Forcing actuó como un modelo de secuencia completa, un modelo de predicción del siguiente token o ambos. Según Chen, este enfoque versátil podría servir como una poderosa columna vertebral para un “modelo mundial”, un sistema de inteligencia artificial que puede simular la dinámica del mundo entrenándose con miles de millones de videos de Internet. Esto permitiría a los robots realizar tareas novedosas imaginando lo que deben hacer en función de su entorno. Por ejemplo, si le pides a un robot que abra una puerta sin haber recibido capacitación sobre cómo hacerlo, el modelo podría producir un video que le muestre a la máquina cómo hacerlo.
Actualmente, el equipo está buscando ampliar su método a conjuntos de datos más grandes y los últimos modelos de transformadores para mejorar el rendimiento. Tienen la intención de ampliar su trabajo para construir un cerebro robótico similar a ChatGPT que ayude a los robots a realizar tareas en nuevos entornos sin demostración humana.
«Con Diffusion Forcing, estamos dando un paso para acercar la generación de vídeo y la robótica», dice el autor principal Vincent Sitzmann, profesor asistente del MIT y miembro de CSAIL, donde dirige el grupo de Representación de Escenas. “Al final, esperamos poder utilizar todo el conocimiento almacenado en vídeos en Internet para permitir que los robots ayuden en la vida cotidiana. Aún quedan muchos desafíos de investigación interesantes, como cómo los robots pueden aprender a imitar a los humanos observándolos incluso cuando sus propios cuerpos son tan diferentes al nuestro”.
Chen y Sitzmann escribieron el artículo junto con el reciente investigador visitante del MIT, Diego Martí Monsó, y los afiliados de CSAIL: Yilun Du, un estudiante graduado de EECS; Max Simchowitz, ex postdoctorado y profesor asistente entrante de la Universidad Carnegie Mellon; y Russ Tedrake, profesor Toyota de EECS, Aeronáutica y Astronáutica e Ingeniería Mecánica en el MIT, vicepresidente de investigación en robótica en el Instituto de Investigación Toyota y miembro de CSAIL. Su trabajo fue apoyado, en parte, por la Fundación Nacional de Ciencias de EE. UU., la Agencia de Ciencia y Tecnología de Defensa de Singapur, la Actividad de Proyectos de Investigación Avanzada de Inteligencia a través del Departamento del Interior de EE. UU. y el Amazon Science Hub. Presentarán su investigación en NeurIPS en diciembre.