Para los expertos en robótica, hay un desafío que sobresale por encima de todos los demás: la generalización: la capacidad de crear máquinas que puedan adaptarse a cualquier entorno o condición. Desde la década de 1970, el campo ha evolucionado desde la escritura de programas sofisticados hasta el uso del aprendizaje profundo, enseñando a los robots a aprender directamente del comportamiento humano. Pero persiste un obstáculo crítico: la calidad de los datos. Para mejorar, los robots necesitan encontrar escenarios que superen los límites de sus capacidades, operando al límite de su dominio. Este proceso tradicionalmente requiere supervisión humana, en la que los operadores desafían cuidadosamente a los robots para ampliar sus capacidades. A medida que los robots se vuelven más sofisticados, este enfoque práctico se topa con un problema de escala: la demanda de datos de entrenamiento de alta calidad supera con creces la capacidad humana para proporcionarlos.
Ahora, un equipo de investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT ha desarrollado un enfoque novedoso para el entrenamiento de robots que podría acelerar significativamente el despliegue de máquinas inteligentes y adaptables en entornos del mundo real. El nuevo sistema, llamado «LucidSim», utiliza avances recientes en IA generativa y simuladores de física para crear entornos de entrenamiento virtuales diversos y realistas, ayudando a los robots a lograr un rendimiento de nivel experto en tareas difíciles sin ningún dato del mundo real.
LucidSim combina la simulación física con modelos generativos de IA, abordando uno de los desafíos más persistentes de la robótica: transferir las habilidades aprendidas en la simulación al mundo real. «Un desafío fundamental en el aprendizaje de robots ha sido durante mucho tiempo la ‘brecha entre simulación y realidad’: la disparidad entre entornos de entrenamiento simulados y el complejo e impredecible mundo real», dice el postdoctorado de MIT CSAIL Ge Yang, investigador principal de LucidSim. «Los enfoques anteriores a menudo se basaban en sensores de profundidad, lo que simplificaba el problema pero pasaba por alto complejidades cruciales del mundo real».
El sistema multifacético es una combinación de diferentes tecnologías. En esencia, LucidSim utiliza grandes modelos de lenguaje para generar varias descripciones estructuradas de entornos. Estas descripciones luego se transforman en imágenes utilizando modelos generativos. Para garantizar que estas imágenes reflejen la física del mundo real, se utiliza un simulador de física subyacente para guiar el proceso de generación.
El nacimiento de una idea: de burritos a avances
La inspiración para LucidSim vino de un lugar inesperado: una conversación afuera de Beantown Taqueria en Cambridge, Massachusetts. “Queríamos enseñar a los robots equipados con visión cómo mejorar utilizando la retroalimentación humana. Pero luego nos dimos cuenta de que, para empezar, no teníamos una política puramente basada en la visión”, dice Alan Yu, estudiante universitario en ingeniería eléctrica e informática (EECS) en el MIT y coautor principal de LucidSim. “Seguimos hablando de ello mientras caminábamos por la calle y luego nos detuvimos afuera de la taquería durante aproximadamente media hora. Ahí es donde tuvimos nuestro momento”.
Para elaborar sus datos, el equipo generó imágenes realistas extrayendo mapas de profundidad, que proporcionan información geométrica, y máscaras semánticas, que etiquetan diferentes partes de una imagen, de la escena simulada. Sin embargo, rápidamente se dieron cuenta de que con un control estricto sobre la composición del contenido de la imagen, el modelo produciría imágenes similares que no eran diferentes entre sí usando el mismo mensaje. Entonces, idearon una manera de obtener diversos mensajes de texto de ChatGPT.
Sin embargo, este enfoque sólo dio como resultado una única imagen. Para hacer videos cortos y coherentes que sirvan como pequeñas «experiencias» para el robot, los científicos combinaron algo de magia de imágenes en otra técnica novedosa que creó el equipo, llamada «Dreams In Motion». El sistema calcula los movimientos de cada píxel entre fotogramas para deformar una única imagen generada en un vídeo corto de varios fotogramas. Dreams In Motion hace esto considerando la geometría 3D de la escena y los cambios relativos en la perspectiva del robot.
«Superamos a la aleatorización de dominios, un método desarrollado en 2017 que aplica colores y patrones aleatorios a los objetos del entorno, que todavía se considera el método de referencia en estos días», dice Yu. “Si bien esta técnica genera datos diversos, carece de realismo. LucidSim aborda problemas tanto de diversidad como de realismo. Es emocionante que incluso sin ver el mundo real durante el entrenamiento, el robot pueda reconocer y sortear obstáculos en entornos reales”.
El equipo está particularmente entusiasmado con el potencial de aplicar LucidSim a dominios fuera de la locomoción cuadrúpeda y el parkour, su principal banco de pruebas. Un ejemplo es la manipulación móvil, en la que a un robot móvil se le asigna la tarea de manipular objetos en un área abierta; Además, la percepción del color es fundamental. «Hoy en día, estos robots todavía aprenden de demostraciones del mundo real», dice Yang. “Aunque recopilar demostraciones es fácil, escalar una configuración de teleoperación de robot del mundo real a miles de habilidades es un desafío porque un humano tiene que configurar físicamente cada escena. Esperamos que esto sea más fácil y, por lo tanto, cualitativamente más escalable, trasladando la recopilación de datos a un entorno virtual”.
¿Quién es el verdadero experto?
El equipo puso a prueba LucidSim frente a una alternativa, donde un maestro experto demuestra la habilidad para que el robot aprenda. Los resultados fueron sorprendentes: los robots entrenados por el experto tuvieron dificultades, teniendo éxito sólo el 15 por ciento de las veces, e incluso cuadruplicando la cantidad de datos de entrenamiento de expertos apenas logró lograrlo. Pero cuando los robots recopilaron sus propios datos de entrenamiento a través de LucidSim, la historia cambió drásticamente. Simplemente duplicar el tamaño del conjunto de datos catapultó las tasas de éxito al 88 por ciento. «Y darle a nuestro robot más datos de manera monótona mejora su rendimiento; eventualmente, el estudiante se convierte en experto», dice Yang.
«Uno de los principales desafíos en la transferencia de simulación a real para la robótica es lograr realismo visual en entornos simulados», dice Shuran Song, profesor asistente de ingeniería eléctrica de la Universidad de Stanford, que no participó en la investigación. “El marco LucidSim proporciona una solución elegante mediante el uso de modelos generativos para crear datos visuales diversos y altamente realistas para cualquier simulación. Este trabajo podría acelerar significativamente el despliegue de robots entrenados en entornos virtuales para tareas del mundo real”.
Desde las calles de Cambridge hasta la vanguardia de la investigación en robótica, LucidSim está allanando el camino hacia una nueva generación de máquinas inteligentes y adaptables, que aprenden a navegar en nuestro complejo mundo sin siquiera poner un pie en él.
Yu y Yang escribieron el artículo con cuatro afiliados de CSAIL: Ran Choi, un postdoctorado del MIT en ingeniería mecánica; Yajvan Ravan, estudiante de EECS del MIT; John Leonard, profesor Samuel C. Collins de Ingeniería Mecánica y Oceánica en el Departamento de Ingeniería Mecánica del MIT; y Phillip Isola, profesor asociado del MIT en EECS. Su trabajo fue apoyado, en parte, por una beca Packard, una beca de investigación Sloan, la Oficina de Investigación Naval, la Agencia de Ciencia y Tecnología de Defensa de Singapur, Amazon, el Laboratorio Lincoln del MIT y el Instituto de Inteligencia Artificial e Interacciones Fundamentales de la Fundación Nacional de Ciencias. Los investigadores presentaron su trabajo en la Conferencia sobre Aprendizaje de Robots (CoRL) a principios de noviembre.