Los chatbots como ChatGPT y Claude han experimentado un aumento meteórico en su uso en los últimos tres años porque pueden ayudarle con una amplia gama de tareas. Ya sea que esté escribiendo sonetos de Shakespeare, depurando código o necesitando una respuesta a una pregunta de trivia oscura, los sistemas de inteligencia artificial parecen tenerlo cubierto. ¿La fuente de esta versatilidad? Miles de millones, o incluso billones, de puntos de datos textuales en Internet.
Sin embargo, esos datos no son suficientes para enseñarle a un robot a ser un asistente útil en el hogar o en una fábrica. Para comprender cómo manipular, apilar y colocar diversas disposiciones de objetos en diversos entornos, los robots necesitan demostraciones. Puede pensar en los datos de entrenamiento de robots como una colección de videos instructivos que guían los sistemas a través de cada movimiento de una tarea. Recopilar estas demostraciones en robots reales lleva mucho tiempo y no es perfectamente repetible, por lo que los ingenieros han creado datos de entrenamiento generando simulaciones con IA (que a menudo no reflejan la física del mundo real) o elaborando tediosamente a mano cada entorno digital desde cero.
Los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y del Instituto de Investigación Toyota pueden haber encontrado una manera de crear los campos de entrenamiento diversos y realistas que los robots necesitan. Su enfoque de “generación de escenas orientables” crea escenas digitales de cosas como cocinas, salas de estar y restaurantes que los ingenieros pueden usar para simular muchas interacciones y escenarios del mundo real. Entrenada en más de 44 millones de salas 3D llenas de modelos de objetos como mesas y platos, la herramienta coloca los activos existentes en nuevas escenas y luego refina cada uno en un entorno realista y físicamente preciso.
La generación de escenas orientable crea estos mundos 3D «dirigiendo» un modelo de difusión (un sistema de inteligencia artificial que genera una imagen a partir de ruido aleatorio) hacia una escena que encontrarías en la vida cotidiana. Los investigadores utilizaron este sistema generativo para “pintar” un entorno, rellenando elementos particulares en toda la escena. Puedes imaginar un lienzo en blanco que de repente se convierte en una cocina llena de objetos 3D, que se reorganizan gradualmente en una escena que imita la física del mundo real. Por ejemplo, el sistema garantiza que un tenedor no pase a través de un recipiente sobre una mesa, un error común en los gráficos 3D conocido como «recorte», donde los modelos se superponen o se cruzan.
Sin embargo, cómo exactamente la generación de escenas orientable guía su creación hacia el realismo depende de la estrategia que elija. Su estrategia principal es la “búsqueda de árboles de Monte Carlo” (MCTS), donde el modelo crea una serie de escenas alternativas, completándolas de diferentes maneras para lograr un objetivo particular (como hacer una escena más realista físicamente o incluir tantos elementos comestibles como sea posible). Lo utiliza el programa de inteligencia artificial AlphaGo para vencer a oponentes humanos en Go (un juego similar al ajedrez), ya que el sistema considera posibles secuencias de movimientos antes de elegir el más ventajoso.
«Somos los primeros en aplicar MCTS a la generación de escenas al enmarcar la tarea de generación de escenas como un proceso secuencial de toma de decisiones», dice el estudiante de doctorado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT, Nicholas Pfaff, investigador de CSAIL y autor principal de un artículo que presenta el trabajo. «Seguimos construyendo sobre escenas parciales para producir escenas mejores o más deseadas con el tiempo. Como resultado, MCTS crea escenas que son más complejas que aquellas en las que se entrenó el modelo de difusión».
En un experimento particularmente revelador, MCTS agregó la máxima cantidad de objetos a la escena de un restaurante simple. Presentaba hasta 34 elementos sobre una mesa, incluidas enormes pilas de platos de dim sum, después de entrenar en escenas con solo 17 objetos en promedio.
La generación de escenas orientables también le permite generar diversos escenarios de entrenamiento mediante el aprendizaje por refuerzo; esencialmente, enseñar un modelo de difusión para cumplir un objetivo mediante prueba y error. Después de entrenar con los datos iniciales, su sistema pasa por una segunda etapa de entrenamiento, donde define una recompensa (básicamente, un resultado deseado con una puntuación que indica qué tan cerca está de ese objetivo). El modelo aprende automáticamente a crear escenas con puntuaciones más altas, produciendo a menudo escenarios que son bastante diferentes de aquellos en los que fue entrenado.
Los usuarios también pueden avisar al sistema directamente escribiendo descripciones visuales específicas (como «una cocina con cuatro manzanas y un cuenco sobre la mesa»). Luego, la generación de escenas orientables puede hacer que sus solicitudes cobren vida con precisión. Por ejemplo, la herramienta siguió con precisión las indicaciones de los usuarios en un 98 por ciento al crear escenas de estantes de despensa y un 86 por ciento en mesas de desayuno desordenadas. Ambas calificaciones suponen una mejora de al menos el 10 por ciento con respecto a métodos comparables como “MiDiffusion” y “DiffuScene”.
El sistema también puede completar escenas específicas mediante indicaciones o direcciones de luz (como “crear una disposición de escena diferente usando los mismos objetos”). Podrías pedirle que coloque manzanas en varios platos sobre la mesa de la cocina, por ejemplo, o que coloque juegos de mesa y libros en un estante. Básicamente se trata de “llenar el espacio en blanco” colocando elementos en espacios vacíos, pero preservando el resto de la escena.
Según los investigadores, el punto fuerte de su proyecto reside en su capacidad de crear muchas escenas que los robóticos realmente pueden utilizar. «Una idea clave de nuestros hallazgos es que está bien que las escenas en las que entrenamos previamente no se parezcan exactamente a las escenas que realmente queremos», dice Pfaff. «Utilizando nuestros métodos de dirección, podemos ir más allá de esa amplia distribución y tomar muestras de una ‘mejor’. En otras palabras, generar escenas diversas, realistas y alineadas con las tareas en las que realmente queremos entrenar a nuestros robots».
Escenas tan vastas se convirtieron en campos de pruebas donde podían grabar un robot virtual interactuando con diferentes elementos. La máquina colocó cuidadosamente tenedores y cuchillos en un soporte para cubiertos, por ejemplo, y reorganizó el pan en platos en varias configuraciones 3D. Cada simulación parecía fluida y realista, asemejándose al mundo real, los robots adaptables y orientables que la generación de escenas podrían ayudar a entrenar, algún día.
Si bien el sistema podría ser un camino alentador para generar una gran cantidad de datos de entrenamiento diversos para robots, los investigadores dicen que su trabajo es más bien una prueba de concepto. En el futuro, les gustaría utilizar IA generativa para crear objetos y escenas completamente nuevos, en lugar de utilizar una biblioteca fija de recursos. También planean incorporar objetos articulados que el robot pueda abrir o girar (como gabinetes o frascos llenos de comida) para hacer las escenas aún más interactivas.
Para hacer que sus entornos virtuales sean aún más realistas, Pfaff y sus colegas pueden incorporar objetos del mundo real utilizando una biblioteca de objetos y escenas extraídas de imágenes de Internet y utilizando su trabajo previo en «Scalable Real2Sim». Al ampliar cuán diversos y realistas pueden ser los campos de pruebas de robots construidos con IA, el equipo espera construir una comunidad de usuarios que creará una gran cantidad de datos, que luego podrían usarse como un conjunto de datos masivo para enseñar diferentes habilidades a los robots diestros.
«Hoy en día, crear escenas realistas para simulación puede ser una tarea bastante desafiante; la generación de procedimientos puede producir fácilmente una gran cantidad de escenas, pero probablemente no serán representativas de los entornos que el robot encontraría en el mundo real. La creación manual de escenas personalizadas requiere mucho tiempo y es costosa», dice Jeremy Binagia, científico aplicado de Amazon Robotics que no participó en el artículo. «La generación de escenas orientables ofrece un mejor enfoque: entrenar un modelo generativo en una gran colección de escenas preexistentes y adaptarlo (usando una estrategia como el aprendizaje por refuerzo) a aplicaciones posteriores específicas. En comparación con trabajos anteriores que aprovechan un modelo de lenguaje de visión disponible en el mercado o se centran solo en organizar objetos en una cuadrícula 2D, este enfoque garantiza la viabilidad física y considera la traducción y rotación 3D completa, lo que permite la generación de escenas mucho más interesantes. escenas”.
«La generación de escenas orientable con entrenamiento posterior y búsqueda de tiempo de inferencia proporciona un marco novedoso y eficiente para automatizar la generación de escenas a escala», dice Rick Cory SM ’08, PhD ’10, robotista del Instituto de Investigación Toyota, quien tampoco participó en el artículo. «Además, puede generar escenas ‘nunca antes vistas’ que se consideran importantes para tareas posteriores. En el futuro, la combinación de este marco con una gran cantidad de datos de Internet podría desbloquear un hito importante hacia la capacitación eficiente de robots para su implementación en el mundo real».
Pfaff escribió el artículo con el autor principal Russ Tedrake, profesor Toyota de Ingeniería Eléctrica y Ciencias de la Computación, Aeronáutica y Astronáutica e Ingeniería Mecánica en el MIT; vicepresidente senior de grandes modelos de comportamiento en el Instituto de Investigación Toyota; e investigador principal del CSAIL. Otros autores fueron el investigador de robótica del Instituto de Investigación Toyota Hongkai Dai SM ’12, PhD ’16; el líder del equipo e investigador científico senior Sergey Zakharov; y Shun Iwase, estudiante de doctorado de la Universidad Carnegie Mellon. Su trabajo fue apoyado, en parte, por Amazon y el Instituto de Investigación Toyota. Los investigadores presentaron su trabajo en la Conferencia sobre Aprendizaje de Robots (CoRL) en septiembre.