Supongamos que desea entrenar a un robot para que comprenda cómo usar herramientas y luego pueda aprender rápidamente a hacer reparaciones en su casa con un martillo, una llave y un destornillador. Para hacer eso, necesitaría una enorme cantidad de datos que demuestren el uso de la herramienta.
Los conjuntos de datos robóticos existentes varían ampliamente en cuanto a modalidad: algunos incluyen imágenes en color mientras que otros se componen de huellas táctiles, por ejemplo. Los datos también podrían recopilarse en diferentes dominios, como simulación o demostraciones humanas. Y cada conjunto de datos puede capturar una tarea y un entorno únicos.
Es difícil incorporar de manera eficiente datos de tantas fuentes en un modelo de aprendizaje automático, por lo que muchos métodos utilizan solo un tipo de datos para entrenar a un robot. Pero los robots entrenados de esta manera, con una cantidad relativamente pequeña de datos específicos de la tarea, a menudo no pueden realizar nuevas tareas en entornos desconocidos.
En un esfuerzo por entrenar mejores robots multipropósito, los investigadores del MIT desarrollaron una técnica para combinar múltiples fuentes de datos en todos los dominios, modalidades y tareas utilizando un tipo de IA generativa conocida como modelos de difusión.
Entrenan un modelo de difusión separado para aprender una estrategia o política para completar una tarea utilizando un conjunto de datos específico. Luego combinan las políticas aprendidas por los modelos de difusión en una política general que permite a un robot realizar múltiples tareas en diversos entornos.
En simulaciones y experimentos del mundo real, este enfoque de entrenamiento permitió a un robot realizar múltiples tareas de uso de herramientas y adaptarse a nuevas tareas que no vio durante el entrenamiento. El método, conocido como Composición de Políticas (PoCo), condujo a una mejora del 20 por ciento en el desempeño de las tareas en comparación con las técnicas de referencia.
“Abordar la heterogeneidad en los conjuntos de datos robóticos es como un problema del huevo de gallina. Si queremos utilizar una gran cantidad de datos para entrenar políticas generales de robots, primero necesitamos robots desplegables para obtener todos estos datos. Creo que aprovechar todos los datos heterogéneos disponibles, similar a lo que los investigadores han hecho con ChatGPT, es un paso importante para el campo de la robótica”, dice Lirui Wang, estudiante de posgrado en ingeniería eléctrica e informática (EECS) y autor principal de un artículo. en PoCo.
Los coautores de Wang incluyen a Jialiang Zhao, un estudiante graduado en ingeniería mecánica; Yilun Du, estudiante de posgrado de EECS; Edward Adelson, profesor John y Dorothy Wilson de Ciencias de la Visión en el Departamento de Ciencias Cognitivas y del Cerebro y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y el autor principal Russ Tedrake, profesor Toyota de EECS, Aeronáutica y Astronáutica e Ingeniería Mecánica, y miembro de CSAIL. La investigación se presentará en la Conferencia Robótica: Ciencia y Sistemas.
Combinando conjuntos de datos dispares
Una política robótica es un modelo de aprendizaje automático que toma entradas y las utiliza para realizar una acción. Una forma de pensar en una política es como una estrategia. En el caso de un brazo robótico, esa estrategia podría ser una trayectoria o una serie de posturas que mueven el brazo para que tome un martillo y lo utilice para clavar un clavo.
Los conjuntos de datos que se utilizan para aprender políticas robóticas suelen ser pequeños y se centran en una tarea y un entorno concretos, como empaquetar artículos en cajas en un almacén.
“Cada almacén robótico genera terabytes de datos, pero solo pertenecen a esa instalación de robot específica que trabaja en esos paquetes. No es ideal si quieres utilizar todos estos datos para entrenar una máquina general”, afirma Wang.
Los investigadores del MIT desarrollaron una técnica que puede tomar una serie de conjuntos de datos más pequeños, como los recopilados de muchos almacenes robóticos, aprender políticas separadas de cada uno y combinar las políticas de una manera que permita a un robot generalizar muchas tareas.
Representan cada política utilizando un tipo de modelo de IA generativo conocido como modelo de difusión. Los modelos de difusión, a menudo utilizados para la generación de imágenes, aprenden a crear nuevas muestras de datos que se asemejan a muestras en un conjunto de datos de entrenamiento refinando iterativamente su salida.
Pero en lugar de enseñar un modelo de difusión para generar imágenes, los investigadores le enseñan a generar una trayectoria para un robot. Lo hacen agregando ruido a las trayectorias en un conjunto de datos de entrenamiento. El modelo de difusión elimina gradualmente el ruido y refina su salida en una trayectoria.
Esta técnica, conocida como Política de Difusión, fue introducida anteriormente por investigadores del MIT, la Universidad de Columbia y el Instituto de Investigación Toyota. PoCo se basa en este trabajo de Política de Difusión.
El equipo entrena cada modelo de difusión con un tipo diferente de conjunto de datos, como uno con demostraciones en video humanas y otro obtenido de la teleoperación de un brazo robótico.
Luego, los investigadores realizan una combinación ponderada de las políticas individuales aprendidas por todos los modelos de difusión, refinando iterativamente el resultado para que la política combinada satisfaga los objetivos de cada política individual.
Mayor que la suma de sus partes
“Uno de los beneficios de este enfoque es que podemos combinar políticas para obtener lo mejor de ambos mundos. Por ejemplo, una política formada con datos del mundo real podría lograr una mayor destreza, mientras que una política formada con simulación podría lograr una mayor generalización”, afirma Wang.
Con la composición de políticas, los investigadores pueden combinar conjuntos de datos de múltiples fuentes para poder enseñar a un robot a utilizar eficazmente una amplia gama de herramientas, como un martillo, un destornillador o esta espátula.Imagen: Cortesía de los investigadores.
Debido a que las políticas se entrenan por separado, se podrían mezclar y combinar políticas de difusión para lograr mejores resultados para una determinada tarea. Un usuario también podría agregar datos en una nueva modalidad o dominio entrenando una Política de Difusión adicional con ese conjunto de datos, en lugar de comenzar todo el proceso desde cero.
La técnica de composición de políticas que desarrollaron los investigadores se puede utilizar para enseñar eficazmente a un robot a utilizar herramientas incluso cuando se colocan objetos a su alrededor para intentar distraerlo de su tarea, como se ve aquí.Imagen: Cortesía de los investigadores.
Los investigadores probaron PoCo en simulación y en brazos robóticos reales que realizaban una variedad de tareas con herramientas, como usar un martillo para golpear un clavo y voltear un objeto con una espátula. PoCo condujo a una mejora del 20 por ciento en el desempeño de las tareas en comparación con los métodos de referencia.
«Lo sorprendente fue que cuando terminamos de ajustarlo y lo visualizamos, podemos ver claramente que la trayectoria compuesta se ve mucho mejor que cualquiera de ellas individualmente», dice Wang.
En el futuro, los investigadores quieren aplicar esta técnica a tareas de largo plazo en las que un robot tomaría una herramienta, la usaría y luego cambiaría a otra. También quieren incorporar conjuntos de datos robóticos más grandes para mejorar el rendimiento.
“Necesitaremos los tres tipos de datos para que la robótica tenga éxito: datos de Internet, datos de simulación y datos de robots reales. Cómo combinarlos eficazmente será la pregunta del millón. PoCo es un paso sólido en el camino correcto”, afirma Jim Fan, científico investigador senior de NVIDIA y líder de la Iniciativa de Agentes de IA, que no participó en este trabajo.
Esta investigación está financiada, en parte, por Amazon, la Agencia de Ciencia y Tecnología de Defensa de Singapur, la Fundación Nacional de Ciencias de EE. UU. y el Instituto de Investigación Toyota.