En la clásica caricatura «Los Supersónicos», Rosie, la criada robótica, pasa sin problemas de pasar la aspiradora por la casa, preparar la cena y sacar la basura. Pero en la vida real, entrenar un robot de uso general sigue siendo un gran desafío.
Normalmente, los ingenieros recopilan datos específicos de un determinado robot y tarea, que utilizan para entrenar al robot en un entorno controlado. Sin embargo, recopilar estos datos es costoso y requiere mucho tiempo, y es probable que el robot tenga dificultades para adaptarse a entornos o tareas que no ha visto antes.
Para entrenar mejores robots de uso general, los investigadores del MIT desarrollaron una técnica versátil que combina una enorme cantidad de datos heterogéneos de muchas fuentes en un sistema que puede enseñar a cualquier robot una amplia gama de tareas.
Su método implica alinear datos de diversos dominios, como simulaciones y robots reales, y múltiples modalidades, incluidos sensores de visión y codificadores de posición del brazo robótico, en un «lenguaje» compartido que un modelo generativo de IA puede procesar.
Al combinar una cantidad tan enorme de datos, este enfoque se puede utilizar para entrenar a un robot para que realice una variedad de tareas sin la necesidad de empezar a entrenarlo desde cero cada vez.
Este método podría ser más rápido y menos costoso que las técnicas tradicionales porque requiere muchos menos datos específicos de la tarea. Además, superó al entrenamiento desde cero en más de un 20 por ciento en simulación y experimentos del mundo real.
“En robótica, la gente suele afirmar que no tenemos suficientes datos de entrenamiento. Pero en mi opinión, otro gran problema es que los datos provienen de muchos dominios, modalidades y hardware de robot diferentes. Nuestro trabajo muestra cómo sería posible entrenar un robot con todos ellos juntos”, afirma Lirui Wang, estudiante de posgrado en ingeniería eléctrica e informática (EECS) y autor principal de un artículo sobre esta técnica.
Los coautores de Wang incluyen a su compañero estudiante graduado de EECS, Jialiang Zhao; Xinlei Chen, científico investigador de Meta; y el autor principal Kaiming He, profesor asociado en EECS y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL). La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Inspirado por los LLM
Una “política” robótica toma en cuenta observaciones de sensores, como imágenes de cámaras o mediciones propioceptivas que rastrean la velocidad y posicionan un brazo robótico, y luego le dicen al robot cómo y dónde moverse.
Las políticas generalmente se entrenan mediante el aprendizaje por imitación, lo que significa que un humano demuestra acciones o teleopera un robot para generar datos, que se introducen en un modelo de inteligencia artificial que aprende la política. Debido a que este método utiliza una pequeña cantidad de datos específicos de la tarea, los robots a menudo fallan cuando cambia su entorno o tarea.
Para desarrollar un mejor enfoque, Wang y sus colaboradores se inspiraron en grandes modelos de lenguaje como GPT-4.
Estos modelos se entrenan previamente utilizando una enorme cantidad de datos de idiomas diversos y luego se ajustan alimentándolos con una pequeña cantidad de datos específicos de la tarea. El entrenamiento previo con tantos datos ayuda a que los modelos se adapten para desempeñarse bien en una variedad de tareas.
“En el dominio del lenguaje, todos los datos son solo oraciones. En robótica, dada toda la heterogeneidad de los datos, si queremos realizar un entrenamiento previo de manera similar, necesitamos una arquitectura diferente”, afirma.
Los datos robóticos adoptan muchas formas, desde imágenes de cámaras hasta instrucciones de lenguaje y mapas de profundidad. Al mismo tiempo, cada robot es mecánicamente único, con un número y orientación diferentes de brazos, pinzas y sensores. Además, los entornos donde se recopilan los datos varían ampliamente.
Los investigadores del MIT desarrollaron una nueva arquitectura llamada Transformadores heterogéneos preentrenados (HPT) que unifica datos de estas variadas modalidades y dominios.
Colocaron un modelo de aprendizaje automático conocido como transformador en el medio de su arquitectura, que procesa entradas de visión y propiocepción. Un transformador es el mismo tipo de modelo que forma la columna vertebral de los grandes modelos lingüísticos.
Los investigadores alinean los datos de la visión y la propiocepción en el mismo tipo de entrada, llamado token, que el transformador puede procesar. Cada entrada se representa con el mismo número fijo de tokens.
Luego, el transformador asigna todas las entradas a un espacio compartido y crece hasta convertirse en un enorme modelo previamente entrenado a medida que procesa y aprende de más datos. Cuanto más grande sea el transformador, mejor funcionará.
Un usuario solo necesita proporcionar a HPT una pequeña cantidad de datos sobre el diseño, la configuración y la tarea de su robot y la tarea que desea que realice. Luego, HPT transfiere el conocimiento que el transformador adquirió durante el entrenamiento previo para aprender la nueva tarea.
Permitir movimientos diestros
Uno de los mayores desafíos del desarrollo de HPT fue construir un conjunto de datos masivo para preparar previamente el transformador, que incluía 52 conjuntos de datos con más de 200.000 trayectorias de robots en cuatro categorías, incluidos videos de demostración humanos y simulación.
Los investigadores también necesitaban desarrollar una forma eficiente de convertir señales de propiocepción sin procesar procedentes de una serie de sensores en datos que el transformador pudiera manejar.
“La propiocepción es clave para permitir muchos movimientos diestros. Como el número de tokens en nuestra arquitectura es siempre el mismo, damos la misma importancia a la propiocepción y la visión”, explica Wang.
Cuando probaron HPT, mejoró el rendimiento del robot en más de un 20 por ciento en tareas de simulación y del mundo real, en comparación con el entrenamiento desde cero cada vez. Incluso cuando la tarea era muy diferente de los datos previos al entrenamiento, HPT aún mejoró el rendimiento.
“Este artículo proporciona un enfoque novedoso para entrenar una política única en múltiples realizaciones de robots. Esto permite la capacitación en diversos conjuntos de datos, lo que permite que los métodos de aprendizaje de robots aumenten significativamente el tamaño de los conjuntos de datos en los que pueden entrenar. También permite que el modelo se adapte rápidamente a nuevas realizaciones de robots, lo cual es importante ya que continuamente se producen nuevos diseños de robots”, dice David Held, profesor asociado del Instituto de Robótica de la Universidad Carnegie Mellon, que no participó en este trabajo.
En el futuro, los investigadores quieren estudiar cómo la diversidad de datos podría mejorar el rendimiento de HPT. También quieren mejorar HPT para que pueda procesar datos sin etiquetar como GPT-4 y otros modelos de lenguaje de gran tamaño.
“Nuestro sueño es tener un cerebro de robot universal que puedas descargar y usar para tu robot sin ningún tipo de entrenamiento. Si bien estamos apenas en las primeras etapas, vamos a seguir presionando con fuerza y esperando que la ampliación conduzca a un gran avance en las políticas robóticas, como ocurrió con los grandes modelos de lenguaje”, afirma.
Este trabajo fue financiado, en parte, por la Iniciativa Tecnológica del Gran Boston de Amazon y el Instituto de Investigación Toyota.