En lo más alto de muchas listas de deseos de automatización se encuentra una tarea que consume especialmente tiempo: las tareas domésticas.
El objetivo de muchos expertos en robótica es crear la combinación adecuada de hardware y software para que una máquina pueda aprender políticas “generalistas” (las reglas y estrategias que guían el comportamiento del robot) que funcionen en todas partes y en todas las condiciones. Sin embargo, siendo realistas, si tienes un robot en casa, probablemente no te importe mucho que trabaje para tus vecinos. Con eso en mente, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT decidieron intentar encontrar una solución para entrenar fácilmente políticas robustas para robots en entornos muy específicos.
“Nuestro objetivo es que los robots tengan un rendimiento excepcional en situaciones de perturbación, distracciones, condiciones de iluminación variables y cambios en la posición de los objetos, todo ello en un único entorno”, afirma Marcel Torne Villasevil, asistente de investigación del MIT CSAIL en el laboratorio Improbable AI y autor principal de un artículo reciente sobre el trabajo. “Proponemos un método para crear gemelos digitales sobre la marcha utilizando los últimos avances en visión artificial. Con tan solo sus teléfonos, cualquiera puede capturar una réplica digital del mundo real, y los robots pueden entrenarse en un entorno simulado mucho más rápido que en el mundo real, gracias a la paralelización de GPU. Nuestro enfoque elimina la necesidad de una ingeniería de recompensas exhaustiva al aprovechar unas pocas demostraciones del mundo real para poner en marcha el proceso de entrenamiento”.
Llevando tu robot a casa
Por supuesto, RialTo es un poco más complicado que un simple gesto con el teléfono y (¡boom!) un robot doméstico a tu servicio. Comienza usando tu dispositivo para escanear el entorno de destino utilizando herramientas como NeRFStudio, ARCode o Polycam. Una vez que se reconstruye la escena, los usuarios pueden cargarla en la interfaz de RialTo para realizar ajustes detallados, agregar las articulaciones necesarias a los robots y más.
La escena refinada se exporta y se lleva al simulador. Aquí, el objetivo es desarrollar una política basada en acciones y observaciones del mundo real, como una para agarrar una taza de un mostrador. Estas demostraciones del mundo real se replican en la simulación, lo que proporciona algunos datos valiosos para el aprendizaje de refuerzo. «Esto ayuda a crear una política sólida que funciona bien tanto en la simulación como en el mundo real. Un algoritmo mejorado que utiliza el aprendizaje de refuerzo ayuda a guiar este proceso, para garantizar que la política sea efectiva cuando se aplica fuera del simulador», dice Torne.
Las pruebas demostraron que RialTo creó políticas sólidas para una variedad de tareas, ya sea en entornos de laboratorio controlados o en entornos reales más impredecibles, mejorando un 67 por ciento con respecto al aprendizaje por imitación con la misma cantidad de demostraciones. Las tareas implicaban abrir una tostadora, colocar un libro en un estante, poner un plato en una rejilla, colocar una taza en un estante, abrir un cajón y abrir un armario. Para cada tarea, los investigadores probaron el rendimiento del sistema en tres niveles crecientes de dificultad: aleatorizar las poses de los objetos, agregar distractores visuales y aplicar perturbaciones físicas durante la ejecución de las tareas. Cuando se emparejó con datos del mundo real, el sistema superó los métodos tradicionales de aprendizaje por imitación, especialmente en situaciones con muchas distracciones visuales o interrupciones físicas.
“Estos experimentos muestran que, si nos preocupa ser muy robustos en un entorno particular, la mejor idea es aprovechar los gemelos digitales en lugar de intentar obtener robustez con la recopilación de datos a gran escala en diversos entornos”, dice Pulkit Agrawal, director de Improbable AI Lab, profesor asociado de ingeniería eléctrica y ciencias de la computación (EECS) del MIT, investigador principal de MIT CSAIL y autor principal del trabajo.
En cuanto a las limitaciones, actualmente RialTo tarda tres días en completarse. Para acelerar el proceso, el equipo menciona mejorar los algoritmos subyacentes y utilizar modelos de base. El entrenamiento en simulación también tiene sus limitaciones y, actualmente, es difícil realizar transferencias de simulación a realidad sin esfuerzo y simular objetos o líquidos deformables.
El siguiente nivel
¿Cuál es el próximo paso de RialTo? Basándose en esfuerzos anteriores, los científicos están trabajando para preservar la robustez frente a diversas perturbaciones y, al mismo tiempo, mejorar la adaptabilidad del modelo a nuevos entornos. “Nuestro próximo esfuerzo es este enfoque de utilizar modelos previamente entrenados, acelerar el proceso de aprendizaje, minimizar la intervención humana y lograr capacidades de generalización más amplias”, dice Torne.
“Estamos muy entusiasmados con nuestro concepto de programación de robots ‘sobre la marcha’, en el que los robots pueden escanear de forma autónoma su entorno y aprender a resolver tareas específicas en una simulación. Si bien nuestro método actual tiene limitaciones (como requerir algunas demostraciones iniciales por parte de un humano y un tiempo de computación significativo para entrenar estas políticas (hasta tres días)), lo vemos como un paso significativo hacia el logro del aprendizaje y la implementación de robots ‘sobre la marcha’”, dice Torne. “Este enfoque nos acerca a un futuro en el que los robots no necesitarán una política preexistente que cubra todos los escenarios. En cambio, pueden aprender rápidamente nuevas tareas sin una amplia interacción en el mundo real. En mi opinión, este avance podría acelerar la aplicación práctica de la robótica mucho antes que si dependiéramos únicamente de una política universal que lo abarcara todo”.
“Para implementar robots en el mundo real, los investigadores han recurrido tradicionalmente a métodos como el aprendizaje por imitación a partir de datos de expertos, que puede ser costoso, o el aprendizaje por refuerzo, que puede ser inseguro”, dice Zoey Chen, estudiante de doctorado en ciencias de la computación en la Universidad de Washington que no participó en el artículo. “RialTo aborda directamente tanto las limitaciones de seguridad del aprendizaje por refuerzo en el mundo real [robot learning]“RialTo ofrece una solución que permite a los robots aprender de forma más eficiente y eficaz, con una nueva metodología de aprendizaje basada en datos que permite que los robots se adapten a escenarios complejos del mundo real de forma mucho más eficaz”.
«La simulación ha demostrado capacidades impresionantes en robots reales al proporcionar datos económicos, posiblemente infinitos, para el aprendizaje de políticas», añade Marius Memmel, estudiante de doctorado en informática de la Universidad de Washington que no participó en el trabajo. «Sin embargo, estos métodos están limitados a unos pocos escenarios específicos, y la construcción de las simulaciones correspondientes es costosa y laboriosa. RialTo proporciona una herramienta fácil de usar para reconstruir entornos del mundo real en minutos en lugar de horas. Además, hace un uso extensivo de las demostraciones recopiladas durante el aprendizaje de políticas, lo que minimiza la carga del operador y reduce la brecha entre simulación y realidad. RialTo demuestra robustez ante las poses y perturbaciones de los objetos, mostrando un rendimiento increíble en el mundo real sin requerir una extensa construcción de simuladores y recopilación de datos».
Torne escribió este artículo junto con los autores principales Abhishek Gupta, profesor asistente de la Universidad de Washington, y Agrawal. También se reconoce el mérito de otros cuatro miembros de CSAIL: el estudiante de doctorado en EECS Anthony Simeonov SM ’22, el asistente de investigación Zechu Li, la estudiante de pregrado April Chan y el doctorado Tao Chen ’24. Los miembros de Improbable AI Lab y WEIRD Lab también aportaron valiosos comentarios y apoyo para desarrollar este proyecto.
Este trabajo fue financiado en parte por el Sony Research Award, el gobierno de los EE. UU. y Hyundai Motor Co., con la ayuda del Laboratorio WEIRD (Washington Embodied Intelligence and Robotics Development). Los investigadores presentaron su trabajo en la conferencia Robotics Science and Systems (RSS) a principios de este mes.