La frase “la práctica hace al maestro” suele estar reservada para los humanos, pero también es una gran máxima para los robots recién desplegados en entornos desconocidos.
Imaginemos que un robot llega a un almacén. Viene equipado con las habilidades para las que fue entrenado, como colocar un objeto, y ahora necesita recoger artículos de un estante con el que no está familiarizado. Al principio, la máquina tiene dificultades para hacerlo, ya que necesita familiarizarse con su nuevo entorno. Para mejorar, el robot deberá comprender qué habilidades dentro de una tarea general necesita mejorar y luego especializar (o parametrizar) esa acción.
Un humano podría programar el robot para optimizar su rendimiento, pero los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y del Instituto de Inteligencia Artificial han desarrollado una alternativa más eficaz. Presentado en la Conferencia de Robótica: Ciencia y Sistemas el mes pasado, su algoritmo “Estimar, Extrapolar y Situar” (EES) permite a estas máquinas practicar por sí solas, lo que podría ayudarlas a mejorar en tareas útiles en fábricas, hogares y hospitales.
Evaluando la situación
Para ayudar a los robots a mejorar en actividades como barrer el suelo, EES trabaja con un sistema de visión que localiza y rastrea el entorno de la máquina. A continuación, el algoritmo calcula la fiabilidad con la que el robot ejecuta una acción (como barrer) y si merecería la pena practicar más. EES pronostica lo bien que podría realizar el robot la tarea general si perfecciona esa habilidad en particular y, por último, practica. Posteriormente, el sistema de visión comprueba si esa habilidad se realizó correctamente después de cada intento.
El EES podría resultar útil en lugares como hospitales, fábricas, casas o cafeterías. Por ejemplo, si quisieras que un robot limpiara tu sala de estar, necesitaría ayuda para practicar habilidades como barrer. Sin embargo, según Nishanth Kumar SM ’24 y sus colegas, el EES podría ayudar a que ese robot mejore sin intervención humana, utilizando solo unas pocas pruebas de práctica.
“Al iniciar este proyecto, nos preguntamos si esta especialización sería posible en una cantidad razonable de muestras en un robot real”, dice Kumar, coautor principal de un artículo que describe el trabajo, estudiante de doctorado en ingeniería eléctrica y ciencias de la computación y afiliado de CSAIL. “Ahora, tenemos un algoritmo que permite a los robots mejorar significativamente en habilidades específicas en una cantidad de tiempo razonable con decenas o cientos de puntos de datos, una mejora de los miles o millones de muestras que requiere un algoritmo de aprendizaje de refuerzo estándar”.
Ver barrido de puntos
La habilidad de EES para el aprendizaje eficiente se hizo evidente cuando se implementó en el cuadrúpedo Spot de Boston Dynamics durante las pruebas de investigación en el Instituto de Inteligencia Artificial. El robot, que tiene un brazo unido a su espalda, completó tareas de manipulación después de practicar durante unas horas. En una demostración, el robot aprendió a colocar de forma segura una pelota y un aro sobre una mesa inclinada en aproximadamente tres horas. En otra, el algoritmo guió a la máquina para mejorar su habilidad para barrer juguetes y tirarlos a un contenedor en aproximadamente dos horas. Ambos resultados parecen ser una mejora de los marcos anteriores, que probablemente habrían requerido más de 10 horas por tarea.
“Queríamos que el robot recopilara su propia experiencia para poder elegir mejor qué estrategias funcionarán bien en su implementación”, dice el coautor principal Tom Silver SM ’20, PhD ’24, un exalumno de ingeniería eléctrica y ciencias de la computación (EECS) y afiliado de CSAIL que ahora es profesor asistente en la Universidad de Princeton. “Al centrarnos en lo que sabe el robot, buscamos responder una pregunta clave: en la biblioteca de habilidades que tiene el robot, ¿cuál es la que sería más útil para practicar en este momento?”
El EES podría ayudar a agilizar la práctica autónoma de los robots en nuevos entornos de implementación, pero por ahora tiene algunas limitaciones. Para empezar, utilizaron mesas bajas, lo que facilitó al robot ver sus objetos. Kumar y Silver también imprimieron en 3D un mango acoplable que hizo que Spot pudiera agarrar el cepillo con mayor facilidad. El robot no detectó algunos elementos e identificó objetos en los lugares equivocados, por lo que los investigadores contabilizaron esos errores como fallas.
Darle tareas a los robots
Los investigadores señalan que la velocidad de práctica de los experimentos físicos podría acelerarse aún más con la ayuda de un simulador. En lugar de trabajar físicamente en cada habilidad de forma autónoma, el robot podría combinar la práctica real y virtual. Esperan que su sistema sea más rápido y tenga menos latencia, diseñando EES para superar los retrasos en la obtención de imágenes que experimentaron los investigadores. En el futuro, podrían investigar un algoritmo que razone sobre secuencias de intentos de práctica en lugar de planificar qué habilidades perfeccionar.
“Permitir que los robots aprendan por sí solos es increíblemente útil y extremadamente desafiante”, dice Danfei Xu, profesor asistente en la Escuela de Computación Interactiva de Georgia Tech y científico investigador de NVIDIA AI, que no participó en este trabajo. “En el futuro, los robots domésticos se venderán a todo tipo de hogares y se esperará que realicen una amplia gama de tareas. No podemos programar todo lo que necesitan saber de antemano, por lo que es esencial que puedan aprender sobre la marcha. Sin embargo, dejar que los robots exploren y aprendan sin guía puede ser muy lento y podría tener consecuencias no deseadas. La investigación de Silver y sus colegas presenta un algoritmo que permite a los robots practicar sus habilidades de forma autónoma y estructurada. Este es un gran paso hacia la creación de robots domésticos que puedan evolucionar y mejorar continuamente por sí solos”.
Los coautores de Silver y Kumar son los investigadores del AI Institute Stephen Proulx y Jennifer Barry, además de cuatro miembros de CSAIL: el estudiante de doctorado de la Northeastern University e investigador visitante Linfeng Zhao, el estudiante de doctorado del MIT EECS Willie McClinton y los profesores del MIT EECS Leslie Pack Kaelbling y Tomás Lozano-Pérez. Su trabajo fue financiado, en parte, por el AI Institute, la Fundación Nacional de Ciencias de los Estados Unidos, la Oficina de Investigación Científica de la Fuerza Aérea de los Estados Unidos, la Oficina de Investigación Naval de los Estados Unidos, la Oficina de Investigación del Ejército de los Estados Unidos y MIT Quest for Intelligence, con recursos de computación de alto rendimiento del MIT SuperCloud y el Centro de Supercomputación del Laboratorio Lincoln.