Imagine un robot con forma de limo que pueda cambiar su forma sin problemas para pasar por espacios estrechos, que podría desplegarse dentro del cuerpo humano para eliminar un elemento no deseado.
Si bien un robot de este tipo aún no existe fuera de un laboratorio, los investigadores están trabajando para desarrollar robots blandos reconfigurables para aplicaciones en atención médica, dispositivos portátiles y sistemas industriales.
Pero, ¿cómo se puede controlar un robot blando que no tiene articulaciones, extremidades o dedos que puedan manipularse y que, en cambio, puede alterar drásticamente toda su forma a voluntad? Los investigadores del MIT están trabajando para responder esa pregunta.
Desarrollaron un algoritmo de control que puede aprender de forma autónoma cómo mover, estirar y dar forma a un robot reconfigurable para completar una tarea específica, incluso cuando esa tarea requiere que el robot cambie su morfología varias veces. El equipo también construyó un simulador para probar algoritmos de control para robots blandos deformables en una serie de tareas desafiantes que cambian de forma.
Su método completó cada una de las ocho tareas que evaluaron y superó a otros algoritmos. La técnica funcionó especialmente bien en tareas multifacéticas. Por ejemplo, en una prueba, el robot tuvo que reducir su altura mientras le crecían dos patas diminutas para pasar a través de un tubo estrecho, y luego hacer crecer esas piernas y extender su torso para abrir la tapa del tubo.
Si bien los robots blandos reconfigurables aún están en su infancia, dicha técnica podría algún día permitir robots de uso general que puedan adaptar sus formas para realizar diversas tareas.
“Cuando la gente piensa en robots blandos, tiende a pensar en robots que son elásticos, pero que vuelven a su forma original. Nuestro robot es como un limo y, de hecho, puede cambiar su morfología. Es muy sorprendente que nuestro método haya funcionado tan bien porque estamos ante algo muy nuevo”, afirma Boyuan Chen, estudiante de posgrado en ingeniería eléctrica e informática (EECS) y coautor de un artículo sobre este enfoque.
Los coautores de Chen incluyen al autor principal Suning Huang, un estudiante universitario de la Universidad Tsinghua en China que completó este trabajo mientras era estudiante visitante en el MIT; Huazhe Xu, profesor asistente de la Universidad de Tsinghua; y el autor principal Vincent Sitzmann, profesor asistente de EECS en el MIT que dirige el Grupo de Representación de Escenas en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial. La investigación se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje.
Controlar el movimiento dinámico
Los científicos suelen enseñar a los robots a completar tareas utilizando un enfoque de aprendizaje automático conocido como aprendizaje por refuerzo, que es un proceso de prueba y error en el que el robot es recompensado por acciones que lo acercan a una meta.
Esto puede resultar eficaz cuando las partes móviles del robot son consistentes y están bien definidas, como una pinza con tres dedos. Con una pinza robótica, un algoritmo de aprendizaje por refuerzo podría mover ligeramente un dedo, aprendiendo por prueba y error si ese movimiento le otorga una recompensa. Luego pasaría al siguiente dedo y así sucesivamente.
Pero los robots que cambian de forma, controlados por campos magnéticos, pueden aplastar, doblar o alargar dinámicamente todo su cuerpo.
Los investigadores construyeron un simulador para probar algoritmos de control para robots blandos deformables en una serie de tareas desafiantes que cambian de forma. Aquí, un robot reconfigurable aprende a alargar y curvar su cuerpo blando para sortear obstáculos y alcanzar un objetivo.Imagen: Cortesía de los investigadores.
«Un robot de este tipo podría tener miles de pequeños trozos de músculo que controlar, por lo que es muy difícil aprenderlo de forma tradicional», afirma Chen.
Para solucionar este problema, él y sus colaboradores tuvieron que pensarlo de otra manera. En lugar de mover cada pequeño músculo individualmente, su algoritmo de aprendizaje por refuerzo comienza aprendiendo a controlar grupos de músculos adyacentes que trabajan juntos.
Luego, después de que el algoritmo ha explorado el espacio de posibles acciones centrándose en grupos de músculos, profundiza en detalles más finos para optimizar la política o plan de acción que ha aprendido. De esta forma, el algoritmo de control sigue una metodología de grueso a fino.
“De grueso a fino significa que cuando se realiza una acción aleatoria, es probable que esa acción aleatoria marque la diferencia. El cambio en el resultado probablemente sea muy significativo porque se controlan de forma aproximada varios músculos al mismo tiempo”, dice Sitzmann.
Para permitir esto, los investigadores tratan el espacio de acción de un robot, o cómo puede moverse en un área determinada, como una imagen.
Su modelo de aprendizaje automático utiliza imágenes del entorno del robot para generar un espacio de acción 2D, que incluye el robot y el área que lo rodea. Simulan el movimiento del robot utilizando lo que se conoce como el método del punto material, donde el espacio de acción está cubierto por puntos, como píxeles de la imagen, y superpuestos con una cuadrícula.
De la misma manera que se relacionan los píxeles cercanos en una imagen (como los píxeles que forman un árbol en una foto), construyeron su algoritmo para comprender que los puntos de acción cercanos tienen correlaciones más fuertes. Los puntos alrededor del «hombro» del robot se moverán de manera similar cuando cambie de forma, mientras que los puntos en la «pierna» del robot también se moverán de manera similar, pero de manera diferente que los del «hombro».
Además, los investigadores utilizan el mismo modelo de aprendizaje automático para observar el entorno y predecir las acciones que debe realizar el robot, lo que lo hace más eficiente.
Construyendo un simulador
Después de desarrollar este enfoque, los investigadores necesitaban una forma de probarlo, por lo que crearon un entorno de simulación llamado DittoGym.
DittoGym presenta ocho tareas que evalúan la capacidad de un robot reconfigurable para cambiar de forma dinámicamente. En uno, el robot debe alargar y curvar su cuerpo para poder sortear obstáculos y alcanzar un punto objetivo. En otro, debe cambiar su forma para imitar las letras del alfabeto.
En esta simulación, el robot blando reconfigurable, entrenado utilizando el algoritmo de control de los investigadores, debe cambiar su forma para imitar objetos, como estrellas y las letras MIT.Imagen: Cortesía de los investigadores.
“Nuestra selección de tareas en DittoGym sigue tanto los principios de diseño de referencia de aprendizaje por refuerzo genérico como las necesidades específicas de los robots reconfigurables. Cada tarea está diseñada para representar ciertas propiedades que consideramos importantes, como la capacidad de navegar a través de exploraciones de largo horizonte, la capacidad de analizar el entorno e interactuar con objetos externos”, dice Huang. «Creemos que juntos pueden brindar a los usuarios una comprensión integral de la flexibilidad de los robots reconfigurables y la efectividad de nuestro esquema de aprendizaje por refuerzo».
Su algoritmo superó a los métodos básicos y fue la única técnica adecuada para completar tareas de varias etapas que requerían varios cambios de forma.
«Tenemos una correlación más fuerte entre los puntos de acción que están más cerca unos de otros, y creo que eso es clave para que esto funcione tan bien», dice Chen.
Si bien pueden pasar muchos años antes de que los robots que cambian de forma se implementen en el mundo real, Chen y sus colaboradores esperan que su trabajo inspire a otros científicos no sólo a estudiar robots blandos reconfigurables sino también a pensar en aprovechar los espacios de acción 2D para otros problemas de control complejos.