Imagina que un robot te está ayudando a limpiar los platos. Le pides que agarre un tazón jabonoso del fregadero, pero su pinza pierde ligeramente la marca.
Utilizando un nuevo marco desarrollado por los investigadores del MIT y NVIDIA, podría corregir el comportamiento de ese robot con interacciones simples. El método le permitiría apuntar al tazón o rastrear una trayectoria en una pantalla, o simplemente darle un empujón al brazo del robot en la dirección correcta.
A diferencia de otros métodos para corregir el comportamiento del robot, esta técnica no requiere que los usuarios recopilen nuevos datos y vuelvan a entrenar el modelo de aprendizaje automático que alimenta el cerebro del robot. Permite que un robot use comentarios humanos intuitivos y en tiempo real para elegir una secuencia de acción factible que se acerque lo más posible para satisfacer la intención del usuario.
Cuando los investigadores probaron su marco, su tasa de éxito fue un 21 por ciento más alta que un método alternativo que no aprovechó las intervenciones humanas.
A la larga, este marco podría permitir que un usuario guíe más fácilmente a un robot capacitado en fábrica para realizar una amplia variedad de tareas domésticas a pesar de que el robot nunca ha visto su hogar o los objetos en él.
“No podemos esperar que laicos realice una recopilación de datos y ajuste un modelo de red neuronal. El consumidor esperará que el robot funcione fuera de la caja, y si no es así, querría un mecanismo intuitivo para personalizarlo. Ese es el desafío que abordamos en este trabajo ”, dice Felix Yanwei Wang, estudiante graduado de Ingeniería Eléctrica e Informática (CEE) y autor principal de un artículo sobre este método.
Sus coautores incluyen a Lirui Wang PhD ’24 y Yilun du PhD ’24; La autora senior Julie Shah, profesora del MIT de aeronáutica y astronautia y directora del Grupo de Robótica Interactiva en el Laboratorio de Informática e Inteligencia Artificial (CSAIL); así como Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Perez-D’arpino PhD ’19 y Dieter Fox of Nvidia. La investigación se presentará en la Conferencia Internacional sobre Robots y Automatización.
Mitigación de desalineación
Recientemente, los investigadores han comenzado a usar modelos de IA generativos previamente entrenados para aprender una «política» o un conjunto de reglas, que un robot sigue para completar una acción. Los modelos generativos pueden resolver múltiples tareas complejas.
Durante el entrenamiento, el modelo solo ve movimientos de robot factibles, por lo que aprende a generar trayectorias válidas para que el robot lo siga.
Si bien estas trayectorias son válidas, eso no significa que siempre se alineen con la intención de un usuario en el mundo real. El robot podría haber sido entrenado para agarrar cajas de un estante sin derribarlos, pero podría no alcanzar la caja encima de la estantería de alguien si el estante está orientado de manera diferente a las que vio en el entrenamiento.
Para superar estas fallas, los ingenieros generalmente recopilan datos que demuestran la nueva tarea y vuelven a entrenar el modelo generativo, un proceso costoso y que requiere mucho tiempo que requiere experiencia en el aprendizaje automático.
En cambio, los investigadores del MIT querían permitir a los usuarios dirigir el comportamiento del robot durante el despliegue cuando comete un error.
Pero si un humano interactúa con el robot para corregir su comportamiento, eso podría causar inadvertidamente que el modelo generativo elija una acción inválida. Puede llegar a la caja que el usuario desea, pero elimine los libros del estante en el proceso.
«Queremos permitir que el usuario interactúe con el robot sin introducir ese tipo de errores, por lo que obtenemos un comportamiento mucho más alineado con la intención del usuario durante la implementación, pero que también es válido y factible», dice Wang.
Su marco logra esto al proporcionar al usuario tres formas intuitivas de corregir el comportamiento del robot, cada uno de los cuales ofrece ciertas ventajas.
Primero, el usuario puede señalar el objeto que desea que el robot manipule en una interfaz que muestra su vista de cámara. En segundo lugar, pueden rastrear una trayectoria en esa interfaz, lo que les permite especificar cómo quieren que el robot alcance el objeto. En tercer lugar, pueden mover físicamente el brazo del robot en la dirección en la que quieren que siga.
“Cuando mapeas una imagen 2D del entorno a acciones en un espacio 3D, se pierde cierta información. Empujar físicamente el robot es la forma más directa de especificar la intención del usuario sin perder ninguna información ”, dice Wang.
Muestreo para el éxito
Para garantizar que estas interacciones no causen que el robot elija una acción inválida, como colisionar con otros objetos, los investigadores usan un procedimiento de muestreo específico. Esta técnica permite al modelo elegir una acción del conjunto de acciones válidas que se alinea más estrechamente con el objetivo del usuario.
«En lugar de simplemente imponer la voluntad del usuario, le damos al robot una idea de lo que el usuario pretende, pero dejamos que el procedimiento de muestreo oscile en torno a su propio conjunto de comportamientos aprendidos», explica Wang.
Este método de muestreo permitió al marco de los investigadores superar los otros métodos con los que lo compararon durante las simulaciones y experimentos con un brazo robot real en una cocina de juguete.
Si bien su método puede no siempre completar la tarea de inmediato, ofrece a los usuarios la ventaja de poder corregir inmediatamente el robot si lo ven haciendo algo mal, en lugar de esperar a que termine y luego darle nuevas instrucciones.
Además, después de que un usuario empuja el robot varias veces hasta que recoge el tazón correcto, podría registrar esa acción correctiva e incorporarla a su comportamiento a través de la capacitación futura. Luego, al día siguiente, el robot podría recoger el tazón correcto sin necesitar un empujón.
«Pero la clave para esa mejora continua es tener una forma de que el usuario interactúe con el robot, que es lo que hemos mostrado aquí», dice Wang.
En el futuro, los investigadores quieren aumentar la velocidad del procedimiento de muestreo mientras mantienen o mejoran su rendimiento. También quieren experimentar con la generación de políticas de robots en entornos novedosos.