Si alguien le aconseja «conocer sus límites», probablemente le esté sugiriendo que haga cosas como hacer ejercicio con moderación. Sin embargo, para un robot, el lema representa restricciones de aprendizaje, o limitaciones de una tarea específica dentro del entorno de la máquina, para realizar las tareas de forma segura y correcta.
Por ejemplo, imagine pedirle a un robot que limpie su cocina cuando no comprende la física de su entorno. ¿Cómo puede la máquina generar un plan práctico de varios pasos para garantizar que la habitación esté impecable? Los modelos de lenguaje grande (LLM) pueden acercarlos, pero si el modelo solo se entrena con texto, es probable que pierda detalles clave sobre las limitaciones físicas del robot, como qué tan lejos puede llegar o si hay obstáculos cercanos que evitar. Cíñete solo a los LLM y es probable que termines limpiando las manchas de pasta de las tablas del piso.
Para guiar a los robots en la ejecución de estas tareas abiertas, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT utilizaron modelos de visión para ver qué hay cerca de la máquina y modelar sus limitaciones. La estrategia del equipo implica que un LLM esboce un plan que se verifica en un simulador para garantizar que sea seguro y realista. Si esa secuencia de acciones es inviable, el modelo de lenguaje generará un nuevo plan, hasta llegar a uno que el robot pueda ejecutar.
Este método de prueba y error, que los investigadores denominan «Planificación de robots mediante código para la satisfacción continua de restricciones» (PRoC3S), prueba planes a largo plazo para garantizar que satisfagan todas las restricciones y permite que un robot realice tareas tan diversas como escribir. letras individuales, dibujar una estrella y clasificar y colocar bloques en diferentes posiciones. En el futuro, PRoC3S podría ayudar a los robots a completar tareas más complejas en entornos dinámicos como las casas, donde se les puede pedir que realicen una tarea general compuesta de muchos pasos (como “prepárame el desayuno”).
«Los LLM y los sistemas robóticos clásicos, como los planificadores de tareas y movimientos, no pueden ejecutar este tipo de tareas por sí solos, pero juntos, su sinergia hace posible la resolución abierta de problemas», dice el estudiante de doctorado Nishanth Kumar SM ’24, codirector autor de un nuevo artículo sobre PRoC3S. “Estamos creando una simulación sobre la marcha de lo que rodea al robot y probando muchos planes de acción posibles. Los modelos de visión nos ayudan a crear un mundo digital muy realista que permite al robot razonar sobre acciones factibles para cada paso de un plan a largo plazo”.
El trabajo del equipo se presentó el mes pasado en un documento presentado en la Conferencia sobre Aprendizaje de Robots (CoRL) en Munich, Alemania.
Enseñarle a un robot sus límites para tareas abiertas
CON CSAIL
El método de los investigadores utiliza un LLM previamente capacitado en textos de Internet. Antes de pedirle a PRoC3S que realizara una tarea, el equipo proporcionó a su modelo de lenguaje una tarea de muestra (como dibujar un cuadrado) que está relacionada con la tarea objetivo (dibujar una estrella). La tarea de muestra incluye una descripción de la actividad, un plan a largo plazo y detalles relevantes sobre el entorno del robot.
Pero, ¿cómo les fue a estos planes en la práctica? En las simulaciones, PRoC3S dibujó con éxito estrellas y letras ocho de cada 10 veces cada una. También podría apilar bloques digitales en pirámides y líneas, y colocar elementos con precisión, como frutas en un plato. En cada una de estas demostraciones digitales, el método CSAIL completó la tarea solicitada de manera más consistente que enfoques comparables como «LLM3» y «Code as Policies».
A continuación, los ingenieros de CSAIL llevaron su enfoque al mundo real. Su método desarrolló y ejecutó planos en un brazo robótico, enseñándole a colocar bloques en línea recta. PRoC3S también permitió a la máquina colocar bloques azules y rojos en tazones iguales y mover todos los objetos cerca del centro de una mesa.
Kumar y el coautor principal Aidan Curtis SM ’23, quien también es estudiante de doctorado que trabaja en CSAIL, dicen que estos hallazgos indican cómo un LLM puede desarrollar planes más seguros en los que los humanos puedan confiar para funcionar en la práctica. Los investigadores imaginan un robot doméstico al que se le pueda dar una solicitud más general (como «tráeme algunos chips») y descubrir de manera confiable los pasos específicos necesarios para ejecutarla. PRoC3S podría ayudar a un robot a probar planes en un entorno digital idéntico para encontrar un curso de acción que funcione y, lo que es más importante, ofrecerle un refrigerio sabroso.
Para trabajos futuros, los investigadores pretenden mejorar los resultados utilizando un simulador de física más avanzado y ampliarlos a tareas más elaboradas y con horizontes más amplios mediante técnicas de búsqueda de datos más escalables. Además, planean aplicar PRoC3S a robots móviles, como un cuadrúpedo, para tareas que incluyan caminar y escanear los alrededores.
«El uso de modelos básicos como ChatGPT para controlar las acciones de los robots puede provocar comportamientos inseguros o incorrectos debido a alucinaciones», dice el investigador del AI Institute Eric Rosen, que no participa en la investigación. “PRoC3S aborda este problema aprovechando modelos básicos para guiar tareas de alto nivel, mientras emplea técnicas de inteligencia artificial que razonan explícitamente sobre el mundo para garantizar acciones correctas y seguras verificables. Esta combinación de enfoques basados en planificación y basados en datos puede ser clave para desarrollar robots capaces de comprender y realizar de manera confiable una gama de tareas más amplia de lo que es posible actualmente”.
Los coautores de Kumar y Curtis también son afiliados de CSAIL: el investigador universitario del MIT Jing Cao y los profesores del Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT Leslie Pack Kaelbling y Tomás Lozano-Pérez. Su trabajo fue apoyado, en parte, por la Fundación Nacional de Ciencias, la Oficina de Investigación Científica de la Fuerza Aérea, la Oficina de Investigación Naval, la Oficina de Investigación del Ejército, MIT Quest for Intelligence y el Instituto AI.