Investigadores del MIT y la Universidad de Stanford han ideado un nuevo enfoque de aprendizaje automático que podría usarse para controlar un robot, como un dron o un vehículo autónomo, de manera más efectiva y eficiente en entornos dinámicos donde las condiciones pueden cambiar rápidamente.
Esta técnica podría ayudar a un vehículo autónomo a aprender a compensar las condiciones de la carretera resbaladiza para evitar derrapar, permitir que un robot volador remolque diferentes objetos en el espacio o permitir que un dron siga de cerca a un esquiador a pesar de ser azotado por fuertes vientos. .
El enfoque de los investigadores incorpora cierta estructura de la teoría de control en el proceso de aprendizaje de un modelo de tal manera que conduce a un método eficaz para controlar dinámicas complejas, como las causadas por los impactos del viento en la trayectoria de un vehículo volador. Una forma de pensar en esta estructura es como una pista que puede ayudar a guiar cómo controlar un sistema.
«El enfoque de nuestro trabajo es aprender la estructura intrínseca en la dinámica del sistema que se puede aprovechar para diseñar controladores estabilizadores más efectivos», dice Navid Azizan, profesor asistente de Esther y Harold E. Edgerton en el Departamento de Ingeniería Mecánica del MIT. y el Instituto de Datos, Sistemas y Sociedad (IDSS), y miembro del Laboratorio de Sistemas de Información y Decisión (LIDS). “Al aprender conjuntamente la dinámica del sistema y estas estructuras únicas orientadas al control a partir de los datos, podemos crear naturalmente controladores que funcionan de manera mucho más efectiva en el mundo real”.
Usando esta estructura en un modelo aprendido, la técnica de los investigadores extrae inmediatamente un controlador efectivo del modelo, a diferencia de otros métodos de aprendizaje automático que requieren que se derive un controlador o que se aprenda por separado con pasos adicionales. Con esta estructura, su enfoque también puede aprender un controlador efectivo utilizando menos datos que otros enfoques. Esto podría ayudar a su sistema de control basado en el aprendizaje a lograr un mejor rendimiento más rápido en entornos que cambian rápidamente.
«Este trabajo trata de lograr un equilibrio entre la identificación de la estructura en su sistema y simplemente aprender un modelo a partir de los datos», dice el autor principal, Spencer M. Richards, estudiante de posgrado en la Universidad de Stanford. “Nuestro enfoque está inspirado en cómo los robóticos usan la física para derivar modelos más simples para robots. El análisis físico de estos modelos a menudo produce una estructura útil para fines de control, una que podría pasar por alto si simplemente intentara ajustar ingenuamente un modelo a los datos. En su lugar, tratamos de identificar una estructura útil similar a partir de datos que indiquen cómo implementar su lógica de control”.
Otros autores del artículo son Jean-Jacques Slotine, profesor de ingeniería mecánica y de ciencias del cerebro y cognitivas en el MIT, y Marco Pavone, profesor asociado de aeronáutica y astronáutica en Stanford. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático (ICML).
Aprendiendo un controlador
Determinar la mejor manera de controlar un robot para realizar una tarea determinada puede ser un problema difícil, incluso cuando los investigadores saben cómo modelar todo sobre el sistema.
Un controlador es la lógica que permite que un dron siga una trayectoria deseada, por ejemplo. Este controlador le diría al dron cómo ajustar las fuerzas de su rotor para compensar el efecto de los vientos que pueden desviarlo de un camino estable para alcanzar su objetivo.
Este dron es un sistema dinámico, un sistema físico que evoluciona con el tiempo. En este caso, su posición y velocidad cambian a medida que vuela por el entorno. Si dicho sistema es lo suficientemente simple, los ingenieros pueden derivar un controlador a mano.
Modelar un sistema a mano captura intrínsecamente una cierta estructura basada en la física del sistema. Por ejemplo, si un robot se modelara manualmente usando ecuaciones diferenciales, estas capturarían la relación entre velocidad, aceleración y fuerza. La aceleración es la tasa de cambio de la velocidad a lo largo del tiempo, que está determinada por la masa y las fuerzas aplicadas al robot.
Pero a menudo el sistema es demasiado complejo para ser modelado exactamente a mano. Los efectos aerodinámicos, como la forma en que el viento arremolinado empuja un vehículo volador, son notoriamente difíciles de obtener manualmente, explica Richards. En cambio, los investigadores tomarían medidas de la posición, la velocidad y las velocidades del rotor del dron a lo largo del tiempo, y usarían el aprendizaje automático para ajustar un modelo de este sistema dinámico a los datos. Pero estos enfoques normalmente no aprenden una estructura basada en el control. Esta estructura es útil para determinar cómo configurar mejor las velocidades del rotor para dirigir el movimiento del dron a lo largo del tiempo.
Una vez que han modelado el sistema dinámico, muchos enfoques existentes también usan datos para aprender un controlador separado para el sistema.
“Otros enfoques que intentan aprender dinámicas y un controlador a partir de datos como entidades separadas están un poco alejados filosóficamente de la forma en que normalmente lo hacemos para sistemas más simples. Nuestro enfoque recuerda más a derivar modelos a mano de la física y vincularlos al control”, dice Richards.
Identificando la estructura
El equipo del MIT y Stanford desarrolló una técnica que utiliza el aprendizaje automático para aprender el modelo dinámico, pero de tal manera que el modelo tiene una estructura prescrita que es útil para controlar el sistema.
Con esta estructura, pueden extraer un controlador directamente del modelo dinámico, en lugar de usar datos para aprender un modelo completamente separado para el controlador.
“Descubrimos que más allá de aprender la dinámica, también es esencial aprender la estructura orientada al control que respalda el diseño efectivo del controlador. Nuestro enfoque de aprendizaje de factorizaciones de coeficientes dependientes del estado de la dinámica ha superado las líneas de base en términos de eficiencia de datos y capacidad de seguimiento, demostrando ser exitoso en el control eficiente y efectivo de la trayectoria del sistema”, dice Azizan.
Cuando probaron este enfoque, su controlador siguió de cerca las trayectorias deseadas, superando todos los métodos de referencia. El controlador extraído de su modelo aprendido casi igualó el rendimiento de un controlador de verdad en tierra, que se construye utilizando la dinámica exacta del sistema.
“Al hacer suposiciones más simples, obtuvimos algo que realmente funcionó mejor que otros enfoques básicos complicados”, agrega Richards.
Los investigadores también descubrieron que su método era eficiente en datos, lo que significa que logró un alto rendimiento incluso con pocos datos. Por ejemplo, podría modelar efectivamente un vehículo impulsado por rotor altamente dinámico utilizando solo 100 puntos de datos. Los métodos que usaban múltiples componentes aprendidos vieron caer su rendimiento mucho más rápido con conjuntos de datos más pequeños.
Esta eficiencia podría hacer que su técnica sea especialmente útil en situaciones en las que un dron o robot necesita aprender rápidamente en condiciones que cambian rápidamente.
Además, su enfoque es general y podría aplicarse a muchos tipos de sistemas dinámicos, desde brazos robóticos hasta naves espaciales de vuelo libre que operan en entornos de baja gravedad.
En el futuro, los investigadores están interesados en desarrollar modelos que sean más interpretables físicamente y que puedan identificar información muy específica sobre un sistema dinámico, dice Richards. Esto podría conducir a controladores de mejor rendimiento.
“A pesar de su ubicuidad e importancia, el control de retroalimentación no lineal sigue siendo un arte, lo que lo hace especialmente adecuado para métodos basados en datos y aprendizaje. Este documento hace una contribución significativa a esta área al proponer un método que aprende conjuntamente la dinámica del sistema, un controlador y una estructura orientada al control”, dice Nikolai Matni, profesor asistente en el Departamento de Ingeniería Eléctrica y de Sistemas de la Universidad de Pensilvania. que no participó en este trabajo. “Lo que encontré particularmente emocionante y convincente fue la integración de estos componentes en un algoritmo de aprendizaje conjunto, de modo que la estructura orientada al control actúa como un sesgo inductivo en el proceso de aprendizaje. El resultado es un proceso de aprendizaje eficiente en datos que genera modelos dinámicos que disfrutan de una estructura intrínseca que permite un control eficaz, estable y sólido. Si bien las contribuciones técnicas del documento son excelentes en sí mismas, es esta contribución conceptual la que considero más emocionante y significativa”.
Esta investigación cuenta con el apoyo, en parte, de la Iniciativa de Liderazgo Universitario de la NASA y el Consejo de Investigación de Ingeniería y Ciencias Naturales de Canadá.