Para enseñarle a un agente de IA una nueva tarea, como cómo abrir un gabinete de cocina, los investigadores suelen utilizar el aprendizaje por refuerzo, un proceso de prueba y error en el que el agente es recompensado por realizar acciones que lo acerquen a la meta.
En muchos casos, un experto humano debe diseñar cuidadosamente una función de recompensa, que es un mecanismo de incentivo que motiva al agente a explorar. El experto humano debe actualizar iterativamente esa función de recompensa a medida que el agente explora e intenta diferentes acciones. Esto puede llevar mucho tiempo, ser ineficiente y difícil de ampliar, especialmente cuando la tarea es compleja e implica muchos pasos.
Investigadores del MIT, la Universidad de Harvard y la Universidad de Washington han desarrollado un nuevo enfoque de aprendizaje por refuerzo que no se basa en una función de recompensa diseñada por expertos. En cambio, aprovecha los comentarios de muchos usuarios no expertos para guiar al agente a medida que aprende a alcanzar su objetivo.
Si bien algunos otros métodos también intentan utilizar comentarios de no expertos, este nuevo enfoque permite al agente de IA aprender más rápidamente, a pesar de que los datos recopilados de los usuarios a menudo están llenos de errores. Estos datos ruidosos pueden provocar que otros métodos fallen.
Además, este nuevo enfoque permite recopilar comentarios de forma asincrónica, de modo que los usuarios no expertos de todo el mundo puedan contribuir a enseñar al agente.
“Una de las partes más desafiantes y que consumen más tiempo en el diseño de un agente robótico hoy en día es diseñar la función de recompensa. Hoy en día, las funciones de recompensa están diseñadas por investigadores expertos, un paradigma que no es escalable si queremos enseñar a nuestros robots muchas tareas diferentes. Nuestro trabajo propone una forma de escalar el aprendizaje de robots mediante el crowdsourcing del diseño de la función de recompensa y haciendo posible que los no expertos brinden retroalimentación útil”, dice Pulkit Agrawal, profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT que dirige el Improbable AI Lab en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL).
En el futuro, este método podría ayudar a un robot a aprender a realizar tareas específicas en el hogar de un usuario rápidamente, sin que el propietario tenga que mostrarle ejemplos físicos de cada tarea. El robot podría explorar por sí solo, con comentarios no expertos de fuentes colaborativas que guiarían su exploración.
“En nuestro método, la función de recompensa guía al agente hacia lo que debe explorar, en lugar de decirle exactamente qué debe hacer para completar la tarea. Entonces, incluso si la supervisión humana es algo inexacta y ruidosa, el agente aún puede explorar, lo que le ayuda a aprender mucho mejor”, explica el autor principal Marcel Torne ’23, asistente de investigación en el Improbable AI Lab.
A Torne se unen en el artículo su asesor del MIT, Agrawal; el autor principal Abhishek Gupta, profesor asistente de la Universidad de Washington; así como otros en la Universidad de Washington y el MIT. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural el próximo mes.
Comentarios ruidosos
Una forma de recopilar comentarios de los usuarios para el aprendizaje por refuerzo es mostrarle dos fotografías de los estados logrados por el agente y luego preguntarle qué estado está más cerca de un objetivo. Por ejemplo, quizás el objetivo de un robot sea abrir un mueble de cocina. Una imagen podría mostrar que el robot abrió el gabinete, mientras que la segunda podría mostrar que abrió el microondas. Un usuario elegiría la foto del estado «mejor».
Algunos enfoques anteriores intentan utilizar esta retroalimentación binaria de colaboración colectiva para optimizar una función de recompensa que el agente usaría para aprender la tarea. Sin embargo, debido a que es probable que los no expertos cometan errores, la función de recompensa puede volverse muy ruidosa, por lo que el agente podría quedarse atascado y nunca alcanzar su objetivo.
“Básicamente, el agente se tomaría demasiado en serio la función de recompensa. Intentaría coincidir perfectamente con la función de recompensa. Entonces, en lugar de optimizar directamente la función de recompensa, simplemente la usamos para decirle al robot qué áreas debería explorar”, dice Torne.
Él y sus colaboradores dividieron el proceso en dos partes separadas, cada una dirigida por su propio algoritmo. Llaman a su nuevo método de aprendizaje por refuerzo HuGE (Exploración guiada por humanos).
Por un lado, un algoritmo de selección de objetivos se actualiza continuamente con comentarios humanos de colaboración colectiva. La retroalimentación no se utiliza como función de recompensa, sino más bien para guiar la exploración del agente. En cierto sentido, los usuarios no expertos dejan caer rutas de navegación que llevan progresivamente al agente hacia su objetivo.
Por otro lado, el agente explora por sí solo, de forma autosupervisada y guiado por el seleccionador de objetivos. Recopila imágenes o vídeos de las acciones que intenta, que luego se envían a humanos y se utilizan para actualizar el selector de objetivos.
Esto reduce el área que el agente puede explorar, lo que lo lleva a áreas más prometedoras y más cercanas a su objetivo. Pero si no hay retroalimentación, o si la retroalimentación tarda un poco en llegar, el agente seguirá aprendiendo por sí solo, aunque de manera más lenta. Esto permite recopilar comentarios con poca frecuencia y de forma asincrónica.
“El ciclo de exploración puede continuar de forma autónoma, porque simplemente explorará y aprenderá cosas nuevas. Y luego, cuando obtenga una mejor señal, se explorará de maneras más concretas. Puedes hacer que giren a su propio ritmo”, añade Torne.
Y debido a que la retroalimentación simplemente guía suavemente el comportamiento del agente, eventualmente aprenderá a completar la tarea incluso si los usuarios brindan respuestas incorrectas.
Aprendizaje más rápido
Los investigadores probaron este método en una serie de tareas simuladas y del mundo real. En la simulación, utilizaron HuGE para aprender eficazmente tareas con largas secuencias de acciones, como apilar bloques en un orden particular o navegar por un gran laberinto.
En pruebas del mundo real, utilizaron HuGE para entrenar brazos robóticos para que dibujaran la letra «U» y seleccionaran y colocaran objetos. Para estas pruebas, reunieron datos de 109 usuarios no expertos en 13 países diferentes en tres continentes.
En experimentos simulados y del mundo real, HuGE ayudó a los agentes a aprender a lograr el objetivo más rápido que otros métodos.
Los investigadores también descubrieron que los datos obtenidos de no expertos produjeron un mejor rendimiento que los datos sintéticos, que fueron producidos y etiquetados por los investigadores. Para los usuarios no expertos, etiquetar 30 imágenes o vídeos llevó menos de dos minutos.
«Esto lo hace muy prometedor en términos de poder ampliar este método», añade Torne.
En un artículo relacionado, que los investigadores presentaron en la reciente Conferencia sobre Aprendizaje de Robots, mejoraron HuGE para que un agente de IA pueda aprender a realizar la tarea y luego restablecer de forma autónoma el entorno para continuar aprendiendo. Por ejemplo, si el agente aprende a abrir un gabinete, el método también guía al agente para que cierre el gabinete.
«Ahora podemos hacer que aprenda de forma completamente autónoma sin necesidad de reinicios humanos», afirma.
Los investigadores también enfatizan que, en este y otros enfoques de aprendizaje, es fundamental garantizar que los agentes de IA estén alineados con los valores humanos.
En el futuro, quieren seguir perfeccionando HuGE para que el agente pueda aprender de otras formas de comunicación, como el lenguaje natural y las interacciones físicas con el robot. También están interesados en aplicar este método para enseñar a varios agentes a la vez.
Esta investigación está financiada, en parte, por el MIT-IBM Watson AI Lab.