Campos que van desde la robótica hasta la medicina y las ciencias políticas están intentando entrenar sistemas de inteligencia artificial para tomar decisiones significativas de todo tipo. Por ejemplo, utilizar un sistema de inteligencia artificial para controlar de forma inteligente el tráfico en una ciudad congestionada podría ayudar a los conductores a llegar a sus destinos más rápido, al tiempo que mejora la seguridad o la sostenibilidad.
Desafortunadamente, enseñar a un sistema de IA a tomar buenas decisiones no es una tarea fácil.
Los modelos de aprendizaje por refuerzo, que subyacen a estos sistemas de toma de decisiones de IA, todavía fallan a menudo cuando se enfrentan incluso a pequeñas variaciones en las tareas para las que están entrenados. En el caso del tráfico, un modelo podría tener dificultades para controlar un conjunto de intersecciones con diferentes límites de velocidad, números de carriles o patrones de tráfico.
Para aumentar la confiabilidad de los modelos de aprendizaje por refuerzo para tareas complejas con variabilidad, los investigadores del MIT han introducido un algoritmo más eficiente para entrenarlos.
El algoritmo selecciona estratégicamente las mejores tareas para entrenar a un agente de IA para que pueda realizar de manera efectiva todas las tareas de un conjunto de tareas relacionadas. En el caso del control de semáforos, cada tarea podría ser una intersección en un espacio de tareas que incluya todas las intersecciones de la ciudad.
Al centrarse en un número menor de intersecciones que contribuyen más a la eficacia general del algoritmo, este método maximiza el rendimiento manteniendo bajo el coste de formación.
Los investigadores descubrieron que su técnica era entre cinco y 50 veces más eficiente que los enfoques estándar en una variedad de tareas simuladas. Esta ganancia en eficiencia ayuda al algoritmo a aprender una mejor solución de manera más rápida y, en última instancia, mejora el rendimiento del agente de IA.
“Pudimos ver mejoras de rendimiento increíbles, con un algoritmo muy simple, pensando de manera innovadora. Un algoritmo que no es muy complicado tiene más posibilidades de ser adoptado por la comunidad porque es más fácil de implementar y más fácil de entender para otros”, dice la autora principal Cathy Wu, profesora asociada de desarrollo profesional de Thomas D. y Virginia W. Cabot. en Ingeniería Civil y Ambiental (CEE) y del Instituto de Datos, Sistemas y Sociedad (IDSS), y miembro del Laboratorio de Sistemas de Información y Decisión (LIDS).
En el artículo la acompañan el autor principal Jung-Hoon Cho, un estudiante de posgrado de CEE; Vindula Jayawardana, estudiante de posgrado del Departamento de Ingeniería Eléctrica e Informática (EECS); y Sirui Li, estudiante de posgrado del IDSS. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Encontrar un término medio
Para entrenar un algoritmo para controlar los semáforos en muchas intersecciones de una ciudad, un ingeniero normalmente elegiría entre dos enfoques principales. Puede entrenar un algoritmo para cada intersección de forma independiente, usando solo los datos de esa intersección, o entrenar un algoritmo más grande usando datos de todas las intersecciones y luego aplicarlo a cada una.
Pero cada enfoque tiene sus desventajas. Entrenar un algoritmo separado para cada tarea (como una intersección determinada) es un proceso que requiere mucho tiempo y una enorme cantidad de datos y cálculos, mientras que entrenar un algoritmo para todas las tareas a menudo conduce a un rendimiento deficiente.
Wu y sus colaboradores buscaron un punto óptimo entre estos dos enfoques.
Para su método, eligen un subconjunto de tareas y entrenan un algoritmo para cada tarea de forma independiente. Es importante destacar que seleccionan estratégicamente las tareas individuales que tienen más probabilidades de mejorar el rendimiento general del algoritmo en todas las tareas.
Aprovechan un truco común del campo del aprendizaje por refuerzo llamado aprendizaje por transferencia de disparo cero, en el que un modelo ya entrenado se aplica a una nueva tarea sin recibir más entrenamiento. Con el aprendizaje por transferencia, el modelo a menudo funciona notablemente bien en la tarea del nuevo vecino.
«Sabemos que sería ideal entrenar en todas las tareas, pero nos preguntábamos si podríamos entrenar en un subconjunto de esas tareas, aplicar el resultado a todas las tareas y aun así ver un aumento en el rendimiento», dice Wu.
Para identificar qué tareas deberían seleccionar para maximizar el rendimiento esperado, los investigadores desarrollaron un algoritmo llamado Aprendizaje por transferencia basado en modelos (MBTL).
El algoritmo MBTL tiene dos partes. Por un lado, modela el rendimiento de cada algoritmo si se entrenara de forma independiente en una tarea. Luego modela cuánto se degradaría el rendimiento de cada algoritmo si se transfiriera a otras tareas, un concepto conocido como rendimiento de generalización.
Modelar explícitamente el rendimiento de la generalización permite a MBTL estimar el valor del entrenamiento en una nueva tarea.
MBTL hace esto de forma secuencial, eligiendo primero la tarea que conduce a la mayor ganancia de rendimiento y luego seleccionando tareas adicionales que proporcionen las mayores mejoras marginales posteriores al rendimiento general.
Dado que MBTL sólo se centra en las tareas más prometedoras, puede mejorar drásticamente la eficiencia del proceso de formación.
Reducir los costes de formación
Cuando los investigadores probaron esta técnica en tareas simuladas, incluido el control de señales de tráfico, la gestión de avisos de velocidad en tiempo real y la ejecución de varias tareas de control clásicas, resultó entre cinco y 50 veces más eficiente que otros métodos.
Esto significa que podrían llegar a la misma solución entrenándose con muchos menos datos. Por ejemplo, con un aumento de eficiencia 50 veces mayor, el algoritmo MBTL podría entrenarse en solo dos tareas y lograr el mismo rendimiento que un método estándar que utiliza datos de 100 tareas.
«Desde la perspectiva de los dos enfoques principales, eso significa que los datos de las otras 98 tareas no eran necesarios o que el entrenamiento en las 100 tareas es confuso para el algoritmo, por lo que el rendimiento termina peor que el nuestro», dice Wu.
Con MBTL, agregar incluso una pequeña cantidad de tiempo de entrenamiento adicional podría conducir a un rendimiento mucho mejor.
En el futuro, los investigadores planean diseñar algoritmos MBTL que puedan extenderse a problemas más complejos, como espacios de tareas de alta dimensión. También están interesados en aplicar su enfoque a problemas del mundo real, especialmente en los sistemas de movilidad de próxima generación.
La investigación está financiada, en parte, por un premio CAREER de la Fundación Nacional de Ciencias, el programa de becas de doctorado de la Fundación Educativa Kwanjeong y una beca de doctorado en Robótica de Amazon.