Un robot doméstico capacitado para realizar tareas domésticas en una fábrica puede dejar de fregar efectivamente el fregadero o sacar la basura cuando se despliega en la cocina de un usuario, ya que este nuevo entorno difiere de su espacio de entrenamiento.
Para evitar esto, los ingenieros a menudo intentan igualar el entorno de entrenamiento simulado lo más cerca posible con el mundo real donde se implementará el agente.
Sin embargo, los investigadores del MIT y en otros lugares ahora han encontrado que, a pesar de esta sabiduría convencional, a veces el entrenamiento en un entorno completamente diferente produce un agente de inteligencia artificial de mejor rendimiento.
Sus resultados indican que, en algunas situaciones, el entrenamiento de un agente de IA simulado en un mundo con menos incertidumbre o «ruido», le permitió funcionar mejor que un agente de IA competidor entrenado en el mismo mundo ruidoso que usaron para probar a ambos agentes.
Los investigadores llaman a este fenómeno inesperado el efecto de entrenamiento en interiores.
“Si aprendemos a jugar al tenis en un entorno interior donde no hay ruido, podríamos ser capaces de dominar más fácilmente diferentes tiros. Luego, si nos mudamos a un entorno más ruidoso, como una cancha de tenis ventosa, podríamos tener una mayor probabilidad de jugar al tenis bien que si comenzamos a aprender en el entorno ventoso «, explica Serena Bono, una asistente de investigación en el MIT Media Lab y Autor principal de un artículo sobre el efecto de entrenamiento interior.
El efecto de entrenamiento en interiores: ganancias inesperadas de los cambios de distribución en la función de transición
Video: Centro del MIT para cerebros, mentes y máquinas
Los investigadores estudiaron este fenómeno entrenando a los agentes de IA para jugar a los juegos de Atari, lo que modificaron al agregar cierta imprevisibilidad. Se sorprendieron al descubrir que el efecto de entrenamiento interior se produjo constantemente en los juegos de Atari y las variaciones del juego.
Esperan que estos resultados alimenten la investigación adicional para desarrollar mejores métodos de capacitación para los agentes de IA.
“Este es un eje completamente nuevo en el que pensar. En lugar de tratar de igualar los entornos de entrenamiento y prueba, podemos construir entornos simulados donde un agente de IA aprende aún mejor ”, agrega el coautor Spandan Madan, un estudiante graduado de la Universidad de Harvard.
Bono y Madan se unen en el periódico por Ishaan Grover, un estudiante graduado del MIT; Mao Yasueda, un estudiante graduado en la Universidad de Yale; Cynthia Breazeal, profesora de artes y ciencias de los medios y líder del grupo de robótica personal en el MIT Media Lab; Hanspeter Pfister, el profesor de informática de Wang en Harvard; y Gabriel Kreiman, profesor de la Facultad de Medicina de Harvard. La investigación se presentará en la Asociación para el Avance de la Conferencia de Inteligencia Artificial.
Problemas de capacitación
Los investigadores se propusieron explorar por qué los agentes de aprendizaje de refuerzo tienden a tener un rendimiento tan triste cuando se prueban en entornos que difieren de su espacio de entrenamiento.
El aprendizaje de refuerzo es un método de prueba y error en el que el agente explora un espacio de capacitación y aprende a tomar medidas que maximizan su recompensa.
El equipo desarrolló una técnica para agregar explícitamente una cierta cantidad de ruido a un elemento del problema de aprendizaje de refuerzo llamado función de transición. La función de transición define la probabilidad de que un agente se mueva de un estado a otro, según la acción que elija.
Si el agente está jugando Pac-Man, una función de transición podría definir la probabilidad de que los fantasmas en el tablero de juego se muevan hacia arriba, hacia abajo, la izquierda o la derecha. En el aprendizaje de refuerzo estándar, la IA sería entrenada y probada utilizando la misma función de transición.
Los investigadores agregaron ruido a la función de transición con este enfoque convencional y, como se esperaba, perjudicó el rendimiento de Pac-Man del agente.
Pero cuando los investigadores entrenaron al agente con un juego de Pac-Man sin ruido, lo probaron en un entorno donde inyectaron ruido en la función de transición, funcionó mejor que un agente entrenado en el ruidoso juego.
“La regla general es que debe intentar capturar la función de transición de la condición de despliegue, así como puede durante la capacitación para obtener el máximo rendimiento por su dinero. Realmente probamos esta visión hasta la muerte porque no podíamos creerlo nosotros mismos ”, dice Madan.
Inyectar cantidades variables de ruido en la función de transición permitió a los investigadores probar muchos entornos, pero no creó juegos realistas. Cuanto más ruido inyectara en Pac-Man, más probabilidades de los fantasmas se teletransportan al azar a diferentes cuadrados.
Para ver si el efecto de entrenamiento en interiores ocurrió en los juegos normales de Pac-Man, ajustaron las probabilidades subyacentes, por lo que los fantasmas se movían normalmente, pero tenían más probabilidades de moverse hacia arriba y hacia abajo, en lugar de izquierda y derecha. Los agentes de IA entrenados en entornos libres de ruido aún funcionaban mejor en estos juegos realistas.
“No solo se debió a la forma en que agregamos ruido para crear entornos ad hoc. Esto parece ser una propiedad del problema de aprendizaje de refuerzo. Y eso fue aún más sorprendente verlo ”, dice Bono.
Exploración de exploración
Cuando los investigadores cavaron más profundamente en busca de una explicación, vieron algunas correlaciones en cómo los agentes de IA exploran el espacio de entrenamiento.
Cuando ambos agentes de IA exploran principalmente las mismas áreas, el agente entrenado en el entorno no ruido funciona mejor, tal vez porque es más fácil para el agente aprender las reglas del juego sin la interferencia del ruido.
Si sus patrones de exploración son diferentes, entonces el agente entrenado en el entorno ruidoso tiende a funcionar mejor. Esto podría ocurrir porque el agente necesita comprender los patrones que no puede aprender en el entorno libre de ruido.
«Si solo aprendo a jugar al tenis con mi derecha en el entorno no ruido, pero luego en el ruidoso, también tengo que jugar con mi revés, no jugaré tan bien en el entorno no ruido», explica Bono .
En el futuro, los investigadores esperan explorar cómo podría ocurrir el efecto de capacitación en interiores en entornos de aprendizaje de refuerzo más complejos, o con otras técnicas como la visión por computadora y el procesamiento del lenguaje natural. También quieren construir entornos de entrenamiento diseñados para aprovechar el efecto de entrenamiento en interiores, lo que podría ayudar a los agentes de IA a funcionar mejor en entornos inciertos.