Los humanos naturalmente aprenden haciendo conexiones entre la vista y el sonido. Por ejemplo, podemos ver a alguien tocar el violonchelo y reconocer que los movimientos del violonchelista están generando la música que escuchamos.
Un nuevo enfoque desarrollado por investigadores del MIT y en otros lugares mejora la capacidad de un modelo de IA de aprender de esta misma manera. Esto podría ser útil en aplicaciones como el periodismo y la producción de películas, donde el modelo podría ayudar a curar el contenido multimodal a través de videos automáticos y recuperación de audio.
A largo plazo, este trabajo podría usarse para mejorar la capacidad de un robot para comprender los entornos del mundo real, donde la información auditiva y visual a menudo está estrechamente conectada.
Mejorando el trabajo previo de su grupo, los investigadores crearon un método que ayuda a los modelos de aprendizaje automático a alinear los datos de audio y visuales correspondientes de los videoclips sin la necesidad de etiquetas humanas.
Ajustaron cómo se capacita su modelo original, por lo que aprende una correspondencia de grano más fino entre un marco de video en particular y el audio que ocurre en ese momento. Los investigadores también hicieron algunos ajustes arquitectónicos que ayudan al sistema a equilibrar dos objetivos de aprendizaje distintos, lo que mejora el rendimiento.
Tomados en conjunto, estas mejoras relativamente simples aumentan la precisión de su enfoque en las tareas de recuperación de videos y en la clasificación de la acción en escenas audiovisuales. Por ejemplo, el nuevo método podría coincidir de forma automática y precisa el sonido de una puerta golpeando con la visual de que se cierre en un videoclip.
«Estamos construyendo sistemas de IA que pueden procesar el mundo como lo hacen los humanos, en términos de que la información de audio y visual llegue a la vez y sea capaz de procesar a la perfección ambas modalidades. Miramos hacia adelante, si podemos integrar esta tecnología audiovisual en algunas de las herramientas que utilizamos diariamente, como los modelos de idiomas grandes, pueden abrir una gran parte de las nuevas aplicaciones», dice Andrew Cocina, y un co-graduado y cooutor de un estudiante y cooutor de un estudiante y co-graduado de un estudiante y co-graduado de un estudiante de un estudiante y cooutor de un estudiante y co-graduado de un estudiante de un estudiante y cooutor.
Se le une al periódico el autor principal Edson Aroujo, un estudiante graduado en la Universidad de Goethe en Alemania; Yuan Gong, un ex postdoc de MIT; Saurabhchand Bhati, un MIT postdoc actual; Samuel Thomas, Brian Kingsbury y Leonid Karlinsky de IBM Research; Rogerio Feris, científico principal y gerente del laboratorio MIT-IBM Watson AI; James Glass, científico de investigación senior y jefe del Grupo de Sistemas de Lenguas Hablados en el Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL); y la autora senior Hilde Kuehne, profesora de ciencias de la computación en la Universidad de Goethe y profesora afiliada en el MIT-IBM Watson AI Lab. El trabajo se presentará en la conferencia sobre visión por computadora y reconocimiento de patrones.
Sincronizando
Este trabajo se basa en un método de aprendizaje automático que los investigadores desarrollaron hace unos años, que proporcionó una forma eficiente de capacitar a un modelo multimodal para procesar simultáneamente los datos de audio y visual sin la necesidad de etiquetas humanas.
Los investigadores alimentan este modelo, llamado cav-mae, videoclips sin etiquetar y codifica los datos visuales y de audio por separado en representaciones llamadas tokens. Usando el audio natural de la grabación, el modelo aprende automáticamente a mapear los pares de audio y tokens visuales correspondientes que se cierran juntos dentro de su espacio de representación interna.
Descubrieron que el uso de dos objetivos de aprendizaje equilibra el proceso de aprendizaje del modelo, lo que permite a Cav-mae comprender los datos de audio y visuales correspondientes al tiempo que mejora su capacidad para recuperar videoclips que coinciden con las consultas de los usuarios.
Pero Cav-mae trata las muestras de audio y visual como una unidad, por lo que un video clip de 10 segundos y el sonido de un golpe de puerta se asignan juntos, incluso si ese evento de audio ocurre en solo un segundo del video.
En su modelo mejorado, llamado Cav-Mae Sync, los investigadores dividen el audio en ventanas más pequeñas antes de que el modelo calcule sus representaciones de los datos, por lo que genera representaciones separadas que corresponden a cada ventana de audio más pequeña.
Durante la capacitación, el modelo aprende a asociar un marco de video con el audio que ocurre solo durante ese cuadro.
«Al hacer eso, el modelo aprende una correspondencia de grano más fino, que ayuda con el rendimiento más adelante cuando agregamos esta información», dice Araujo.
También incorporaron mejoras arquitectónicas que ayudan al modelo a equilibrar sus dos objetivos de aprendizaje.
Agregar «margen de maniobra»
El modelo incorpora un objetivo contrastante, donde aprende a asociar datos de audio y visuales similares, y un objetivo de reconstrucción que tiene como objetivo recuperar datos de audio y visuales específicos basados en consultas de usuarios.
En Cav-Mae Sync, los investigadores introdujeron dos nuevos tipos de representaciones de datos, o tokens, para mejorar la capacidad de aprendizaje del modelo.
Incluyen «tokens globales» dedicados que ayudan con el objetivo de aprendizaje contrastante y los «tokens de registro» dedicados que ayudan al modelo a centrarse en detalles importantes para el objetivo de reconstrucción.
«Esencialmente, agregamos un poco más de margen de maniobra al modelo para que pueda realizar cada una de estas dos tareas, contrastantes y reconstructivas, un poco más independientes. Eso benefició al rendimiento general», agrega Araujo.
Si bien los investigadores tuvieron cierta intuición, estas mejoras mejorarían el rendimiento de la sincronización Cav-mae, se requirió una cuidadosa combinación de estrategias para cambiar el modelo en la dirección que querían que fuera.
«Debido a que tenemos múltiples modalidades, necesitamos un buen modelo para ambas modalidades por sí mismos, pero también necesitamos que se fusionen y colaboren», dice Rouditchenko.
Al final, sus mejoras mejoraron la capacidad del modelo para recuperar videos basados en una consulta de audio y predecir la clase de una escena de audio visual, como un perro que ladra o un instrumento.
Sus resultados fueron más precisos que su trabajo anterior, y también funcionó mejor que los métodos más complejos y de última generación que requieren mayores cantidades de datos de capacitación.
«A veces, las ideas muy simples o los pequeños patrones que ve en los datos tienen un gran valor cuando se aplica sobre un modelo en el que está trabajando», dice Araujo.
En el futuro, los investigadores quieren incorporar nuevos modelos que generen mejores representaciones de datos en la sincronización Cav-Mae, lo que podría mejorar el rendimiento. También quieren permitir que su sistema maneje los datos de texto, lo que sería un paso importante para generar un modelo de lenguaje grande audiovisual.
Este trabajo es financiado, en parte, por el Ministerio Federal de Educación e Investigación alemán y el Laboratorio MIT-IBM Watson AI.