Ya sea que estés describiendo el sonido del motor de tu auto averiado o maullando como el gato de tu vecino, imitar sonidos con tu voz puede ser una forma útil de transmitir un concepto cuando las palabras no funcionan.
La imitación vocal es el equivalente sonoro de garabatear una imagen rápida para comunicar algo que viste, excepto que en lugar de usar un lápiz para ilustrar una imagen, usas tu tracto vocal para expresar un sonido. Esto puede parecer difícil, pero es algo que todos hacemos intuitivamente: para experimentarlo por ti mismo, intenta usar tu voz para reflejar el sonido de la sirena de una ambulancia, un cuervo o el sonido de una campana.
Inspirándose en la ciencia cognitiva de cómo nos comunicamos, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han desarrollado un sistema de inteligencia artificial que puede producir imitaciones vocales similares a las humanas sin entrenamiento y sin haber «escuchado» antes una impresión vocal humana. .
Para lograr esto, los investigadores diseñaron su sistema para producir e interpretar sonidos de manera muy similar a como lo hacemos nosotros. Comenzaron construyendo un modelo del tracto vocal humano que simula cómo las vibraciones de la laringe son moldeadas por la garganta, la lengua y los labios. Luego, utilizaron un algoritmo de IA de inspiración cognitiva para controlar este modelo de tracto vocal y hacer que produzca imitaciones, teniendo en cuenta las formas específicas del contexto que los humanos eligen para comunicar el sonido.
El modelo puede tomar efectivamente muchos sonidos del mundo y generar una imitación humana de ellos, incluidos ruidos como el crujido de las hojas, el silbido de una serpiente y la sirena de una ambulancia que se acerca. Su modelo también se puede ejecutar a la inversa para adivinar sonidos del mundo real a partir de imitaciones vocales humanas, de manera similar a cómo algunos sistemas de visión por computadora pueden recuperar imágenes de alta calidad basadas en bocetos. Por ejemplo, el modelo puede distinguir correctamente el sonido de un humano que imita el «maullido» de un gato frente a su «silbido».
En el futuro, este modelo podría conducir a interfaces más intuitivas “basadas en imitaciones” para diseñadores de sonido, personajes de IA más parecidos a los humanos en realidad virtual e incluso métodos para ayudar a los estudiantes a aprender nuevos idiomas.
Los coautores principales, los estudiantes de doctorado del MIT CSAIL Kartik Chandra SM ’23 y Karima Ma, y el investigador universitario Matthew Caren, señalan que los investigadores de gráficos por computadora han reconocido desde hace mucho tiempo que el realismo rara vez es el objetivo final de la expresión visual. Por ejemplo, una pintura abstracta o un garabato hecho con crayones por un niño pueden ser tan expresivos como una fotografía.
«En las últimas décadas, los avances en los algoritmos de dibujo han dado lugar a nuevas herramientas para los artistas, avances en la inteligencia artificial y la visión por computadora, e incluso una comprensión más profunda de la cognición humana», señala Chandra. “De la misma manera que un boceto es una representación abstracta y no fotorrealista de una imagen, nuestro método captura la representación abstracta y no fotorrealista.-Maneras realistas en que los humanos expresan los sonidos que escuchan. Esto nos enseña sobre el proceso de abstracción auditiva”.
«El objetivo de este proyecto ha sido comprender y modelar computacionalmente la imitación vocal, que consideramos una especie de equivalente auditivo del dibujo en el dominio visual», dice Caren.
El arte de la imitación, en tres partes
El equipo desarrolló tres versiones del modelo cada vez más matizadas para compararlas con imitaciones vocales humanas. Primero, crearon un modelo de referencia que simplemente apuntaba a generar imitaciones que fueran lo más similares posible a los sonidos del mundo real, pero este modelo no se correspondía muy bien con el comportamiento humano.
Luego, los investigadores diseñaron un segundo modelo «comunicativo». Según Caren, este modelo considera lo que es distintivo de un sonido para el oyente. Por ejemplo, probablemente imitarías el sonido de una lancha a motor imitando el ruido de su motor, ya que esa es su característica auditiva más distintiva, incluso si no es el aspecto más fuerte del sonido (en comparación con, digamos, el chapoteo del agua). Este segundo modelo creó imitaciones mejores que la línea base, pero el equipo quería mejorarlo aún más.
Para llevar su método un paso más allá, los investigadores agregaron una última capa de razonamiento al modelo. “Las imitaciones vocales pueden sonar diferentes según la cantidad de esfuerzo que les pongas. Cuesta tiempo y energía producir sonidos que sean perfectamente precisos”, afirma Chandra. El modelo completo de los investigadores tiene en cuenta esto al tratar de evitar expresiones muy rápidas, fuertes, agudas o graves, que es menos probable que las personas utilicen en una conversación. El resultado: más imitaciones humanas que se asemejan mucho a muchas de las decisiones que toman los humanos al imitar los mismos sonidos.
Después de construir este modelo, el equipo llevó a cabo un experimento de comportamiento para ver si los jueces humanos percibían mejor las imitaciones vocales generadas por IA o por humanos. En particular, los participantes en el experimento prefirieron el modelo de IA el 25 por ciento de las veces en general, y hasta el 75 por ciento por una imitación de una lancha a motor y el 50 por ciento por una imitación de un disparo.
Hacia una tecnología de sonido más expresiva
Apasionada por la tecnología para la música y el arte, Caren imagina que este modelo podría ayudar a los artistas a comunicar mejor los sonidos a los sistemas computacionales y ayudar a los cineastas y otros creadores de contenido a generar sonidos de IA que tengan más matices para un contexto específico. También podría permitir a un músico buscar rápidamente en una base de datos de sonidos imitando un ruido que es difícil de describir, por ejemplo, en un mensaje de texto.
Mientras tanto, Caren, Chandra y Ma están analizando las implicaciones de su modelo en otros ámbitos, incluido el desarrollo del lenguaje, cómo los bebés aprenden a hablar e incluso conductas de imitación en pájaros como loros y pájaros cantores.
El equipo todavía tiene trabajo que hacer con la iteración actual de su modelo: tiene problemas con algunas consonantes, como la «z», lo que llevó a impresiones inexactas de algunos sonidos, como el zumbido de las abejas. Tampoco pueden aún replicar cómo los humanos imitan el habla, la música o los sonidos que se imitan de manera diferente en distintos idiomas, como el latido del corazón.
El profesor de lingüística de la Universidad de Stanford, Robert Hawkins, dice que el lenguaje está lleno de onomatopeyas y palabras que imitan pero no replican completamente las cosas que describen, como el sonido «maullido» que se aproxima de manera muy inexacta al sonido que emiten los gatos. «Los procesos que nos llevan del sonido de un gato real a una palabra como ‘maullido’ revelan mucho sobre la intrincada interacción entre la fisiología, el razonamiento social y la comunicación en la evolución del lenguaje», dice Hawkins, que no participó en la investigación del CSAIL. «Este modelo presenta un paso emocionante hacia la formalización y prueba de teorías de esos procesos, demostrando que tanto las limitaciones físicas del tracto vocal humano como las presiones sociales de la comunicación son necesarias para explicar la distribución de las imitaciones vocales».
Caren, Chandra y Ma escribieron el artículo con otros dos afiliados de CSAIL: Jonathan Ragan-Kelley, profesor asociado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT, y Joshua Tenenbaum, profesor de Ciencias Cognitivas y Cerebrales del MIT y Centro para Cerebros, Mentes y Máquinas. miembro. Su trabajo fue apoyado, en parte, por la Fundación Hertz y la Fundación Nacional de Ciencias. Se presentó en SIGGRAPH Asia a principios de diciembre.