Potentes algoritmos de aprendizaje automático conocidos como modelos de visión y lenguaje, que aprenden a relacionar texto con imágenes, han mostrado resultados notables cuando se les pide generar subtítulos o resumir videos.
Si bien estos modelos destacan en la identificación de objetos, a menudo tienen dificultades para comprender conceptos, como los atributos de los objetos o la disposición de los elementos en una escena. Por ejemplo, un modelo de visión y lenguaje podría reconocer la taza y la mesa en una imagen, pero no captar que la taza está sobre la mesa.
Investigadores del MIT, el MIT-IBM Watson AI Lab y otros lugares han demostrado una nueva técnica que utiliza datos generados por computadora para ayudar a los modelos de visión y lenguaje a superar esta deficiencia.
Los investigadores crearon un conjunto de datos sintéticos de imágenes que representan una amplia gama de escenarios, disposiciones de objetos y acciones humanas, junto con descripciones de texto detalladas. Utilizaron este conjunto de datos anotado para «arreglar» modelos de visión y lenguaje para que puedan aprender conceptos de manera más efectiva. Su técnica garantiza que estos modelos aún puedan hacer predicciones precisas cuando ven imágenes reales.
Cuando probaron modelos sobre comprensión de conceptos, los investigadores descubrieron que su técnica aumentaba la precisión hasta en un 10 por ciento. Esto podría mejorar los sistemas que subtitulan videos automáticamente o mejorar los modelos que brindan respuestas en lenguaje natural a preguntas sobre imágenes, con aplicaciones en campos como el comercio electrónico o la atención médica.
“Con este trabajo, vamos más allá de los sustantivos en el sentido de que vamos más allá de los nombres de los objetos, hacia el concepto semántico de un objeto y todo lo que lo rodea. Nuestra idea era que, cuando un modelo de aprendizaje automático vea objetos en muchas disposiciones diferentes, tendrá una mejor idea de cómo importa la disposición en una escena”, dice Khaled Shehada, estudiante de posgrado en el Departamento de Ingeniería Eléctrica e Informática y coautor de un artículo sobre esta técnica.
Shehada escribió el artículo con la autora principal Paola Cascante-Bonilla, estudiante de posgrado en ciencias de la computación en la Universidad Rice; Aude Oliva, directora de participación estratégica de la industria en el MIT Schwarzman College of Computing, directora del MIT Watson AI Lab del MIT-IBM y científica investigadora senior en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); el autor principal Leonid Karlinsky, miembro del personal de investigación del Laboratorio de IA Watson del MIT-IBM; y otros en el MIT, el MIT-IBM Watson AI Lab, Georgia Tech, Rice University, École des Ponts, Weizmann Institute of Science e IBM Research. El artículo se presentará en la Conferencia Internacional sobre Visión por Computadora.
Centrándose en los objetos
Los modelos de visión y lenguaje normalmente aprenden a identificar objetos en una escena y pueden terminar ignorando los atributos de los objetos, como el color y el tamaño, o las relaciones posicionales, como qué objeto está encima de otro.
Esto se debe al método con el que suelen entrenarse estos modelos, conocido como aprendizaje contrastivo. Este método de entrenamiento implica obligar a un modelo a predecir la correspondencia entre imágenes y texto. Al comparar imágenes naturales, los objetos de cada escena tienden a provocar las diferencias más llamativas. (Quizás una imagen muestra un caballo en un campo mientras que la segunda muestra un velero en el agua).
“Cada imagen podría definirse de forma única por los objetos de la imagen. Entonces, cuando haces aprendizaje contrastivo, simplemente concentrarte en los sustantivos y objetos resolvería el problema. ¿Por qué el modelo haría algo diferente? dice Karlinsky.
Los investigadores intentaron mitigar este problema utilizando datos sintéticos para perfeccionar un modelo de visión y lenguaje. El proceso de ajuste implica modificar un modelo que ya ha sido entrenado para mejorar su desempeño en una tarea específica.
Usaron una computadora para crear automáticamente videos sintéticos con diversos entornos y objetos en 3D, como muebles y equipaje, y agregaron avatares humanos que interactuaban con los objetos.
Utilizando fotogramas individuales de estos vídeos, generaron casi 800.000 imágenes fotorrealistas y luego combinaron cada una con un título detallado. Los investigadores desarrollaron una metodología para anotar cada aspecto de la imagen para capturar los atributos de los objetos, las relaciones posicionales y las interacciones entre humanos y objetos de forma clara y consistente en subtítulos densos.
Debido a que los investigadores crearon las imágenes, pudieron controlar la apariencia y posición de los objetos, así como el género, la vestimenta, las poses y las acciones de los avatares humanos.
“Los datos sintéticos permiten mucha diversidad. Con imágenes reales, es posible que no tengas muchos elefantes en una habitación, pero con datos sintéticos, si quieres, podrías tener un elefante rosa en una habitación con un humano”, dice Cascante-Bonilla.
Los datos sintéticos también tienen otras ventajas. Son más baratos de generar que los datos reales, pero las imágenes son muy fotorrealistas. También preservan la privacidad porque en las imágenes no se muestran humanos reales. Y, dado que los datos los produce automáticamente una computadora, se pueden generar rápidamente en cantidades masivas.
Al utilizar diferentes puntos de vista de la cámara, o cambiar ligeramente las posiciones o atributos de los objetos, los investigadores crearon un conjunto de datos con una variedad mucho más amplia de escenarios que los que se encontrarían en un conjunto de datos natural.
Afina, pero no lo olvides
Sin embargo, cuando se ajusta un modelo con datos sintéticos, existe el riesgo de que el modelo «olvide» lo que aprendió cuando se entrenó originalmente con datos reales.
Los investigadores emplearon algunas técnicas para prevenir este problema, como ajustar los datos sintéticos para que los colores, la iluminación y las sombras coincidan más con los que se encuentran en las imágenes naturales. También hicieron ajustes al funcionamiento interno del modelo después de realizar ajustes para reducir aún más cualquier olvido.
Su conjunto de datos sintéticos y su estrategia de ajuste mejoraron la capacidad de los modelos populares de visión y lenguaje para reconocer conceptos con precisión hasta en un 10 por ciento. Al mismo tiempo, los modelos no olvidaron lo que ya habían aprendido.
Ahora que han demostrado cómo se pueden utilizar datos sintéticos para resolver este problema, los investigadores quieren identificar formas de mejorar la calidad visual y la diversidad de estos datos, así como la física subyacente que hace que las escenas sintéticas parezcan realistas. Además, planean probar los límites de la escalabilidad e investigar si la mejora del modelo comienza a estabilizarse con conjuntos de datos sintéticos más grandes y diversos.
Esta investigación está financiada, en parte, por la Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU., la Fundación Nacional de Ciencias y el Laboratorio de IA Watson del MIT-IBM.