Los datos son el nuevo suelo, y en este nuevo terreno fértil, los investigadores del MIT están plantando algo más que píxeles. Al utilizar imágenes sintéticas para entrenar modelos de aprendizaje automático, un equipo de científicos superó recientemente los resultados obtenidos con los métodos tradicionales de entrenamiento con «imagenes reales».
En el centro del enfoque se encuentra un sistema llamado StableRep, que no utiliza simplemente imágenes sintéticas; los genera a través de modelos ultrapopulares de conversión de texto a imagen como Stable Diffusion. Es como crear mundos con palabras.
Entonces, ¿qué hay en la salsa secreta de StableRep? Una estrategia llamada “aprendizaje contrastivo multipositivo”.
«Estamos enseñando al modelo a aprender más sobre conceptos de alto nivel a través del contexto y la variación, no solo alimentándolo con datos», dice Lijie Fan, estudiante de doctorado en ingeniería eléctrica del MIT, filial del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL). ), investigador principal del trabajo. «Cuando se generan varias imágenes, todas generadas a partir del mismo texto, todas tratadas como representaciones de lo mismo subyacente, el modelo profundiza en los conceptos detrás de las imágenes, digamos el objeto, no solo sus píxeles».
Este enfoque considera múltiples imágenes generadas a partir de mensajes de texto idénticos como pares positivos, proporcionando información adicional durante el entrenamiento, no solo agregando más diversidad sino especificando al sistema de visión qué imágenes son similares y cuáles son diferentes. Sorprendentemente, StableRep eclipsó la destreza de los modelos de primer nivel entrenados en imágenes reales, como SimCLR y CLIP, en extensos conjuntos de datos.
“Si bien StableRep ayuda a mitigar los desafíos de la adquisición de datos en el aprendizaje automático, también marca el comienzo de una nueva era de técnicas de entrenamiento de IA. La capacidad de producir diversas imágenes sintéticas de alto calibre podría ayudar a reducir gastos y recursos engorrosos”, afirma Fan.
El proceso de recopilación de datos nunca ha sido sencillo. En la década de 1990, los investigadores tuvieron que capturar fotografías manualmente para ensamblar conjuntos de datos de objetos y rostros. En la década de 2000, las personas buscaban datos en Internet. Sin embargo, estos datos brutos y no seleccionados a menudo contenían discrepancias en comparación con escenarios del mundo real y reflejaban sesgos sociales, presentando una visión distorsionada de la realidad. La tarea de limpiar conjuntos de datos mediante la intervención humana no sólo es costosa, sino también sumamente desafiante. Imagínese, sin embargo, si esta ardua recopilación de datos pudiera resumirse en algo tan simple como emitir una orden en lenguaje natural.
Un aspecto fundamental del triunfo de StableRep es el ajuste de la «escala de orientación» en el modelo generativo, que garantiza un delicado equilibrio entre la diversidad y la fidelidad de las imágenes sintéticas. Cuando se ajustaron con precisión, se descubrió que las imágenes sintéticas utilizadas en el entrenamiento de estos modelos autosupervisados eran tan efectivas, si no más, que las imágenes reales.
Dando un paso más, se agregó la supervisión del idioma a la mezcla, creando una variante mejorada: StableRep+. Cuando se entrenó con 20 millones de imágenes sintéticas, StableRep+ no solo logró una precisión superior sino que también mostró una eficiencia notable en comparación con los modelos CLIP entrenados con la asombrosa cantidad de 50 millones de imágenes reales.
Sin embargo, el camino por delante no está exento de baches. Los investigadores abordan con franqueza varias limitaciones, incluida la lentitud actual de generación de imágenes, los desajustes semánticos entre las indicaciones de texto y las imágenes resultantes, la posible amplificación de los sesgos y las complejidades en la atribución de imágenes, todo lo cual es imperativo abordar para futuros avances. Otro problema es que StableRep requiere entrenar primero el modelo generativo con datos reales a gran escala. El equipo reconoce que empezar con datos reales sigue siendo una necesidad; sin embargo, cuando tiene un buen modelo generativo, puede reutilizarlo para nuevas tareas, como entrenar modelos de reconocimiento y representaciones visuales.
El equipo señala que no han evitado la necesidad de comenzar con datos reales; es solo que una vez que tienes un buen modelo generativo puedes reutilizarlo para nuevas tareas, como entrenar modelos de reconocimiento y representaciones visuales.
Si bien StableRep ofrece una buena solución al disminuir la dependencia de grandes colecciones de imágenes reales, pone de relieve preocupaciones sobre sesgos ocultos dentro de los datos no seleccionados utilizados para estos modelos de texto a imagen. La elección de las indicaciones de texto, parte integral del proceso de síntesis de imágenes, no está completamente libre de sesgos, «lo que indica el papel esencial de la selección meticulosa del texto o la posible curación humana», dice Fan.
“Al utilizar los últimos modelos de conversión de texto a imagen, hemos obtenido un control sin precedentes sobre la generación de imágenes, lo que permite una amplia gama de elementos visuales a partir de una única entrada de texto. Esto supera la recopilación de imágenes del mundo real en eficiencia y versatilidad. Resulta especialmente útil en tareas especializadas, como equilibrar la variedad de imágenes en el reconocimiento de cola larga, lo que presenta un complemento práctico al uso de imágenes reales para el entrenamiento”, afirma Fan. «Nuestro trabajo significa un paso adelante en el aprendizaje visual, hacia el objetivo de ofrecer alternativas de capacitación rentables y al mismo tiempo resaltar la necesidad de mejoras continuas en la calidad y síntesis de los datos».
«Uno de los sueños del aprendizaje de modelos generativos ha sido durante mucho tiempo poder generar datos útiles para el entrenamiento de modelos discriminativos», dice David Fleet, investigador de Google DeepMind y profesor de informática de la Universidad de Toronto, que no participó en el artículo. “Si bien hemos visto algunos signos de vida, el sueño ha sido difícil de alcanzar, especialmente en dominios complejos a gran escala como las imágenes de alta resolución. Este artículo proporciona evidencia convincente, por primera vez que yo sepa, de que el sueño se está convirtiendo en realidad. Muestran que el aprendizaje contrastivo a partir de cantidades masivas de datos de imágenes sintéticas puede producir representaciones que superan a las aprendidas a partir de datos reales a escala, con el potencial de mejorar innumerables tareas de visión posteriores”.
A Fan se une Yonglong Tian PhD ’22 como autores principales del artículo, así como el profesor asociado de ingeniería eléctrica e informática del MIT e investigador principal de CSAIL, Phillip Isola; Huiwen Chang, investigador de Google y miembro del personal técnico de OpenAI; y el científico investigador del personal de Google, Dilip Krishnan. El equipo presentará StableRep en la Conferencia de 2023 sobre sistemas de procesamiento de información neuronal (NeurIPS) en Nueva Orleans.