Las computadoras poseen dos capacidades notables con respecto a las imágenes: pueden identificarlas y generarlas de nuevo. Históricamente, estas funciones han estado separadas, como los actos dispares de un chef que es bueno creando platos (generación) y un conocedor que es bueno degustando platos (reconocimiento).
Sin embargo, uno no puede dejar de preguntarse: ¿Qué se necesitaría para orquestar una unión armoniosa entre estas dos capacidades distintivas? Tanto el chef como el conocedor comparten un entendimiento común sobre el sabor de la comida. De manera similar, un sistema de visión unificado requiere una comprensión profunda del mundo visual.
Ahora, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han entrenado un sistema para inferir las partes faltantes de una imagen, una tarea que requiere una comprensión profunda del contenido de la imagen. Al completar con éxito los espacios en blanco, el sistema, conocido como codificador generativo enmascarado (MAGE), logra dos objetivos al mismo tiempo: identificar imágenes con precisión y crear otras nuevas con un parecido sorprendente con la realidad.
Este sistema de doble propósito permite innumerables aplicaciones potenciales, como la identificación y clasificación de objetos dentro de las imágenes, el aprendizaje rápido a partir de ejemplos mínimos, la creación de imágenes en condiciones específicas como texto o clase, y la mejora de imágenes existentes.
A diferencia de otras técnicas, MAGE no funciona con píxeles sin procesar. En su lugar, convierte las imágenes en lo que se denomina «tokens semánticos», que son versiones compactas, aunque abstractas, de una sección de imagen. Piense en estas fichas como piezas de un mini rompecabezas, cada una de las cuales representa un parche de 16×16 de la imagen original. Así como las palabras forman oraciones, estos tokens crean una versión abstracta de una imagen que se puede usar para tareas de procesamiento complejas, al tiempo que conserva la información de la imagen original. Tal paso de tokenización se puede entrenar dentro de un marco autosupervisado, lo que le permite entrenarse previamente en grandes conjuntos de datos de imágenes sin etiquetas.
Ahora, la magia comienza cuando MAGE usa «modelado de fichas enmascaradas». Oculta aleatoriamente algunos de estos tokens, creando un rompecabezas incompleto, y luego entrena una red neuronal para llenar los vacíos. De esta forma, aprende tanto a comprender los patrones de una imagen (reconocimiento de imágenes) como a generar otros nuevos (generación de imágenes).
«Una parte destacable de MAGE es su estrategia de enmascaramiento variable durante el preentrenamiento, lo que le permite entrenar para tareas, generación de imágenes o reconocimiento, dentro del mismo sistema», dice Tianhong Li, estudiante de doctorado en ingeniería eléctrica e informática en el MIT. , afiliado de CSAIL y autor principal de un artículo sobre la investigación. “La capacidad de MAGE para trabajar en el ‘espacio de fichas’ en lugar del ‘espacio de píxeles’ da como resultado una generación de imágenes claras, detalladas y de alta calidad, así como representaciones de imágenes semánticamente ricas. Con suerte, esto podría allanar el camino para modelos de visión por computadora avanzados e integrados”.
Además de su capacidad para generar imágenes realistas desde cero, MAGE también permite la generación de imágenes condicionales. Los usuarios pueden especificar ciertos criterios para las imágenes que desean que MAGE genere, y la herramienta creará la imagen adecuada. También es capaz de realizar tareas de edición de imágenes, como eliminar elementos de una imagen manteniendo una apariencia realista.
Las tareas de reconocimiento son otro punto fuerte de MAGE. Con su capacidad para entrenar previamente en grandes conjuntos de datos sin etiquetar, puede clasificar imágenes usando solo las representaciones aprendidas. Además, sobresale en el aprendizaje de pocas tomas, logrando resultados impresionantes en grandes conjuntos de datos de imágenes como ImageNet con solo un puñado de ejemplos etiquetados.
La validación del desempeño de MAGE ha sido impresionante. Por un lado, estableció nuevos récords en la generación de nuevas imágenes, superando a los modelos anteriores con una mejora significativa. Por otro lado, MAGE superó las tareas de reconocimiento, logrando una precisión del 80,9 % en el sondeo lineal y una precisión del 71,9 % en 10 disparos en ImageNet (esto significa que identificó correctamente las imágenes en el 71,9 % de los casos en los que solo tenía 10 ejemplos etiquetados de cada uno). clase).
A pesar de sus fortalezas, el equipo de investigación reconoce que MAGE es un trabajo en progreso. El proceso de convertir imágenes en fichas conduce inevitablemente a cierta pérdida de información. Están ansiosos por explorar formas de comprimir imágenes sin perder detalles importantes en trabajos futuros. El equipo también tiene la intención de probar MAGE en conjuntos de datos más grandes. La exploración futura podría incluir la capacitación de MAGE en conjuntos de datos sin etiquetar más grandes, lo que podría conducir a un rendimiento aún mejor.
“Ha sido un largo sueño lograr la generación de imágenes y el reconocimiento de imágenes en un solo sistema. MAGE es una investigación innovadora que aprovecha con éxito la sinergia de estas dos tareas y logra el estado del arte de ellas en un solo sistema”, dice Huisheng Wang, ingeniero de software sénior de humanos e interacciones en Investigación e Inteligencia de Máquinas. división de Google, que no participó en el trabajo. “Este innovador sistema tiene una amplia gama de aplicaciones y tiene el potencial de inspirar muchos trabajos futuros en el campo de la visión artificial”.
Li escribió el artículo junto con Dina Katabi, profesora de Thuan y Nicole Pham en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT e investigadora principal de CSAIL; Huiwen Chang, científico investigador sénior de Google; Shlok Kumar Mishra, estudiante de doctorado de la Universidad de Maryland y pasante de Google Research; Han Zhang, un estudiante de último año científico investigador de Google; y Dilip Krishnan, científico investigador del personal de Google. Los recursos computacionales fueron proporcionados por Google Cloud Platform y MIT-IBM Watson Research Collaboration. La investigación del equipo se presentó en la Conferencia de 2023 sobre visión artificial y reconocimiento de patrones.