Un vehículo autónomo debe reconocer con rapidez y precisión los objetos que encuentra, desde un camión de reparto estacionado en una esquina hasta un ciclista que se dirige a toda velocidad hacia una intersección que se aproxima.
Para hacer esto, el vehículo podría usar un potente modelo de visión por computadora para categorizar cada píxel en una imagen de alta resolución de esta escena, de modo que no pierda de vista los objetos que podrían quedar oscurecidos en una imagen de menor calidad. Pero esta tarea, conocida como segmentación semántica, es compleja y requiere una enorme cantidad de cálculo cuando la imagen tiene alta resolución.
Investigadores del MIT, el MIT-IBM Watson AI Lab y otros lugares han desarrollado un modelo de visión por computadora más eficiente que reduce enormemente la complejidad computacional de esta tarea. Su modelo puede realizar una segmentación semántica con precisión en tiempo real en un dispositivo con recursos de hardware limitados, como las computadoras a bordo que permiten a un vehículo autónomo tomar decisiones en fracciones de segundo.
Los modelos de segmentación semántica de última generación aprenden directamente la interacción entre cada par de píxeles de una imagen, por lo que sus cálculos crecen cuadráticamente a medida que aumenta la resolución de la imagen. Debido a esto, si bien estos modelos son precisos, son demasiado lentos para procesar imágenes de alta resolución en tiempo real en un dispositivo periférico como un sensor o un teléfono móvil.
Los investigadores del MIT diseñaron un nuevo bloque de construcción para modelos de segmentación semántica que logra las mismas capacidades que estos modelos de última generación, pero con sólo una complejidad computacional lineal y operaciones eficientes en hardware.
El resultado es una nueva serie de modelos para visión por computadora de alta resolución que funciona hasta nueve veces más rápido que los modelos anteriores cuando se implementa en un dispositivo móvil. Es importante destacar que esta nueva serie de modelos mostró la misma o mejor precisión que estas alternativas.
Esta técnica no solo podría usarse para ayudar a los vehículos autónomos a tomar decisiones en tiempo real, sino que también podría mejorar la eficiencia de otras tareas de visión por computadora de alta resolución, como la segmentación de imágenes médicas.
“Si bien los investigadores han estado utilizando transformadores de visión tradicionales durante bastante tiempo y dan resultados sorprendentes, queremos que la gente también preste atención al aspecto de eficiencia de estos modelos. Nuestro trabajo muestra que es posible reducir drásticamente el cálculo para que esta segmentación de imágenes en tiempo real pueda ocurrir localmente en un dispositivo”, dice Song Han, profesor asociado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS), miembro de del MIT-IBM Watson AI Lab y autor principal del artículo que describe el nuevo modelo.
En el artículo lo acompañan el autor principal Han Cai, estudiante de posgrado de EECS; Junyan Li, estudiante de la Universidad de Zhejiang; Muyan Hu, estudiante universitario de la Universidad de Tsinghua; y Chuang Gan, miembro principal del personal de investigación del Laboratorio de IA Watson del MIT-IBM. La investigación se presentará en la Conferencia Internacional sobre Visión por Computadora.
Una solución simplificada
Categorizar cada píxel en una imagen de alta resolución que puede tener millones de píxeles es una tarea difícil para un modelo de aprendizaje automático. Recientemente se ha utilizado con eficacia un nuevo y potente tipo de modelo, conocido como transformador de visión.
Los transformadores se desarrollaron originalmente para el procesamiento del lenguaje natural. En ese contexto, codifican cada palabra de una oración como un token y luego generan un mapa de atención, que captura las relaciones de cada token con todos los demás tokens. Este mapa de atención ayuda al modelo a comprender el contexto cuando hace predicciones.
Usando el mismo concepto, un transformador de visión corta una imagen en parches de píxeles y codifica cada pequeño parche en un token antes de generar un mapa de atención. Al generar este mapa de atención, el modelo utiliza una función de similitud que aprende directamente la interacción entre cada par de píxeles. De esta forma, el modelo desarrolla lo que se conoce como campo receptivo global, lo que significa que puede acceder a todas las partes relevantes de la imagen.
Dado que una imagen de alta resolución puede contener millones de píxeles, divididos en miles de parches, el mapa de atención rápidamente se vuelve enorme. Debido a esto, la cantidad de cálculo crece cuadráticamente a medida que aumenta la resolución de la imagen.
En su nueva serie de modelos, llamada EfficientViT, los investigadores del MIT utilizaron un mecanismo más simple para construir el mapa de atención: reemplazando la función de similitud no lineal con una función de similitud lineal. Como tal, pueden reorganizar el orden de las operaciones para reducir los cálculos totales sin cambiar la funcionalidad y perder el campo receptivo global. Con su modelo, la cantidad de cálculo necesaria para una predicción crece linealmente a medida que aumenta la resolución de la imagen.
“Pero no hay almuerzo gratis. La atención lineal sólo captura el contexto global de la imagen, perdiendo información local, lo que empeora la precisión”, afirma Han.
Para compensar esa pérdida de precisión, los investigadores incluyeron dos componentes adicionales en su modelo, cada uno de los cuales añade sólo una pequeña cantidad de cálculo.
Uno de esos elementos ayuda al modelo a capturar las interacciones de características locales, mitigando la debilidad de la función lineal en la extracción de información local. El segundo, un módulo que permite el aprendizaje multiescala, ayuda al modelo a reconocer objetos grandes y pequeños.
«La parte más crítica aquí es que debemos equilibrar cuidadosamente el rendimiento y la eficiencia», afirma Cai.
Diseñaron EfficientViT con una arquitectura compatible con el hardware, por lo que podría ser más fácil de ejecutar en diferentes tipos de dispositivos, como cascos de realidad virtual o computadoras perimetrales en vehículos autónomos. Su modelo también podría aplicarse a otras tareas de visión por computadora, como la clasificación de imágenes.
Optimización de la segmentación semántica
Cuando probaron su modelo en conjuntos de datos utilizados para la segmentación semántica, descubrieron que funcionaba hasta nueve veces más rápido en una unidad de procesamiento de gráficos (GPU) de Nvidia que otros modelos populares de transformadores de visión, con la misma o mejor precisión.
«Ahora podemos obtener lo mejor de ambos mundos y reducir la informática para que sea lo suficientemente rápida como para poder ejecutarla en dispositivos móviles y en la nube», afirma Han.
A partir de estos resultados, los investigadores quieren aplicar esta técnica para acelerar los modelos generativos de aprendizaje automático, como los que se utilizan para generar nuevas imágenes. También quieren seguir ampliando EfficientViT para otras tareas de visión.
«Los modelos de transformadores eficientes, de los que fue pionero el equipo del profesor Song Han, forman ahora la columna vertebral de técnicas de vanguardia en diversas tareas de visión por computadora, incluida la detección y la segmentación», dice Lu Tian, director senior de algoritmos de IA en AMD, Inc., quien fue no involucrado con este documento. «Su investigación no sólo muestra la eficiencia y capacidad de los transformadores, sino que también revela su inmenso potencial para aplicaciones del mundo real, como la mejora de la calidad de la imagen en los videojuegos».
“La compresión de modelos y el diseño de modelos livianos son temas de investigación cruciales para lograr una computación de IA eficiente, especialmente en el contexto de modelos básicos de gran tamaño. El grupo del profesor Song Han ha demostrado un progreso notable en la compresión y aceleración de los modelos modernos de aprendizaje profundo, en particular los transformadores de visión”, añade Jay Jackson, vicepresidente global de inteligencia artificial y aprendizaje automático de Oracle, que no participó en esta investigación. «Oracle Cloud Infrastructure ha estado apoyando a su equipo para avanzar en esta línea de investigación impactante hacia una IA eficiente y ecológica».