La visión periférica permite a los humanos ver formas que no están directamente en nuestra línea de visión, aunque con menos detalle. Esta capacidad amplía nuestro campo de visión y puede resultar de ayuda en muchas situaciones, como por ejemplo detectar un vehículo que se acerca a nuestro coche por el lateral.
A diferencia de los humanos, la IA no tiene visión periférica. Equipar modelos de visión por computadora con esta capacidad podría ayudarlos a detectar peligros que se aproximan de manera más efectiva o predecir si un conductor humano notaría un objeto que se aproxima.
Dando un paso en esta dirección, los investigadores del MIT desarrollaron un conjunto de datos de imágenes que les permite simular la visión periférica en modelos de aprendizaje automático. Descubrieron que entrenar modelos con este conjunto de datos mejoraba la capacidad de los modelos para detectar objetos en la periferia visual, aunque los modelos aún funcionaban peor que los humanos.
Sus resultados también revelaron que, a diferencia de los humanos, ni el tamaño de los objetos ni la cantidad de desorden visual en una escena tuvieron un fuerte impacto en el rendimiento de la IA.
“Aquí está sucediendo algo fundamental. Probamos muchos modelos diferentes, e incluso cuando los entrenamos, mejoran un poco, pero no se parecen mucho a los humanos. Entonces la pregunta es: ¿Qué falta en estos modelos?” dice Vasha DuTell, postdoctorada y coautora de un artículo que detalla este estudio.
Responder a esa pregunta puede ayudar a los investigadores a construir modelos de aprendizaje automático que puedan ver el mundo de forma más parecida a como lo ven los humanos. Además de mejorar la seguridad del conductor, estos modelos podrían usarse para desarrollar pantallas que sean más fáciles de ver para las personas.
Además, una comprensión más profunda de la visión periférica en los modelos de IA podría ayudar a los investigadores a predecir mejor el comportamiento humano, añade la autora principal Anne Harrington MEng ’23.
“Modelar la visión periférica, si realmente podemos capturar la esencia de lo que se representa en la periferia, puede ayudarnos a comprender las características de una escena visual que hacen que nuestros ojos se muevan para recopilar más información”, explica.
Sus coautores incluyen a Mark Hamilton, un estudiante de posgrado en ingeniería eléctrica e informática; Ayush Tewari, postdoctorado; Simon Stent, director de investigación del Instituto de Investigación Toyota; y los autores principales William T. Freeman, profesor Thomas y Gerd Perkins de Ingeniería Eléctrica e Informática y miembro del Laboratorio de Informática e Inteligencia Artificial (CSAIL); y Ruth Rosenholtz, científica investigadora principal del Departamento de Ciencias Cognitivas y del Cerebro y miembro de CSAIL. La investigación se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje.
“Cada vez que un ser humano interactúa con una máquina (un automóvil, un robot, una interfaz de usuario) es muy importante comprender lo que la persona puede ver. La visión periférica desempeña un papel fundamental en esa comprensión”, afirma Rosenholtz.
Simulando la visión periférica
Extienda el brazo frente a usted y levante el pulgar; la fóvea ve el área pequeña alrededor de la uña, la pequeña depresión en el medio de la retina que proporciona la visión más nítida. Todo lo demás que puedes ver está en tu periferia visual. Su corteza visual representa una escena con menos detalles y confiabilidad a medida que se aleja de ese punto de enfoque nítido.
Muchos enfoques existentes para modelar la visión periférica en IA representan este detalle deteriorado al difuminar los bordes de las imágenes, pero la pérdida de información que ocurre en el nervio óptico y la corteza visual es mucho más compleja.
Para lograr un enfoque más preciso, los investigadores del MIT comenzaron con una técnica utilizada para modelar la visión periférica en humanos. Conocido como modelo de mosaico de texturas, este método transforma imágenes para representar la pérdida de información visual de un ser humano.
Modificaron este modelo para que pudiera transformar imágenes de manera similar, pero de una manera más flexible que no requiere saber de antemano hacia dónde apuntará la persona o la IA.
«Eso nos permitió modelar fielmente la visión periférica de la misma manera que se hace en la investigación de la visión humana», dice Harrington.
Los investigadores utilizaron esta técnica modificada para generar un enorme conjunto de datos de imágenes transformadas que parecen más texturizadas en ciertas áreas, para representar la pérdida de detalle que ocurre cuando un humano mira más hacia la periferia.
Luego utilizaron el conjunto de datos para entrenar varios modelos de visión por computadora y compararon su desempeño con el de los humanos en una tarea de detección de objetos.
“Tuvimos que ser muy inteligentes a la hora de configurar el experimento para poder probarlo también en los modelos de aprendizaje automático. No queríamos tener que volver a entrenar a los modelos en una tarea de juguete que no debían realizar”, dice.
Rendimiento peculiar
A los humanos y a los modelos se les mostraron pares de imágenes transformadas que eran idénticas, excepto que una imagen tenía un objeto objetivo ubicado en la periferia. Luego, se pidió a cada participante que eligiera la imagen con el objeto objetivo.
“Una cosa que realmente nos sorprendió fue lo buena que era la gente para detectar objetos en su periferia. Revisamos al menos 10 conjuntos diferentes de imágenes que eran demasiado fáciles. Seguimos necesitando utilizar objetos cada vez más pequeños”, añade Harrington.
Los investigadores descubrieron que entrenar modelos desde cero con su conjunto de datos conducía a mayores aumentos de rendimiento, mejorando su capacidad para detectar y reconocer objetos. El ajuste de un modelo con su conjunto de datos, un proceso que implica ajustar un modelo previamente entrenado para que pueda realizar una nueva tarea, dio como resultado menores ganancias de rendimiento.
Pero en todos los casos, las máquinas no eran tan buenas como los humanos y eran especialmente malas para detectar objetos en la periferia lejana. Su desempeño tampoco siguió los mismos patrones que los humanos.
“Eso podría sugerir que los modelos no utilizan el contexto de la misma manera que los humanos para realizar estas tareas de detección. La estrategia de los modelos podría ser diferente”, afirma Harrington.
Los investigadores planean continuar explorando estas diferencias, con el objetivo de encontrar un modelo que pueda predecir el desempeño humano en la periferia visual. Esto podría habilitar sistemas de inteligencia artificial que alerten a los conductores sobre peligros que tal vez no vean, por ejemplo. También esperan inspirar a otros investigadores a realizar estudios adicionales de visión por computadora con su conjunto de datos disponible públicamente.
“Este trabajo es importante porque contribuye a nuestra comprensión de que la visión humana en la periferia no debe considerarse simplemente una visión empobrecida debido a los límites en el número de fotorreceptores que tenemos, sino más bien una representación optimizada para que podamos realizar tareas de real «Consecuencia mundial», dice Justin Gardner, profesor asociado del Departamento de Psicología de la Universidad de Stanford que no participó en este trabajo. “Además, el trabajo muestra que los modelos de redes neuronales, a pesar de sus avances en los últimos años, no pueden igualar el desempeño humano en este sentido, lo que debería conducir a más investigaciones sobre IA para aprender de la neurociencia de la visión humana. Esta investigación futura se verá favorecida significativamente por la base de datos de imágenes proporcionadas por los autores para imitar la visión humana periférica”.
Este trabajo cuenta con el apoyo, en parte, del Toyota Research Institute y la beca MIT CSAIL METEOR.