A medida que los modelos de inteligencia artificial se vuelven cada vez más comunes y se integran en diversos sectores como la atención médica, las finanzas, la educación, el transporte y el entretenimiento, es fundamental comprender cómo funcionan en profundidad. Interpretar los mecanismos subyacentes a los modelos de IA nos permite auditarlos en cuanto a seguridad y sesgos, con el potencial de profundizar nuestra comprensión de la ciencia detrás de la inteligencia en sí.
Imaginemos que pudiéramos investigar directamente el cerebro humano manipulando cada una de sus neuronas individuales para examinar su papel en la percepción de un objeto en particular. Si bien un experimento de este tipo sería prohibitivamente invasivo en el cerebro humano, es más factible en otro tipo de red neuronal: una que sea artificial. Sin embargo, de manera similar al cerebro humano, los modelos artificiales que contienen millones de neuronas son demasiado grandes y complejos para estudiarlos a mano, lo que hace que la interpretación a escala sea una tarea muy difícil.
Para abordar este problema, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT decidieron adoptar un enfoque automatizado para interpretar modelos de visión artificial que evalúan diferentes propiedades de las imágenes. Desarrollaron “MAIA” (Multimodal Automated Interpretability Agent), un sistema que automatiza una variedad de tareas de interpretación de redes neuronales utilizando una estructura básica de modelos de visión y lenguaje equipados con herramientas para experimentar en otros sistemas de IA.
“Nuestro objetivo es crear un investigador de IA que pueda realizar experimentos de interpretabilidad de forma autónoma. Los métodos de interpretabilidad automatizados existentes simplemente etiquetan o visualizan datos en un proceso único. Por otro lado, MAIA puede generar hipótesis, diseñar experimentos para probarlas y refinar su comprensión a través del análisis iterativo”, dice Tamar Rott Shaham, investigadora posdoctoral en ingeniería eléctrica y ciencias de la computación (EECS) del MIT en CSAIL y coautora de un nuevo artículo sobre la investigación. “Al combinar un modelo de lenguaje de visión previamente entrenado con una biblioteca de herramientas de interpretabilidad, nuestro método multimodal puede responder a las consultas de los usuarios componiendo y ejecutando experimentos específicos en modelos específicos, refinando continuamente su enfoque hasta que pueda proporcionar una respuesta integral”.
El agente automatizado ha demostrado abordar tres tareas clave: etiqueta los componentes individuales dentro de los modelos de visión y describe los conceptos visuales que los activan, limpia los clasificadores de imágenes eliminando características irrelevantes para hacerlos más robustos ante nuevas situaciones y busca sesgos ocultos en los sistemas de IA para ayudar a descubrir posibles problemas de imparcialidad en sus resultados. «Pero una ventaja clave de un sistema como MAIA es su flexibilidad», dice Sarah Schwettmann, PhD ’21, científica investigadora en CSAIL y codirectora de la investigación. «Demostramos la utilidad de MAIA en algunas tareas específicas, pero dado que el sistema está construido a partir de un modelo de base con amplias capacidades de razonamiento, puede responder a muchos tipos diferentes de consultas de interpretación de los usuarios y diseñar experimentos sobre la marcha para investigarlas».
Neurona por neurona
En una tarea de ejemplo, un usuario humano le pide a MAIA que describa los conceptos que una neurona en particular dentro de un modelo de visión es responsable de detectar. Para investigar esta cuestión, MAIA primero utiliza una herramienta que recupera «ejemplares de conjuntos de datos» del conjunto de datos ImageNet, que activan al máximo la neurona. Para esta neurona de ejemplo, esas imágenes muestran personas con atuendo formal y primeros planos de sus barbillas y cuellos. MAIA formula varias hipótesis sobre lo que impulsa la actividad de la neurona: expresiones faciales, barbillas o corbatas. MAIA luego usa sus herramientas para diseñar experimentos para probar cada hipótesis individualmente generando y editando imágenes sintéticas: en un experimento, agregar una pajarita a una imagen de un rostro humano aumenta la respuesta de la neurona. «Este enfoque nos permite determinar la causa específica de la actividad de la neurona, de manera muy similar a un experimento científico real», dice Rott Shaham.
Las explicaciones de MAIA sobre el comportamiento de las neuronas se evalúan de dos maneras clave. En primer lugar, se utilizan sistemas sintéticos con comportamientos reales conocidos para evaluar la precisión de las interpretaciones de MAIA. En segundo lugar, para las neuronas “reales” dentro de sistemas de IA entrenados sin descripciones reales, los autores diseñan un nuevo protocolo de evaluación automatizada que mide qué tan bien las descripciones de MAIA predicen el comportamiento de las neuronas en datos no vistos.
El método dirigido por CSAIL superó a los métodos de referencia que describen neuronas individuales en una variedad de modelos de visión, como ResNet, CLIP y el transformador de visión DINO. MAIA también tuvo un buen desempeño en el nuevo conjunto de datos de neuronas sintéticas con descripciones de verdad fundamental conocidas. Tanto para los sistemas reales como para los sintéticos, las descripciones a menudo estuvieron a la par con las descripciones escritas por expertos humanos.
¿Cómo son útiles las descripciones de los componentes de los sistemas de IA, como las neuronas individuales? “Comprender y localizar los comportamientos dentro de los grandes sistemas de IA es una parte clave de la auditoría de la seguridad de estos sistemas antes de su implementación. En algunos de nuestros experimentos, mostramos cómo se puede utilizar MAIA para encontrar neuronas con comportamientos no deseados y eliminar estos comportamientos de un modelo”, afirma Schwettmann. “Estamos avanzando hacia un ecosistema de IA más resistente en el que las herramientas para comprender y monitorear los sistemas de IA sigan el ritmo de la escalabilidad del sistema, lo que nos permitirá investigar y, con suerte, comprender los desafíos imprevistos que introducen los nuevos modelos”.
Echando un vistazo al interior de las redes neuronales
El naciente campo de la interpretabilidad está madurando y se está convirtiendo en un área de investigación independiente junto con el auge de los modelos de aprendizaje automático de “caja negra”. ¿Cómo pueden los investigadores descifrar estos modelos y comprender cómo funcionan?
Los métodos actuales para espiar el interior de un sistema tienden a ser limitados, ya sea en escala o en la precisión de las explicaciones que pueden producir. Además, los métodos existentes tienden a ajustarse a un modelo particular y a una tarea específica. Esto llevó a los investigadores a preguntarse: ¿cómo podemos construir un sistema genérico para ayudar a los usuarios a responder preguntas de interpretabilidad sobre los modelos de IA y, al mismo tiempo, combinar la flexibilidad de la experimentación humana con la escalabilidad de las técnicas automatizadas?
Un aspecto crítico que querían que este sistema abordara era el sesgo. Para determinar si los clasificadores de imágenes mostraban sesgo contra subcategorías particulares de imágenes, el equipo examinó la capa final del flujo de clasificación (en un sistema diseñado para ordenar o etiquetar elementos, de forma muy similar a una máquina que identifica si una foto es de un perro, un gato o un pájaro) y las puntuaciones de probabilidad de las imágenes de entrada (niveles de confianza que la máquina asigna a sus suposiciones). Para comprender los posibles sesgos en la clasificación de imágenes, se le pidió a MAIA que encontrara un subconjunto de imágenes en clases específicas (por ejemplo, «labrador retriever») que probablemente estuvieran etiquetadas incorrectamente por el sistema. En este ejemplo, MAIA descubrió que era probable que las imágenes de labradores negros estuvieran mal clasificadas, lo que sugiere un sesgo en el modelo hacia los retrievers de pelaje amarillo.
Como MAIA depende de herramientas externas para diseñar experimentos, su rendimiento está limitado por la calidad de esas herramientas. Pero, a medida que mejore la calidad de herramientas como los modelos de síntesis de imágenes, también lo hará MAIA. MAIA también muestra sesgo de confirmación en ocasiones, donde a veces confirma incorrectamente su hipótesis inicial. Para mitigar esto, los investigadores crearon una herramienta de conversión de imagen a texto, que utiliza una instancia diferente del modelo de lenguaje para resumir los resultados experimentales. Otro modo de falla es el sobreajuste a un experimento en particular, donde el modelo a veces llega a conclusiones prematuras basadas en evidencia mínima.
“Creo que el siguiente paso natural para nuestro laboratorio es ir más allá de los sistemas artificiales y aplicar experimentos similares a la percepción humana”, afirma Rott Shaham. “Para probar esto, tradicionalmente se ha requerido diseñar y probar estímulos manualmente, lo que requiere mucho trabajo. Con nuestro agente, podemos ampliar este proceso, diseñando y probando numerosos estímulos simultáneamente. Esto también podría permitirnos comparar la percepción visual humana con sistemas artificiales”.
“Comprender las redes neuronales es difícil para los humanos porque tienen cientos de miles de neuronas, cada una con patrones de comportamiento complejos. MAIA ayuda a superar esta situación desarrollando agentes de IA que pueden analizar automáticamente estas neuronas e informar a los humanos de los resultados de una manera fácil de digerir”, afirma Jacob Steinhardt, profesor adjunto de la Universidad de California en Berkeley, que no participó en la investigación. “Ampliar estos métodos podría ser una de las vías más importantes para comprender y supervisar de forma segura los sistemas de IA”.
A Rott Shaham y Schwettmann se suman cinco compañeros afiliados a CSAIL en el artículo: el estudiante de pregrado Franklin Wang; el estudiante entrante del MIT Achyuta Rajaram; el estudiante de doctorado de EECS Evan Hernandez SM ’22; y los profesores de EECS Jacob Andreas y Antonio Torralba. Su trabajo fue financiado, en parte, por el MIT-IBM Watson AI Lab, Open Philanthropy, Hyundai Motor Co., el Army Research Laboratory, Intel, la National Science Foundation, el Zuckerman STEM Leadership Program y la Viterbi Fellowship. Los hallazgos de los investigadores se presentarán en la Conferencia Internacional sobre Aprendizaje Automático esta semana.