Explicar el comportamiento de las redes neuronales entrenadas sigue siendo un enigma convincente, especialmente a medida que estos modelos crecen en tamaño y sofisticación. Al igual que otros desafíos científicos a lo largo de la historia, la ingeniería inversa sobre cómo funcionan los sistemas de inteligencia artificial requiere una cantidad sustancial de experimentación: formular hipótesis, intervenir en el comportamiento e incluso diseccionar grandes redes para examinar neuronas individuales. Hasta la fecha, la mayoría de los experimentos exitosos han implicado una gran cantidad de supervisión humana. Es casi seguro que explicar cada cálculo dentro de modelos del tamaño de GPT-4 y mayores requerirá más automatización, tal vez incluso utilizando los propios modelos de IA.
Para facilitar este oportuno esfuerzo, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han desarrollado un enfoque novedoso que utiliza modelos de IA para realizar experimentos en otros sistemas y explicar su comportamiento. Su método utiliza agentes creados a partir de modelos de lenguaje previamente entrenados para producir explicaciones intuitivas de los cálculos dentro de redes entrenadas.
Un elemento central de esta estrategia es el “agente de interpretabilidad automatizada” (AIA), diseñado para imitar los procesos experimentales de un científico. Los agentes de interpretabilidad planifican y realizan pruebas en otros sistemas computacionales, cuya escala puede variar desde neuronas individuales hasta modelos completos, para producir explicaciones de estos sistemas en una variedad de formas: descripciones lingüísticas de lo que hace un sistema y dónde falla, y código que reproduce el comportamiento del sistema. A diferencia de los procedimientos de interpretabilidad existentes que clasifican o resumen pasivamente ejemplos, el AIA participa activamente en la formación de hipótesis, pruebas experimentales y aprendizaje iterativo, refinando así su comprensión de otros sistemas en tiempo real.
Complementando el método AIA está el nuevo punto de referencia de “interpretación y descripción de funciones” (FIND), un banco de pruebas de funciones que se asemejan a cálculos dentro de redes entrenadas y las descripciones que lo acompañan de su comportamiento. Un desafío clave al evaluar la calidad de las descripciones de los componentes de la red del mundo real es que las descripciones son tan buenas como su poder explicativo: los investigadores no tienen acceso a la verdad sobre el terreno. etiquetas de unidades o descripciones de cálculos aprendidos. FIND aborda este problema de larga data en el campo proporcionando un estándar confiable para evaluar los procedimientos de interpretabilidad: las explicaciones de funciones (por ejemplo, producidas por una AIA) pueden evaluarse comparándolas con las descripciones de funciones en el punto de referencia.
Por ejemplo, FIND contiene neuronas sintéticas diseñadas para imitar el comportamiento de neuronas reales dentro de modelos de lenguaje, algunas de las cuales son selectivas para conceptos individuales como «transporte terrestre». Los AIA tienen acceso de caja negra a neuronas sintéticas y diseñan entradas (como “árbol”, “felicidad” y “automóvil”) para probar la respuesta de una neurona. Después de observar que una neurona sintética produce valores de respuesta más altos para el «automóvil» que otras entradas, una AIA podría diseñar pruebas más detalladas para distinguir la selectividad de la neurona por los automóviles de otras formas de transporte, como aviones y barcos. Cuando la AIA produce una descripción como «esta neurona es selectiva para el transporte por carretera, y no para viajes aéreos o marítimos», esta descripción se evalúa con respecto a la descripción real de la neurona sintética («selectiva para el transporte terrestre») en FIND. Luego, el punto de referencia se puede utilizar para comparar las capacidades de los AIA con otros métodos de la literatura.
Sarah Schwettmann PhD ’21, coautora principal de un artículo sobre el nuevo trabajo e investigadora científica en CSAIL, enfatiza las ventajas de este enfoque. “La capacidad de los AIA para generar y probar hipótesis de forma autónoma puede sacar a la luz comportamientos que de otro modo serían difíciles de detectar para los científicos. Es sorprendente que los modelos lingüísticos, cuando están equipados con herramientas para probar otros sistemas, sean capaces de realizar este tipo de diseño experimental”, afirma Schwettmann. «Los puntos de referencia claros y simples con respuestas reales han sido un importante impulsor de capacidades más generales en los modelos de lenguaje, y esperamos que FIND pueda desempeñar un papel similar en la investigación de la interpretabilidad».
Automatización de la interpretabilidad
Los grandes modelos lingüísticos siguen manteniendo su estatus de celebridades más solicitadas del mundo tecnológico. Los avances recientes en los LLM han puesto de relieve su capacidad para realizar tareas de razonamiento complejas en diversos dominios. El equipo de CSAIL reconoció que, dadas estas capacidades, los modelos de lenguaje pueden servir como columna vertebral de agentes generalizados para la interpretabilidad automatizada. «Históricamente, la interpretabilidad ha sido un campo muy multifacético», dice Schwettmann. “No existe un enfoque único que sirva para todos; la mayoría de los procedimientos son muy específicos de las preguntas individuales que podamos tener sobre un sistema y de modalidades individuales como la visión o el lenguaje. Los enfoques existentes para etiquetar neuronas individuales dentro de modelos de visión han requerido el entrenamiento de modelos especializados en datos humanos, donde estos modelos realizan solo esta única tarea. Los agentes de interpretabilidad creados a partir de modelos de lenguaje podrían proporcionar una interfaz general para explicar otros sistemas: sintetizar resultados a través de experimentos, integrarse en diferentes modalidades e incluso descubrir nuevas técnicas experimentales en un nivel muy fundamental”.
A medida que entramos en un régimen donde los modelos que explican son en sí mismos cajas negras, las evaluaciones externas de los métodos de interpretabilidad se vuelven cada vez más vitales. El nuevo punto de referencia del equipo aborda esta necesidad con un conjunto de funciones con estructura conocida, que se modelan a partir de comportamientos observados en la naturaleza. Las funciones dentro de FIND abarcan una diversidad de dominios, desde el razonamiento matemático hasta operaciones simbólicas en cadenas y neuronas sintéticas construidas a partir de tareas a nivel de palabras. El conjunto de datos de funciones interactivas se construye procedimentalmente; La complejidad del mundo real se introduce en funciones simples agregando ruido, componiendo funciones y simulando sesgos. Esto permite comparar métodos de interpretabilidad en un entorno que se traduce en desempeño en el mundo real.
Además del conjunto de datos de funciones, los investigadores introdujeron un protocolo de evaluación innovador para evaluar la eficacia de los AIA y los métodos de interpretabilidad automatizados existentes. Este protocolo implica dos enfoques. Para las tareas que requieren replicar la función en código, la evaluación compara directamente las estimaciones generadas por IA y las funciones originales de verdad sobre el terreno. La evaluación se vuelve más compleja para tareas que involucran descripciones de funciones en lenguaje natural. En estos casos, medir con precisión la calidad de estas descripciones requiere una comprensión automatizada de su contenido semántico. Para afrontar este desafío, los investigadores desarrollaron un modelo de lenguaje especializado de «terceros». Este modelo está entrenado específicamente para evaluar la precisión y coherencia de las descripciones del lenguaje natural proporcionadas por los sistemas de IA y las compara con el comportamiento de la función de verdad sobre el terreno.
FIND permite la evaluación y revela que todavía estamos lejos de automatizar completamente la interpretabilidad; Si bien los AIA superan los enfoques de interpretabilidad existentes, aún no logran describir con precisión casi la mitad de las funciones en el punto de referencia. Tamar Rott Shaham, coautora principal del estudio y posdoctorada en CSAIL, señala que «si bien esta generación de AIA es eficaz para describir la funcionalidad de alto nivel, a menudo todavía pasan por alto detalles más finos, particularmente en subdominios de funciones con ruido o comportamiento irregular. Es probable que esto se deba a un muestreo insuficiente en estas áreas. Un problema es que la eficacia de las AIA puede verse obstaculizada por sus datos exploratorios iniciales. Para contrarrestar esto, intentamos guiar la exploración de las AIA iniciando su búsqueda con entradas específicas y relevantes, lo que mejoró significativamente la precisión de la interpretación”. Este enfoque combina nuevos métodos AIA con técnicas anteriores utilizando ejemplos precalculados para iniciar el proceso de interpretación.
Los investigadores también están desarrollando un conjunto de herramientas para aumentar la capacidad de los AIA para realizar experimentos más precisos en redes neuronales, tanto en entornos de caja negra como de caja blanca. Este conjunto de herramientas tiene como objetivo equipar a las AIA con mejores herramientas para seleccionar entradas y refinar las capacidades de prueba de hipótesis para un análisis de redes neuronales más preciso y matizado. El equipo también está abordando desafíos prácticos en la interpretabilidad de la IA, enfocándose en determinar las preguntas correctas al analizar modelos en escenarios del mundo real. Su objetivo es desarrollar procedimientos automatizados de interpretabilidad que eventualmente podrían ayudar a las personas a auditar sistemas (por ejemplo, para conducción autónoma o reconocimiento facial) para diagnosticar posibles modos de falla, sesgos ocultos o comportamientos sorprendentes antes de su implementación.
Observando a los observadores
El equipo prevé que algún día se desarrollen AIA casi autónomos que puedan auditar otros sistemas, con científicos humanos proporcionando supervisión y orientación. Las AIA avanzadas podrían desarrollar nuevos tipos de experimentos y preguntas, potencialmente más allá de las consideraciones iniciales de los científicos humanos. La atención se centra en ampliar la interpretabilidad de la IA para incluir comportamientos más complejos, como subredes o circuitos neuronales completos, y predecir entradas que podrían conducir a comportamientos no deseados. Este desarrollo representa un importante paso adelante en la investigación de la IA, cuyo objetivo es hacer que los sistemas de IA sean más comprensibles y fiables.
«Un buen punto de referencia es una poderosa herramienta para afrontar desafíos difíciles», afirma Martin Wattenberg, profesor de informática de la Universidad de Harvard que no participó en el estudio. “Es maravilloso ver este sofisticado punto de referencia para la interpretabilidad, uno de los desafíos más importantes del aprendizaje automático actual. Estoy particularmente impresionado con el agente de interpretabilidad automatizado que crearon los autores. Es una especie de jiu-jitsu de interpretabilidad, que hace que la IA vuelva a sí misma para ayudar a la comprensión humana”.
Schwettmann, Rott Shaham y sus colegas presentaron su trabajo en NeurIPS 2023 en diciembre. Otros coautores del MIT, todos afiliados al CSAIL y al Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS), incluyen a la estudiante de posgrado Joanna Materzynska, al estudiante de pregrado Neil Chowdhury, Shuang Li PhD ’23, el profesor asistente Jacob Andreas y el profesor Antonio Torralba. El profesor asistente de la Universidad Northeastern, David Bau, es un coautor adicional.
El trabajo fue apoyado, en parte, por el MIT-IBM Watson AI Lab, Open Philanthropy, un Amazon Research Award, Hyundai NGV, el Laboratorio de Investigación del Ejército de EE. UU., la Fundación Nacional de Ciencias de EE. UU., el Programa de Liderazgo STEM Zuckerman y una beca Viterbi. .