Para abrirnos camino en el mundo, nuestro cerebro debe desarrollar una comprensión intuitiva del mundo físico que nos rodea, que luego utilizamos para interpretar la información sensorial que llega al cerebro.
¿Cómo desarrolla el cerebro esa comprensión intuitiva? Muchos científicos creen que puede utilizar un proceso similar a lo que se conoce como «aprendizaje autosupervisado». Este tipo de aprendizaje automático, desarrollado originalmente como una forma de crear modelos más eficientes para la visión por computadora, permite que los modelos computacionales aprendan sobre escenas visuales basándose únicamente en las similitudes y diferencias entre ellas, sin etiquetas ni otra información.
Un par de estudios de investigadores del Centro de Neurociencia Computacional Integrativa (ICoN) K. Lisa Yang del MIT ofrecen nueva evidencia que respalda esta hipótesis. Los investigadores descubrieron que cuando entrenaron modelos conocidos como redes neuronales utilizando un tipo particular de aprendizaje autosupervisado, los modelos resultantes generaron patrones de actividad muy similares a los observados en los cerebros de animales que realizaban las mismas tareas que los modelos.
Los hallazgos sugieren que estos modelos son capaces de aprender representaciones del mundo físico que pueden usar para hacer predicciones precisas sobre lo que sucederá en ese mundo, y que el cerebro de los mamíferos puede estar usando la misma estrategia, dicen los investigadores.
«El tema de nuestro trabajo es que la IA diseñada para ayudar a construir mejores robots termina siendo también un marco para comprender mejor el cerebro en general», dice Aran Nayebi, postdoctorado en el Centro ICoN. «Aún no podemos decir si se trata de todo el cerebro, pero en escalas y áreas cerebrales dispares, nuestros resultados parecen sugerir un principio organizador».
Nayebi es el autor principal de uno de los estudios, en coautoría con Rishi Rajalingham, ex postdoctorado del MIT ahora en Meta Reality Labs, y los autores principales Mehrdad Jazayeri, profesor asociado de ciencias cognitivas y del cerebro y miembro del Instituto McGovern de Investigación del cerebro; y Robert Yang, profesor asistente de ciencias cognitivas y del cerebro y miembro asociado del Instituto McGovern. Ila Fiete, directora del Centro ICoN, profesora de ciencias cognitivas y del cerebro y miembro asociado del Instituto McGovern, es la autora principal del otro estudio, que fue codirigido por Mikail Khona, un estudiante graduado del MIT, y Rylan Schaeffer, ex investigador asociado senior del MIT.
Ambos estudios se presentarán en la Conferencia 2023 sobre Sistemas de Procesamiento de Información Neural (NeurIPS) en diciembre.
Modelando el mundo físico
Los primeros modelos de visión por computadora se basaban principalmente en el aprendizaje supervisado. Con este enfoque, se entrenan modelos para clasificar imágenes, cada una de las cuales está etiquetada con un nombre: gato, automóvil, etc. Los modelos resultantes funcionan bien, pero este tipo de entrenamiento requiere una gran cantidad de datos etiquetados por humanos.
Para crear una alternativa más eficiente, en los últimos años los investigadores han recurrido a modelos construidos mediante una técnica conocida como aprendizaje autosupervisado contrastivo. Este tipo de aprendizaje permite que un algoritmo aprenda a clasificar objetos en función de su similitud entre sí, sin proporcionar etiquetas externas.
«Este es un método muy poderoso porque ahora se pueden aprovechar conjuntos de datos modernos muy grandes, especialmente videos, y realmente desbloquear su potencial», dice Nayebi. «Gran parte de la IA moderna que se ve ahora, especialmente en los últimos años con ChatGPT y GPT-4, es el resultado del entrenamiento de una función objetivo autosupervisada en un conjunto de datos a gran escala para obtener una representación muy flexible».
Este tipo de modelos, también llamados redes neuronales, constan de miles o millones de unidades de procesamiento conectadas entre sí. Cada nodo tiene conexiones de diferente intensidad con otros nodos de la red. A medida que la red analiza enormes cantidades de datos, las fortalezas de esas conexiones cambian a medida que la red aprende a realizar la tarea deseada.
A medida que el modelo realiza una tarea particular, se pueden medir los patrones de actividad de diferentes unidades dentro de la red. La actividad de cada unidad se puede representar como un patrón de activación, similar a los patrones de activación de las neuronas en el cerebro. Trabajos anteriores de Nayebi y otros han demostrado que los modelos de visión autosupervisados generan una actividad similar a la observada en el sistema de procesamiento visual de los cerebros de los mamíferos.
En los dos nuevos estudios de NeurIPS, los investigadores se propusieron explorar si los modelos computacionales autosupervisados de otras funciones cognitivas también podrían mostrar similitudes con el cerebro de los mamíferos. En el estudio dirigido por Nayebi, los investigadores entrenaron modelos autosupervisados para predecir el estado futuro de su entorno a través de cientos de miles de vídeos naturalistas que representan escenarios cotidianos.
“Durante la última década, el método dominante para construir modelos de redes neuronales en neurociencia cognitiva es entrenar estas redes en tareas cognitivas individuales. Pero los modelos entrenados de esta manera rara vez se generalizan a otras tareas”, afirma Yang. «Aquí probamos si podemos construir modelos para algún aspecto de la cognición entrenando primero con datos naturalistas utilizando el aprendizaje autosupervisado y luego evaluando en entornos de laboratorio».
Una vez entrenado el modelo, los investigadores lo generalizaron a una tarea que llamaron «Mental-Pong». Esto es similar al videojuego Pong, donde un jugador mueve una paleta para golpear una pelota que viaja por la pantalla. En la versión Mental-Pong, la pelota desaparece poco antes de golpear la pala, por lo que el jugador tiene que estimar su trayectoria para poder golpear la pelota.
Los investigadores descubrieron que el modelo era capaz de seguir la trayectoria de la bola oculta con una precisión similar a la de las neuronas en el cerebro de los mamíferos, que en un estudio previo de Rajalingham y Jazayeri habían demostrado simular su trayectoria, un fenómeno cognitivo conocido como «mental». simulación.» Además, los patrones de activación neuronal observados en el modelo eran similares a los observados en los cerebros de los animales mientras jugaban, específicamente, en una parte del cerebro llamada corteza frontal dorsomedial. Los investigadores afirman que ninguna otra clase de modelo computacional ha sido capaz de igualar los datos biológicos tan estrechamente como éste.
«Hay muchos esfuerzos en la comunidad de aprendizaje automático para crear inteligencia artificial», dice Jazayeri. “La relevancia de estos modelos para la neurobiología depende de su capacidad para capturar adicionalmente el funcionamiento interno del cerebro. El hecho de que el modelo de Aran prediga datos neuronales es realmente importante, ya que sugiere que podemos estar acercándonos a la construcción de sistemas artificiales que emulen la inteligencia natural”.
Navegando por el mundo
El estudio dirigido por Khona, Schaeffer y Fiete se centró en un tipo de neuronas especializadas conocidas como células de rejilla. Estas células, ubicadas en la corteza entorrinal, ayudan a los animales a navegar, trabajando junto con las células del lugar ubicadas en el hipocampo.
Mientras que las celdas de lugar se activan cada vez que un animal está en un lugar específico, las celdas de cuadrícula se activan solo cuando el animal está en uno de los vértices de una red triangular. Los grupos de celdas de la cuadrícula crean redes superpuestas de diferentes tamaños, lo que les permite codificar una gran cantidad de posiciones utilizando una cantidad relativamente pequeña de celdas.
En estudios recientes, los investigadores han entrenado redes neuronales supervisadas para imitar la función de las células de la red prediciendo la siguiente ubicación de un animal en función de su punto de partida y su velocidad, una tarea conocida como integración de trayectorias. Sin embargo, estos modelos dependían del acceso a información privilegiada sobre el espacio absoluto en todo momento, información que el animal no tiene.
Inspirándose en las sorprendentes propiedades de codificación del código multiperiódico de celdas de cuadrícula para el espacio, el equipo del MIT entrenó un modelo contrastivo autosupervisado para realizar esta misma tarea de integración de rutas y representar el espacio de manera eficiente mientras lo hace. Para los datos de entrenamiento, utilizaron secuencias de entradas de velocidad. El modelo aprendió a distinguir posiciones en función de si eran similares o diferentes: las posiciones cercanas generaban códigos similares, pero las posiciones más alejadas generaban códigos más diferentes.
«Es similar a entrenar modelos con imágenes, donde si dos imágenes son cabezas de gatos, sus códigos deben ser similares, pero si una es la cabeza de un gato y la otra es un camión, entonces quieres que sus códigos se repelan», Khona dice. «Estamos tomando la misma idea pero aplicándola a trayectorias espaciales».
Una vez entrenado el modelo, los investigadores descubrieron que los patrones de activación de los nodos dentro del modelo formaban varios patrones reticulares con diferentes períodos, muy similares a los formados por las células reticulares del cerebro.
«Lo que me entusiasma de este trabajo es que establece conexiones entre el trabajo matemático sobre las sorprendentes propiedades teóricas de la información del código de celda de la cuadrícula y el cálculo de la integración de trayectorias», dice Fiete. “Si bien el trabajo matemático fue analítico, ¿qué propiedades posee el código de la celda de la cuadrícula? — el enfoque de optimizar la eficiencia de la codificación a través del aprendizaje autosupervisado y obtener una sintonización similar a una cuadrícula es sintético: muestra qué propiedades podrían ser necesarias y suficientes para explicar por qué el cerebro tiene células de cuadrícula”.
La investigación fue financiada por el Centro ICoN K. Lisa Yang, los Institutos Nacionales de Salud, la Fundación Simons, la Fundación McKnight, el Instituto McGovern y la Fundación Helen Hay Whitney.