Si bien los modelos de lenguaje temprano solo pueden procesar el texto, los modelos de lenguaje grande contemporáneos ahora realizan tareas muy diversas en diferentes tipos de datos. Por ejemplo, LLM puede comprender muchos idiomas, generar código de computadora, resolver problemas matemáticos o responder preguntas sobre imágenes y audio.
Los investigadores del MIT investigaron el funcionamiento interno de LLM para comprender mejor cómo procesan tales datos variados, y encontraron evidencia de que comparten algunas similitudes con el cerebro humano.
Los neurocientíficos creen que el cerebro humano tiene un «centro semántico» en el lóbulo temporal anterior que integra información semántica de diversas modalidades, como los datos visuales y las entradas táctiles. Este centro semántico está conectado a «radios» específicos de modalidad que enrutan la información al Hub. Los investigadores del MIT encontraron que los LLM utilizan un mecanismo similar procesando abstractamente los datos de diversas modalidades de una manera central y generalizada. Por ejemplo, un modelo que tiene inglés como idioma dominante dependería del inglés como medio central para procesar las entradas en japonés o razón sobre aritmética, código de computadora, etc. Además, los investigadores demuestran que pueden intervenir en el centro semántico de un modelo por Uso del texto en el idioma dominante del modelo para cambiar sus salidas, incluso cuando el modelo está procesando datos en otros idiomas.
Estos hallazgos podrían ayudar a los científicos a capacitar a los futuros LLM que pueden manejar mejor los datos diversos.
“Los LLM son grandes cajas negras. Han logrado un rendimiento muy impresionante, pero tenemos muy poco conocimiento sobre sus mecanismos de trabajo internos. Espero que este pueda ser un paso temprano para comprender mejor cómo funcionan para que podamos mejorarlos y controlarlos mejor cuando sea necesario ”, dice Zhaofeng Wu, estudiante graduado de Ingeniería Eléctrica e Informática (CEE) y autor principal de un artículo sobre un artículo sobre esta investigación.
Sus coautores incluyen Xinyan Velocity Yu, un estudiante de posgrado en la Universidad del Sur de California (USC); Dani Yogatama, profesor asociado en la USC; Jiasen Lu, científico investigador de Apple; y el autor principal Yoon Kim, profesor asistente de EEC en el MIT y miembro del Laboratorio de Informática e Inteligencia Artificial (CSAIL). La investigación se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje.
Integrando diversos datos
Los investigadores basaron el nuevo estudio sobre el trabajo previo que insinuó que los LLM centrados en el inglés usan el inglés para realizar procesos de razonamiento en varios idiomas.
Wu y sus colaboradores ampliaron esta idea, lanzando un estudio en profundidad sobre los mecanismos que utilizan los LLM para procesar datos diversos.
Un LLM, que se compone de muchas capas interconectadas, divide el texto de entrada en palabras o sub-palabras llamadas tokens. El modelo asigna una representación a cada token, lo que le permite explorar las relaciones entre los tokens y generar la siguiente palabra en una secuencia. En el caso de imágenes o audio, estos tokens corresponden a regiones particulares de una imagen o secciones de un clip de audio.
Los investigadores encontraron que las capas iniciales del modelo procesan los datos en su lenguaje o modalidad específica, como los radios específicos de la modalidad en el cerebro humano. Luego, el LLM convierte los tokens en representaciones de modalidad-agnóstica, ya que razona sobre ellas a lo largo de sus capas internas, similar a cómo el centro semántico del cerebro integra información diversa.
El modelo asigna representaciones similares a entradas con significados similares, a pesar de su tipo de datos, incluidas las imágenes, el audio, el código de la computadora y los problemas aritméticos. Aunque una imagen y su título de texto son distintos tipos de datos, porque comparten el mismo significado, el LLM les asignaría representaciones similares.
Por ejemplo, un LLM dominante en inglés «piensa» sobre una entrada de texto chino en inglés antes de generar una salida en chino. El modelo tiene una tendencia de razonamiento similar a las entradas de no texto como el código de la computadora, los problemas matemáticos o incluso los datos multimodales.
Para probar esta hipótesis, los investigadores pasaron un par de oraciones con el mismo significado pero escritos en dos idiomas diferentes a través del modelo. Medieron cuán similares eran las representaciones del modelo para cada oración.
Luego realizaron un segundo conjunto de experimentos en los que alimentaron un texto modelo dominante en inglés en un idioma diferente, como el chino, y midieron cuán similar era su representación interna al inglés versus el chino. Los investigadores realizaron experimentos similares para otros tipos de datos.
Consistentemente descubrieron que las representaciones del modelo eran similares para oraciones con significados similares. Además, en muchos tipos de datos, los tokens el modelo procesado en sus capas internas eran más como tokens centrados en inglés que el tipo de datos de entrada.
«Muchos de estos tipos de datos de entrada parecen extremadamente diferentes del lenguaje, por lo que nos sorprendió mucho que podamos investigar las tokens inglesas cuando el modelo procesa, por ejemplo, expresiones matemáticas o de codificación», dice Wu.
Aprovechando el centro semántico
Los investigadores creen que LLM puede aprender esta estrategia semántica del centro durante la capacitación porque es una forma económica de procesar datos variados.
“Hay miles de idiomas por ahí, pero gran parte del conocimiento es compartido, como el conocimiento de sentido común o el conocimiento objetivo. El modelo no necesita duplicar ese conocimiento en todos los idiomas ”, dice Wu.
Los investigadores también intentaron intervenir en las capas internas del modelo utilizando texto en inglés cuando estaba procesando otros idiomas. Descubrieron que podían cambiar previsiblemente las salidas del modelo, a pesar de que esas salidas estaban en otros idiomas.
Los científicos podrían aprovechar este fenómeno para alentar al modelo a compartir tanta información como sea posible entre diversos tipos de datos, potencialmente aumentando la eficiencia.
Pero, por otro lado, podría haber conceptos o conocimientos que no sean traducibles en todos los idiomas o tipos de datos, como el conocimiento culturalmente específico. Los científicos pueden querer que los LLM tengan algunos mecanismos de procesamiento específicos del lenguaje en esos casos.
“¿Cómo se comparte al máximo siempre que sea posible pero también permite que los idiomas tengan algunos mecanismos de procesamiento específicos del lenguaje? Eso podría explorarse en futuros trabajos sobre arquitecturas de modelos ”, dice Wu.
Además, los investigadores podrían usar estas ideas para mejorar los modelos multilingües. A menudo, un modelo dominante en inglés que aprende a hablar otro idioma perderá parte de su precisión en inglés. Una mejor comprensión del centro semántico de un LLM podría ayudar a los investigadores a prevenir esta interferencia del idioma, dice.
“Comprender cómo los modelos de idiomas procesan las entradas en todos los idiomas y modalidades es una pregunta clave en la inteligencia artificial. Este documento establece una conexión interesante con la neurociencia y muestra que la ‘hipótesis del centro semántico’ propuesta se mantiene en modelos de lenguaje moderno, donde se crean representaciones semánticamente similares de diferentes tipos de datos en las capas intermedias del modelo «, dice Mor Geva Pipek, profesor asistente de La Escuela de Ciencias de la Computación de la Universidad de Tel Aviv, que no participó en este trabajo. «La hipótesis y los experimentos atan y extienden los hallazgos de trabajos anteriores y podrían ser influyentes para futuras investigaciones sobre la creación de mejores modelos multimodales y el estudio de los vínculos entre ellos y la función cerebral y la cognición en humanos».
Esta investigación es financiada, en parte, por el laboratorio MIT-IBM Watson AI.