Si le pides a un modelo de lenguaje grande (LLM) como GPT-4 que huela un campamento empapado por la lluvia, se negará cortésmente. Si le pides al mismo sistema que te describa ese aroma, hablará con poesía sobre “un aire cargado de anticipación” y “un aroma que es fresco y terroso”, a pesar de no tener experiencia previa con la lluvia ni una nariz que lo ayude a hacer tales observaciones. Una posible explicación para este fenómeno es que el LLM simplemente está imitando el texto presente en sus vastos datos de entrenamiento, en lugar de trabajar con un conocimiento real de la lluvia o el olor.
Pero ¿acaso la falta de ojos significa que los modelos lingüísticos nunca pueden “entender” que un león es “más grande” que un gato doméstico? Tanto filósofos como científicos han considerado durante mucho tiempo que la capacidad de asignar significado al lenguaje es un sello distintivo de la inteligencia humana, y se han preguntado qué ingredientes esenciales nos permiten hacerlo.
Al analizar este enigma, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han descubierto resultados intrigantes que sugieren que los modelos de lenguaje pueden desarrollar su propia comprensión de la realidad como una forma de mejorar sus capacidades generativas. El equipo desarrolló primero un conjunto de pequeños rompecabezas de Karel, que consistían en idear instrucciones para controlar un robot en un entorno simulado. Luego entrenaron a un LLM en las soluciones, pero sin demostrar cómo funcionaban realmente las soluciones. Finalmente, utilizando una técnica de aprendizaje automático llamada «probing», observaron dentro del «proceso de pensamiento» del modelo a medida que genera nuevas soluciones.
Después de entrenarse con más de un millón de acertijos aleatorios, descubrieron que el modelo desarrollaba espontáneamente su propia concepción de la simulación subyacente, a pesar de no haber estado nunca expuesto a esta realidad durante el entrenamiento. Estos hallazgos ponen en tela de juicio nuestras intuiciones sobre qué tipos de información son necesarios para aprender el significado lingüístico y si los LLM algún día podrán comprender el lenguaje a un nivel más profundo del que lo hacen hoy.
“Al principio de estos experimentos, el modelo de lenguaje generaba instrucciones aleatorias que no funcionaban. Cuando terminamos el entrenamiento, nuestro modelo de lenguaje generaba instrucciones correctas a una tasa del 92,4 por ciento”, afirma Charles Jin, estudiante de doctorado en ingeniería eléctrica y ciencias de la computación (EECS) del MIT y afiliado a CSAIL, que es el autor principal de un nuevo artículo sobre el trabajo. “Este fue un momento muy emocionante para nosotros porque pensamos que si su modelo de lenguaje podía completar una tarea con ese nivel de precisión, podríamos esperar que también comprendiera los significados dentro del lenguaje. Esto nos dio un punto de partida para explorar si los LLM de hecho entienden el texto, y ahora vemos que son capaces de mucho más que simplemente unir palabras a ciegas”.
Dentro de la mente de un LLM
La sonda ayudó a Jin a presenciar este progreso de primera mano. Su función era interpretar lo que el LLM creía que significaban las instrucciones, revelando que el LLM desarrolló su propia simulación interna de cómo se mueve el robot en respuesta a cada instrucción. A medida que la capacidad del modelo para resolver acertijos mejoraba, estas concepciones también se volvían más precisas, lo que indicaba que el LLM estaba empezando a entender las instrucciones. En poco tiempo, el modelo estaba juntando las piezas correctamente para formar instrucciones de trabajo.
Jin señala que la comprensión del lenguaje por parte del LLM se desarrolla en fases, de forma muy similar a cómo un niño aprende el habla en varios pasos. Al principio, es como el balbuceo de un bebé: repetitivo y en su mayor parte ininteligible. Luego, el modelo del lenguaje adquiere sintaxis, o las reglas del lenguaje. Esto le permite generar instrucciones que podrían parecer soluciones genuinas, pero que aún así no funcionan.
Sin embargo, las instrucciones del LLM van mejorando gradualmente. Una vez que el modelo adquiere significado, comienza a generar instrucciones que implementan correctamente las especificaciones solicitadas, como un niño que forma oraciones coherentes.
Separando el método del modelo: Un “mundo bizarro”
La sonda solo tenía como objetivo “entrar en el cerebro de un LLM”, como lo describe Jin, pero existía una remota posibilidad de que también realizara parte del proceso de pensamiento del modelo. Los investigadores querían asegurarse de que su modelo comprendiera las instrucciones independientemente de la sonda, en lugar de que la sonda infiriera los movimientos del robot a partir de la comprensión de la sintaxis del LLM.
“Imagina que tienes una pila de datos que codifica el proceso de pensamiento del LM”, sugiere Jin. “La sonda es como un analista forense: le entregas esta pila de datos al analista y le dices: ‘Así es como se mueve el robot, ahora intenta encontrar los movimientos del robot en la pila de datos’. El analista te dice más tarde que sabe lo que está pasando con el robot en la pila de datos. Pero ¿qué pasa si la pila de datos en realidad solo codifica las instrucciones en bruto y el analista ha descubierto una forma inteligente de extraer las instrucciones y seguirlas en consecuencia? Entonces, el modelo de lenguaje en realidad no ha aprendido en absoluto lo que significan las instrucciones”.
Para desentrañar sus funciones, los investigadores invirtieron el significado de las instrucciones de una nueva sonda. En este “mundo bizarro”, como lo llama Jin, las instrucciones que movían al robot por la cuadrícula ahora significaban “abajo”.
“Si la sonda traduce instrucciones a posiciones del robot, debería poder traducir las instrucciones de acuerdo con los significados extraños con la misma precisión”, afirma Jin. “Pero si la sonda encuentra codificaciones de los movimientos originales del robot en el proceso de pensamiento del modelo de lenguaje, entonces debería tener dificultades para extraer los movimientos extraños del robot del proceso de pensamiento original”.
Resultó que la nueva sonda experimentó errores de traducción y no pudo interpretar un modelo de lenguaje que tenía significados diferentes de las instrucciones. Esto significaba que la semántica original estaba incorporada en el modelo de lenguaje, lo que indicaba que el LLM entendía qué instrucciones eran necesarias independientemente del clasificador de sondeo original.
“Esta investigación se centra directamente en una cuestión central de la inteligencia artificial moderna: ¿las sorprendentes capacidades de los grandes modelos lingüísticos se deben simplemente a correlaciones estadísticas a escala, o los grandes modelos lingüísticos desarrollan una comprensión significativa de la realidad con la que se les pide que trabajen? Esta investigación indica que el LLM desarrolla un modelo interno de la realidad simulada, aunque nunca haya sido entrenado para desarrollar este modelo”, afirma Martin Rinard, profesor del MIT en EECS, miembro de CSAIL y autor principal del artículo.
Este experimento respaldó aún más el análisis del equipo de que los modelos de lenguaje pueden desarrollar una comprensión más profunda del lenguaje. Aun así, Jin reconoce algunas limitaciones en su artículo: utilizaron un lenguaje de programación muy simple y un modelo relativamente pequeño para obtener sus conocimientos. En un próximo trabajo, intentarán utilizar un entorno más general. Si bien la última investigación de Jin no describe cómo hacer que el modelo de lenguaje aprenda el significado más rápido, cree que el trabajo futuro puede aprovechar estos conocimientos para mejorar la forma en que se entrenan los modelos de lenguaje.
“Una pregunta interesante que aún no se ha resuelto es si el LLM realmente está utilizando su modelo interno de la realidad para razonar sobre esa realidad mientras resuelve el problema de navegación del robot”, afirma Rinard. “Si bien nuestros resultados son consistentes con el uso del modelo por parte del LLM de esta manera, nuestros experimentos no están diseñados para responder a esta siguiente pregunta”.
“Actualmente, hay mucho debate sobre si los LLM realmente están ‘entendiendo’ el lenguaje o, más bien, si su éxito se puede atribuir a lo que son esencialmente trucos y heurísticas que surgen de la lectura de grandes volúmenes de texto”, dice Ellie Pavlick, profesora adjunta de informática y lingüística en la Universidad de Brown, que no participó en el artículo. “Estas preguntas están en el corazón de cómo construimos la IA y cuáles esperamos que sean las posibilidades o limitaciones inherentes de nuestra tecnología. Este es un buen artículo que analiza esta cuestión de una manera controlada: los autores aprovechan el hecho de que el código informático, como el lenguaje natural, tiene sintaxis y semántica, pero a diferencia del lenguaje natural, la semántica se puede observar y manipular directamente con fines experimentales. El diseño experimental es elegante y sus hallazgos son optimistas, lo que sugiere que tal vez los LLM puedan aprender algo más profundo sobre lo que ‘significa’ el lenguaje”.
El artículo de Jin y Rinard fue financiado, en parte, por subvenciones de la Agencia de Proyectos de Investigación Avanzada de Defensa de Estados Unidos (DARPA).