Los grandes modelos de lenguaje pueden hacer cosas impresionantes, como escribir poesía o generar programas informáticos viables, aunque estos modelos están entrenados para predecir las palabras que siguen en un texto.
Capacidades tan sorprendentes pueden hacer que parezca que los modelos están aprendiendo implícitamente algunas verdades generales sobre el mundo.
Pero ese no es necesariamente el caso, según un nuevo estudio. Los investigadores descubrieron que un tipo popular de modelo de IA generativa puede proporcionar indicaciones de conducción paso a paso en la ciudad de Nueva York con una precisión casi perfecta, sin haber formado un mapa interno preciso de la ciudad.
A pesar de la asombrosa capacidad del modelo para navegar eficazmente, cuando los investigadores cerraron algunas calles y agregaron desvíos, su rendimiento se desplomó.
Cuando profundizaron más, los investigadores descubrieron que los mapas de Nueva York que el modelo generó implícitamente tenían muchas calles inexistentes que se curvaban entre la cuadrícula y conectaban intersecciones lejanas.
Esto podría tener serias implicaciones para los modelos de IA generativa implementados en el mundo real, ya que un modelo que parece funcionar bien en un contexto podría fallar si la tarea o el entorno cambian ligeramente.
“Una esperanza es que, debido a que los LLM pueden lograr todas estas cosas asombrosas en el lenguaje, tal vez podamos usar estas mismas herramientas también en otras áreas de la ciencia. Pero la cuestión de si los LLM están aprendiendo modelos mundiales coherentes es muy importante si queremos utilizar estas técnicas para hacer nuevos descubrimientos”, dice el autor principal Ashesh Rambachan, profesor asistente de economía e investigador principal en el Laboratorio de Sistemas de Información y Decisión del MIT. (TAPAS).
A Rambachan se le une en un artículo sobre el trabajo el autor principal Keyon Vafa, postdoctorado en la Universidad de Harvard; Justin Y. Chen, estudiante de posgrado en ingeniería eléctrica e informática (EECS) del MIT; Jon Kleinberg, profesor de Ciencias de la Computación y de la Información de la Universidad Tisch en la Universidad de Cornell; y Sendhil Mullainathan, profesor del MIT en los departamentos de EECS y de Economía, y miembro de LIDS. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Nuevas métricas
Los investigadores se centraron en un tipo de modelo de IA generativa conocido como transformador, que forma la columna vertebral de LLM como GPT-4. Los transformadores están entrenados con una gran cantidad de datos basados en el lenguaje para predecir el siguiente token en una secuencia, como la siguiente palabra en una oración.
Pero si los científicos quieren determinar si un LLM ha formado un modelo preciso del mundo, medir la precisión de sus predicciones no es suficiente, dicen los investigadores.
Por ejemplo, descubrieron que un transformador puede predecir movimientos válidos en un juego de Connect 4 casi siempre sin comprender ninguna de las reglas.
Entonces, el equipo desarrolló dos nuevas métricas que pueden probar el modelo mundial de un transformador. Los investigadores centraron sus evaluaciones en una clase de problemas llamados automatizaciones finitas deterministas o DFA.
Un DFA es un problema con una secuencia de estados, como intersecciones que uno debe atravesar para llegar a un destino, y una forma concreta de describir las reglas que uno debe seguir a lo largo del camino.
Eligieron dos problemas para formularlos como DFA: navegar por las calles de la ciudad de Nueva York y jugar al juego de mesa Otelo.
“Necesitábamos bancos de pruebas donde supiéramos cuál es el modelo mundial. Ahora podemos pensar con rigor en lo que significa recuperar ese modelo mundial”, explica Vafa.
La primera métrica que desarrollaron, llamada distinción de secuencia, dice que un modelo ha formado un modelo de mundo coherente si ve dos estados diferentes, como dos tableros de Otelo diferentes, y reconoce en qué se diferencian. Las secuencias, es decir, listas ordenadas de puntos de datos, son lo que utilizan los transformadores para generar salidas.
La segunda métrica, llamada compresión de secuencia, dice que un transformador con un modelo mundial coherente debe saber que dos estados idénticos, como dos placas Othello idénticas, tienen la misma secuencia de posibles siguientes pasos.
Utilizaron estas métricas para probar dos clases comunes de transformadores, uno que se entrena con datos generados a partir de secuencias producidas aleatoriamente y el otro con datos generados por las siguientes estrategias.
Modelos mundiales incoherentes
Sorprendentemente, los investigadores descubrieron que los transformadores que tomaban decisiones al azar formaban modelos mundiales más precisos, tal vez porque vieron una variedad más amplia de posibles próximos pasos durante el entrenamiento.
«En Otelo, si ves dos computadoras aleatorias jugando en lugar de jugadores campeones, en teoría verías el conjunto completo de movimientos posibles, incluso los malos movimientos que los jugadores campeones no harían», explica Vafa.
Aunque los transformadores generaron direcciones precisas y movimientos válidos de Otelo en casi todos los casos, las dos métricas revelaron que solo uno generó un modelo mundial coherente para los movimientos de Otelo, y ninguno funcionó bien en la formación de modelos mundiales coherentes en el ejemplo de orientación.
Los investigadores demostraron las implicaciones de esto agregando desvíos al mapa de la ciudad de Nueva York, lo que provocó que todos los modelos de navegación fallaran.
“Me sorprendió lo rápido que se deterioró el rendimiento tan pronto como añadimos un desvío. Si cerramos sólo el 1 por ciento de las calles posibles, la precisión cae inmediatamente de casi el 100 por ciento a sólo el 67 por ciento”, dice Vafa.
Cuando recuperaron los mapas de la ciudad que generaron los modelos, parecían una ciudad de Nueva York imaginada con cientos de calles entrecruzadas superpuestas en la parte superior de la cuadrícula. Los mapas a menudo contenían pasos elevados aleatorios sobre otras calles o varias calles con orientaciones imposibles.
Estos resultados muestran que los transformadores pueden desempeñarse sorprendentemente bien en determinadas tareas sin comprender las reglas. Si los científicos quieren construir LLM que puedan capturar modelos mundiales precisos, deben adoptar un enfoque diferente, dicen los investigadores.
“A menudo vemos a estos modelos hacer cosas impresionantes y pensamos que deben haber entendido algo sobre el mundo. Espero que podamos convencer a la gente de que es una cuestión que hay que pensar muy detenidamente y que no tenemos que confiar en nuestras propias intuiciones para responderla”, afirma Rambachan.
En el futuro, los investigadores quieren abordar un conjunto más diverso de problemas, como aquellos en los que algunas reglas sólo se conocen parcialmente. También quieren aplicar sus métricas de evaluación a problemas científicos del mundo real.
Este trabajo está financiado, en parte, por la Iniciativa de Ciencia de Datos de Harvard, una beca de investigación para graduados de la Fundación Nacional de Ciencias, una beca de la facultad Vannevar Bush, una subvención de colaboración Simons y una subvención de la Fundación MacArthur.