Se combinan palabras, datos y algoritmos,
Un artículo sobre LLMs, tan divino.
Un vistazo a un mundo lingüístico,
Donde se despliegan las máquinas del lenguaje.
Fue una inclinación natural encargar a un modelo de lenguaje extenso (LLM) como CHATGPT la creación de un poema que profundice en el tema de los modelos de lenguaje extenso y, posteriormente, utilizar dicho poema como una pieza introductoria para este artículo.
Entonces, ¿cómo se unió exactamente dicho poema en un paquete ordenado, con palabras que riman y pequeños fragmentos de frases ingeniosas?
Fuimos directamente a la fuente: el profesor asistente del MIT e investigador principal de CSAIL, Jacob Andreas, cuya investigación se enfoca en avanzar en el campo del procesamiento del lenguaje natural, tanto en el desarrollo de modelos de aprendizaje automático de vanguardia como en la exploración del potencial del lenguaje como un medio para mejorar otros Formas de inteligencia artificial. Esto incluye trabajos pioneros en áreas como el uso del lenguaje natural para enseñar a los robots y el aprovechamiento del lenguaje para permitir que los sistemas de visión por computadora articulen la lógica detrás de sus procesos de toma de decisiones. Sondeamos a Andreas con respecto a la mecánica, las implicaciones y las perspectivas futuras de la tecnología en cuestión.
P: El lenguaje es un rico ecosistema maduro con matices sutiles que los humanos usan para comunicarse entre sí: sarcasmo, ironía y otras formas de lenguaje figurativo. Hay numerosas formas de transmitir significado más allá de lo literal. ¿Es posible que los grandes modelos de lenguaje comprendan las complejidades del contexto? ¿Qué significa para un modelo lograr un «aprendizaje en contexto»? Además, ¿cómo procesan los transformadores multilingües variaciones y dialectos de diferentes idiomas más allá del inglés?
A: Cuando pensamos en contextos lingüísticos, estos modelos son capaces de razonar sobre documentos y fragmentos de texto mucho, mucho más largos que cualquier cosa que hayamos sabido construir antes. Pero ese es sólo un tipo de contexto. Con los humanos, la producción y comprensión del lenguaje tiene lugar en un contexto fundamentado. Por ejemplo, sé que estoy sentado en esta mesa. Hay objetos a los que me puedo referir, y los modelos de lenguaje que tenemos ahora normalmente no pueden ver nada de eso cuando interactúan con un usuario humano.
Hay un contexto social más amplio que informa mucho de nuestro uso del lenguaje al que estos modelos son, al menos no inmediatamente, sensibles o conscientes. No está claro cómo darles información sobre el contexto social en el que se lleva a cabo la generación y el modelado del lenguaje. Otra cosa importante es el contexto temporal. Estamos filmando este video en un momento particular en el tiempo cuando los hechos particulares son ciertos. Los modelos que tenemos ahora fueron entrenados, nuevamente, en una instantánea de Internet que se detuvo en un momento determinado (para la mayoría de los modelos que tenemos ahora, probablemente hace un par de años) y no saben nada de lo que sucedió. Desde entonces. Ni siquiera saben en qué momento están generando texto. Averiguar cómo proporcionar todos esos diferentes tipos de contextos también es una pregunta interesante.
Quizás uno de los componentes más sorprendentes aquí es este fenómeno llamado aprendizaje en contexto. Si tomo un pequeño ML [machine learning] conjunto de datos y lo alimenta al modelo, como una reseña de una película y la calificación de estrellas asignada a la película por el crítico, usted da solo un par de ejemplos de estas cosas, los modelos de lenguaje generan la capacidad tanto de generar reseñas de películas que suenan plausibles como de predecir las calificaciones de estrellas. En términos más generales, si tengo un problema de aprendizaje automático, tengo mis entradas y mis salidas. A medida que le da una entrada al modelo, le da una entrada más y le pide que prediga la salida, los modelos a menudo pueden hacer esto muy bien.
Esta es una forma súper interesante y fundamentalmente diferente de hacer aprendizaje automático, donde tengo este gran modelo de propósito general en el que puedo insertar muchos pequeños conjuntos de datos de aprendizaje automático y, sin embargo, sin tener que entrenar un nuevo modelo en absoluto, clasificador o un generador o lo que sea especializado para mi tarea particular. En realidad, esto es algo en lo que hemos estado pensando mucho en mi grupo y en algunas colaboraciones con colegas de Google, tratando de comprender exactamente cómo se produce realmente este fenómeno de aprendizaje en contexto.
P: Nos gusta creer que los humanos están (al menos un poco) en la búsqueda de lo que objetiva y moralmente se sabe que es verdad. Los grandes modelos lingüísticos, tal vez con «brújulas morales» poco definidas o aún por comprender, no están sujetos a la verdad. ¿Por qué los grandes modelos lingüísticos tienden a alucinar los hechos o afirmar inexactitudes con confianza? ¿Eso limita la utilidad para aplicaciones donde la precisión de los hechos es crítica? ¿Existe una teoría líder sobre cómo resolveremos esto?
A: Está bien documentado que estos modelos alucinan hechos, que no siempre son fiables. Recientemente, le pedí a ChatGPT que describiera algunas de las investigaciones de nuestro grupo. Mencionó cinco artículos, cuatro de los cuales no son artículos que realmente existen, y uno de los cuales es un artículo real que fue escrito por un colega mío que vive en el Reino Unido, con quien nunca he sido coautor. La realidad sigue siendo un gran problema. Incluso más allá de eso, las cosas que involucran el razonamiento en un sentido realmente general, las cosas que involucran cálculos complicados, inferencias complicadas, todavía parecen ser realmente difíciles para estos modelos. Puede haber incluso limitaciones fundamentales de esta arquitectura de transformador, y creo que se necesita mucho más trabajo de modelado para mejorar las cosas.
Por qué sucede es todavía en parte una pregunta abierta, pero posiblemente, solo desde el punto de vista arquitectónico, hay razones por las que es difícil para estos modelos construir modelos coherentes del mundo. Pueden hacer eso un poco. Puede consultarlos con preguntas fácticas, preguntas de trivia, y aciertan la mayor parte del tiempo, tal vez incluso con más frecuencia que el usuario humano promedio de la calle. Pero a diferencia del usuario humano promedio, en realidad no está claro si hay algo que viva dentro de este modelo de lenguaje que corresponda a una creencia sobre el estado del mundo. Creo que esto se debe tanto a razones arquitectónicas, que los transformadores, obviamente, no tienen ningún lugar para poner esa creencia, y datos de entrenamiento, que estos modelos se entrenan en Internet, que fue escrito por un grupo de personas diferentes en diferentes momentos que creen cosas diferentes sobre el estado del mundo. Por lo tanto, es difícil esperar que los modelos representen esas cosas de manera coherente.
Habiendo dicho todo eso, no creo que esta sea una limitación fundamental de los modelos de lenguaje neuronal o incluso de los modelos de lenguaje más generales en general, pero es algo que es cierto sobre los modelos de lenguaje actuales. Ya estamos viendo que los modelos se acercan para poder construir representaciones de hechos, representaciones del estado del mundo, y creo que hay espacio para mejorar más.
P: El ritmo de progreso de GPT-2 a GPT-3 a GPT-4 ha sido vertiginoso. ¿Cómo se ve el ritmo de la trayectoria desde aquí? ¿Será exponencial o una curva en S que disminuirá a corto plazo? Si es así, ¿existen factores limitantes en términos de escala, cómputo, datos o arquitectura?
A: Ciertamente, a corto plazo, lo que más me asusta tiene que ver con estos problemas de veracidad y coherencia que estaba mencionando antes, que incluso los mejores modelos que tenemos hoy generan hechos incorrectos. Generan código con errores y, debido a la forma en que funcionan estos modelos, lo hacen de una manera que es particularmente difícil de detectar para los humanos porque la salida del modelo tiene todas las estadísticas de superficie correctas. Cuando pensamos en el código, sigue siendo una pregunta abierta si en realidad es menos trabajo para alguien escribir una función a mano o pedirle a un modelo de lenguaje que genere esa función y luego hacer que la persona revise y verifique que la implementación de esa función fue realmente correcto.
Hay un pequeño peligro en apresurarse a implementar estas herramientas de inmediato, y terminaremos en un mundo donde todo es un poco peor, pero donde en realidad es muy difícil para las personas verificar de manera confiable los resultados de estos modelos. Dicho esto, estos son problemas que se pueden superar. El ritmo al que se mueven las cosas especialmente, hay mucho espacio para abordar estos problemas de factualidad y coherencia y corrección del código generado a largo plazo. Estas son realmente herramientas, herramientas que podemos usar para liberarnos como sociedad de muchas tareas desagradables, quehaceres o trabajos pesados que han sido difíciles de automatizar, y eso es algo por lo que estar entusiasmado.