Para que el lenguaje natural sea una forma eficaz de comunicación, las partes involucradas deben poder comprender las palabras y su contexto, asumir que el contenido se comparte en gran medida de buena fe y es confiable, razonar sobre la información que se comparte y luego aplicarlo a escenarios del mundo real. Los estudiantes de doctorado del MIT que realizan prácticas en el MIT-IBM Watson AI Lab (Athul Paul Jacob SM ’22, Maohao Shen SM ’23, Victor Butoi y Andi Peng SM ’23) están trabajando para atacar cada paso de este proceso integrado en el lenguaje natural. modelos, para que los sistemas de IA puedan ser más confiables y precisos para los usuarios.
Para lograr esto, la investigación de Jacob ataca el corazón de los modelos de lenguaje natural existentes para mejorar el resultado, utilizando la teoría de juegos. Sus intereses, dice, son dobles: «Uno es comprender cómo se comportan los humanos, utilizando la lente de los sistemas multiagente y la comprensión del lenguaje, y el segundo es: ‘¿Cómo se puede utilizar eso como conocimiento para construir una mejor IA? ¿sistemas?’” Su trabajo surge del juego de mesa “Diplomacia”, donde su equipo de investigación desarrolló un sistema que podía aprender y predecir comportamientos humanos y negociar estratégicamente para lograr un resultado óptimo deseado.
“Este fue un juego en el que es necesario generar confianza; necesitas comunicarte usando el lenguaje. También es necesario jugar contra otros seis jugadores al mismo tiempo, lo cual era muy diferente de todos los tipos de tareas que la gente realizaba en el pasado”, dice Jacob, refiriéndose a otros juegos como el póquer y el GO que los investigadores aplicaron a las redes neuronales. . “Al hacerlo, hubo muchos desafíos de investigación. Una era: ‘¿Cómo modelas a los humanos? ¿Cómo saber si los humanos tienden a actuar irracionalmente?’” Jacob y sus mentores de investigación, incluidos el profesor asociado Jacob Andreas y el profesor asistente Gabriele Farina del Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT (EECS), y el MIT-IBM Watson. Yikang Shen, de AI Lab, reformuló el problema de la generación del lenguaje como un juego de dos jugadores.
Utilizando modelos “generadores” y “discriminadores”, el equipo de Jacob desarrolló un sistema de lenguaje natural para producir respuestas a preguntas y luego observar las respuestas y determinar si son correctas. Si es así, el sistema de IA recibe un punto; si no, no se recompensa ningún punto. Es notorio que los modelos lingüísticos tienden a alucinar, lo que los hace menos dignos de confianza; Este algoritmo de aprendizaje sin arrepentimiento toma de forma colaborativa un modelo de lenguaje natural y fomenta que las respuestas del sistema sean más veraces y confiables, al tiempo que mantiene las soluciones cercanas a las anteriores del modelo de lenguaje previamente entrenado. Jacob dice que el uso de esta técnica junto con un modelo de lenguaje más pequeño probablemente podría hacerlo competitivo con el mismo rendimiento de un modelo muchas veces más grande.
Una vez que un modelo de lenguaje genera un resultado, lo ideal es que los investigadores quieran que la confianza en su generación se alinee con su precisión, pero frecuentemente este no es el caso. Pueden ocurrir alucinaciones cuando el modelo informa una confianza alta cuando debería ser baja. Maohao Shen y su grupo, con sus mentores Gregory Wornell, profesor de ingeniería Sumitomo en EECS e investigadores de laboratorio de IBM Research Subhro Das, Prasanna Sattigeri y Soumya Ghosh, buscan solucionar este problema mediante la cuantificación de la incertidumbre (UQ). «Nuestro proyecto tiene como objetivo calibrar modelos lingüísticos cuando están mal calibrados», afirma Shen. Específicamente, están analizando el problema de clasificación. Para ello, Shen permite que un modelo de lenguaje genere texto libre, que luego se convierte en una tarea de clasificación de opción múltiple. Por ejemplo, podrían pedirle al modelo que resuelva un problema matemático y luego preguntarle si la respuesta que generó es correcta: «sí, no o tal vez». Esto ayuda a determinar si el modelo tiene exceso o falta de confianza.
Al automatizar esto, el equipo desarrolló una técnica que ayuda a ajustar la producción de confianza mediante un modelo de lenguaje previamente entrenado. Los investigadores entrenaron un modelo auxiliar utilizando información de verdad sobre el terreno para que su sistema pudiera corregir el modelo de lenguaje. «Si su modelo tiene demasiada confianza en su predicción, podemos detectarlo y hacerlo menos confiable, y viceversa», explica Shen. El equipo evaluó su técnica en múltiples conjuntos de datos de referencia populares para mostrar qué tan bien se generaliza a tareas invisibles para realinear la precisión y confianza de las predicciones del modelo de lenguaje. «Después del entrenamiento, puedes simplemente conectarte y aplicar esta técnica a nuevas tareas sin ninguna otra supervisión», dice Shen. «Lo único que necesitas son los datos para esa nueva tarea».
Victor Butoi también mejora la capacidad del modelo, pero en cambio, su equipo de laboratorio, que incluye a John Guttag, profesor Dugald C. Jackson de Ciencias de la Computación e Ingeniería Eléctrica en EECS; los investigadores de laboratorio Leonid Karlinsky y Rogerio Feris de IBM Research; y los afiliados del laboratorio Hilde Kühne de la Universidad de Bonn y Wei Lin de la Universidad Tecnológica de Graz, están creando técnicas que permiten que los modelos de visión y lenguaje razonen sobre lo que están viendo y están diseñando indicaciones para desbloquear nuevas habilidades de aprendizaje y comprender frases clave. .
El razonamiento compositivo es sólo otro aspecto del proceso de toma de decisiones que pedimos que realicen los modelos de aprendizaje automático para que sean útiles en situaciones del mundo real, explica Butoi. “Es necesario poder pensar en los problemas de forma compositiva y resolver subtareas”, dice Butoi, “por ejemplo, si dices que la silla está a la izquierda de la persona, debes reconocer tanto la silla como a la persona. Necesitas entender las instrucciones”. Y luego, una vez que el modelo entiende «izquierda», el equipo de investigación quiere que el modelo pueda responder otras preguntas relacionadas con «izquierda».
Sorprendentemente, los modelos visión-lenguaje no razonan bien sobre la composición, explica Butoi, pero se les puede ayudar utilizando un modelo que pueda “guiar al testigo”, por así decirlo. El equipo desarrolló un modelo que se modificó utilizando una técnica llamada adaptación de bajo rango de modelos de lenguaje grandes (LoRA) y se entrenó en un conjunto de datos anotado llamado Visual Genome, que tiene objetos en una imagen y flechas que indican relaciones, como direcciones. En este caso, el modelo LoRA entrenado sería guiado para decir algo sobre las relaciones «izquierdistas», y este resultado del título se usaría luego para proporcionar contexto e impulsar el modelo visión-lenguaje, lo que lo convertiría en una «tarea significativamente más fácil», dice Butoi. .
En el mundo de la robótica, los sistemas de inteligencia artificial también interactúan con su entorno mediante la visión y el lenguaje por computadora. Los entornos pueden variar desde almacenes hasta el hogar. Andi Peng y sus mentores, la profesora HN Slater de Aeronáutica y Astronáutica del MIT, Julie Shah y Chuang Gan, del laboratorio y de la Universidad de Massachusetts en Amherst, se están centrando en ayudar a las personas con limitaciones físicas, utilizando mundos virtuales. Para ello, el grupo de Peng está desarrollando dos modelos de IA incorporados (un «humano» que necesita apoyo y un agente auxiliar) en un entorno simulado llamado ThreeDWorld. Centrándose en las interacciones entre humanos y robots, el equipo aprovecha los antecedentes semánticos capturados por grandes modelos de lenguaje para ayudar a la IA auxiliar a inferir qué habilidades el agente «humano» podría no ser capaz de realizar y la motivación detrás de las acciones del «humano», utilizando recursos naturales. idioma. El equipo busca fortalecer la toma secuencial de decisiones del ayudante, la comunicación bidireccional, la capacidad de comprender la escena física y la mejor manera de contribuir.
«Mucha gente piensa que los programas de IA deberían ser autónomos, pero creo que una parte importante del proceso es que construimos robots y sistemas para humanos, y queremos transmitir el conocimiento humano», dice Peng. “No queremos que un sistema haga algo de forma extraña; queremos que lo hagan de una manera humana que podamos entender”.