¿Alguna vez le han hecho una pregunta de la que solo sabía una parte de la respuesta? Para dar una respuesta más informada, lo mejor sería llamar a un amigo que tenga más conocimientos sobre el tema.
Este proceso colaborativo también puede ayudar a los grandes modelos lingüísticos (LLM) a mejorar su precisión. Aun así, ha sido difícil enseñarles a reconocer cuándo deberían colaborar con otro modelo para obtener una respuesta. En lugar de utilizar fórmulas complejas o grandes cantidades de datos etiquetados para indicar en qué casos los modelos deberían trabajar juntos, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han imaginado un enfoque más orgánico.
Su nuevo algoritmo, llamado “Co-LLM”, puede emparejar un LLM básico de propósito general con un modelo más especializado y ayudarlos a trabajar juntos. Mientras el primero elabora una respuesta, Co-LLM revisa cada palabra (o token) dentro de su respuesta para ver dónde puede recurrir a una respuesta más precisa del modelo experto. Este proceso conduce a respuestas más precisas a cosas como indicaciones médicas y problemas de matemáticas y razonamiento. Dado que el modelo experto no es necesario en cada iteración, esto también conduce a una generación de respuestas más eficiente.
Para decidir cuándo un modelo base necesita la ayuda de un modelo experto, el marco utiliza el aprendizaje automático para entrenar una “variable de conmutación”, o una herramienta que puede indicar la competencia de cada palabra dentro de las respuestas de los dos LLM. La variable de conmutación es como un director de proyectos, que encuentra áreas en las que debería llamar a un especialista. Si le pidiera a Co-LLM que nombrara algunos ejemplos de especies de osos extintas, por ejemplo, dos modelos redactarían respuestas juntas. El LLM de propósito general comienza a armar una respuesta, con la variable de conmutación interviniendo en las partes en las que puede insertar un token mejor del modelo experto, como agregar el año en que se extinguió la especie de oso.
“Con Co-LLM, básicamente estamos entrenando a un LLM de propósito general para que ‘llame’ a un modelo experto cuando sea necesario”, dice Shannon Shen, estudiante de doctorado del MIT en ingeniería eléctrica y ciencias de la computación y afiliada a CSAIL, quien es autora principal de un nuevo artículo sobre el enfoque. “Usamos datos específicos del dominio para enseñarle al modelo base sobre la experiencia de su contraparte en áreas como tareas biomédicas y preguntas de matemáticas y razonamiento. Este proceso encuentra automáticamente las partes de los datos que son difíciles de generar para el modelo base y luego le indica al modelo base que cambie al LLM experto, que fue entrenado previamente con datos de un campo similar. El modelo de propósito general proporciona la generación de ‘andamiaje’ y, cuando llama al LLM especializado, le indica al experto que genere los tokens deseados. Nuestros hallazgos indican que los LLM aprenden patrones de colaboración de manera orgánica, similar a cómo los humanos reconocen cuándo llamar a un experto para completar los espacios en blanco”.
Una combinación de flexibilidad y factibilidad
Imaginemos que le pedimos a un doctor en derecho de uso general que nombre los ingredientes de un medicamento específico que se vende con receta. Es posible que responda incorrectamente, lo que requeriría la experiencia de un modelo especializado.
Para demostrar la flexibilidad de Co-LLM, los investigadores utilizaron datos como el conjunto médico BioASQ para combinar un LLM básico con LLM expertos en diferentes dominios, como el modelo Meditron, que está entrenado previamente con datos médicos no etiquetados. Esto permitió que el algoritmo ayudara a responder las preguntas que un experto biomédico recibiría normalmente, como nombrar los mecanismos que causan una enfermedad en particular.
Por ejemplo, si le pides a un simple LLM que nombre los ingredientes de un medicamento específico, es posible que responda incorrectamente. Con la experiencia adicional de un modelo que se especializa en datos biomédicos, obtendrás una respuesta más precisa. Co-LLM también alerta a los usuarios sobre dónde verificar las respuestas.
Otro ejemplo del aumento de rendimiento de Co-LLM: cuando se le asignó la tarea de resolver un problema matemático como «a3 · a2 si a=5», el modelo de propósito general calculó incorrectamente que la respuesta era 125. A medida que Co-LLM entrenó al modelo para colaborar más con un gran LLM de matemáticas llamado Llemma, juntos determinaron que la solución correcta era 3125.
El modelo Co-LLM proporcionó respuestas más precisas que los modelos LLM simples y ajustados y los modelos especializados no ajustados que trabajaban de forma independiente. El modelo Co-LLM puede guiar a dos modelos que se entrenaron de forma diferente para que trabajen juntos, mientras que otros enfoques de colaboración LLM eficaces, como el “ajuste proxy”, necesitan que todos sus modelos componentes se entrenen de forma similar. Además, esta línea de base requiere que cada modelo se utilice simultáneamente para producir la respuesta, mientras que el algoritmo del MIT simplemente activa su modelo experto para tokens particulares, lo que conduce a una generación más eficiente.
Cuándo preguntarle al experto
El algoritmo de los investigadores del MIT destaca que imitar más fielmente el trabajo en equipo humano puede aumentar la precisión en la colaboración entre varios LLM. Para aumentar aún más su precisión factual, el equipo puede recurrir a la autocorrección humana: están considerando un enfoque de aplazamiento más sólido que pueda dar marcha atrás cuando el modelo experto no dé una respuesta correcta. Esta actualización permitiría a Co-LLM corregir el rumbo para que el algoritmo pueda seguir dando una respuesta satisfactoria.
Al equipo también le gustaría actualizar el modelo experto (mediante el entrenamiento exclusivo del modelo base) cuando haya nueva información disponible, para mantener las respuestas lo más actualizadas posible. Esto permitiría a Co-LLM combinar la información más actualizada con un gran poder de razonamiento. Con el tiempo, el modelo podría ayudar con los documentos empresariales, utilizando la información más reciente que tenga para actualizarlos en consecuencia. Co-LLM también podría entrenar modelos pequeños y privados para que trabajen con un LLM más potente para mejorar los documentos que deben permanecer dentro del servidor.
“Co-LLM presenta un enfoque interesante para aprender a elegir entre dos modelos para mejorar la eficiencia y el rendimiento”, dice Colin Raffel, profesor asociado de la Universidad de Toronto y director asociado de investigación del Instituto Vector, que no participó en la investigación. “Dado que las decisiones de enrutamiento se toman a nivel de token, Co-LLM proporciona una forma granular de diferir los pasos de generación difíciles a un modelo más potente. La combinación única de enrutamiento a nivel de modelo-token también proporciona una gran flexibilidad de la que carecen métodos similares. Co-LLM contribuye a una importante línea de trabajo que tiene como objetivo desarrollar ecosistemas de modelos especializados para superar a los costosos sistemas de IA monolíticos”.
Shen escribió el artículo con otros cuatro afiliados de CSAIL: el estudiante de doctorado Hunter Lang ’17, MEng ’18; el ex investigador de posdoctorado e investigador de IA/ML de Apple Bailin Wang; el profesor adjunto de ingeniería eléctrica y ciencias de la computación del MIT Yoon Kim, y el profesor y miembro de la Clínica Jameel David Sontag PhD ’10, quienes son parte del Laboratorio de IA Watson del MIT-IBM. Su investigación fue apoyada, en parte, por la Fundación Nacional de Ciencias, la Beca de Posgrado en Ciencias e Ingeniería de la Defensa Nacional (NDSEG), el Laboratorio de IA Watson del MIT-IBM y Amazon. Su trabajo fue presentado en la Reunión Anual de la Asociación de Lingüística Computacional.