Las personas utilizan modelos lingüísticos de gran tamaño para una gran variedad de tareas, desde traducir un artículo hasta identificar fraudes financieros. Sin embargo, a pesar de las increíbles capacidades y versatilidad de estos modelos, a veces generan respuestas inexactas.
Además de ese problema, los modelos pueden tener demasiada confianza en las respuestas incorrectas o poca confianza en las correctas, lo que hace que sea difícil para un usuario saber cuándo se puede confiar en un modelo.
Los investigadores suelen calibrar un modelo de aprendizaje automático para garantizar que su nivel de confianza coincida con su precisión. Un modelo bien calibrado debería tener menos confianza en una predicción incorrecta, y viceversa. Pero como los modelos de lenguaje grandes (LLM) se pueden aplicar a una colección aparentemente infinita de tareas diversas, los métodos de calibración tradicionales son ineficaces.
Ahora, investigadores del MIT y del MIT-IBM Watson AI Lab han presentado un método de calibración adaptado a modelos lingüísticos de gran tamaño. Su método, llamado Thermometer, implica la construcción de un modelo auxiliar más pequeño que se ejecuta sobre un modelo lingüístico de gran tamaño para calibrarlo.
El termómetro es más eficiente que otros métodos (requiere menos computación que consume mucha energía), al tiempo que preserva la precisión del modelo y le permite producir respuestas mejor calibradas en tareas que no ha visto antes.
Al permitir una calibración eficiente de un LLM para una variedad de tareas, Thermometer podría ayudar a los usuarios a identificar situaciones en las que un modelo confía demasiado en predicciones falsas, lo que en última instancia les impide implementar ese modelo en una situación en la que pueda fallar.
“Con Thermometer, queremos proporcionar al usuario una señal clara que le indique si la respuesta de un modelo es precisa o inexacta, de una manera que refleje la incertidumbre del modelo, para que sepa si ese modelo es confiable”, dice Maohao Shen, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación (EECS) y autor principal de un artículo sobre Thermometer.
En el artículo, Shen está acompañado por Gregory Wornell, profesor de Ingeniería Sumitomo que dirige el Laboratorio de Señales, Información y Algoritmos del Laboratorio de Investigación en Electrónica y es miembro del Laboratorio de Inteligencia Artificial Watson del MIT-IBM; la autora principal Soumya Ghosh, miembro del personal de investigación del Laboratorio de Inteligencia Artificial Watson del MIT-IBM; así como otros investigadores del MIT y del Laboratorio de Inteligencia Artificial Watson del MIT-IBM. La investigación se presentó recientemente en la Conferencia Internacional sobre Aprendizaje Automático.
Calibración universal
Dado que los modelos de aprendizaje automático tradicionales suelen estar diseñados para realizar una única tarea, su calibración suele implicar un método específico para esa tarea. Por otro lado, dado que los modelos de aprendizaje automático tradicionales tienen la flexibilidad de realizar muchas tareas, el uso de un método tradicional para calibrar ese modelo para una tarea puede perjudicar su rendimiento en otra tarea.
La calibración de un modelo LLM suele implicar tomar muestras del modelo varias veces para obtener diferentes predicciones y luego agregarlas para obtener una mayor fiabilidad. Sin embargo, como estos modelos tienen miles de millones de parámetros, los costos computacionales de estos enfoques aumentan rápidamente.
“En cierto sentido, los modelos de lenguaje de gran tamaño son universales porque pueden manejar diversas tareas. Por lo tanto, necesitamos un método de calibración universal que también pueda manejar muchas tareas diferentes”, afirma Shen.
Con Thermometer, los investigadores desarrollaron una técnica versátil que aprovecha un método de calibración clásico llamado escala de temperatura para calibrar eficientemente un LLM para una nueva tarea.
En este contexto, una “temperatura” es un parámetro de escala que se utiliza para ajustar la confianza de un modelo para que esté en consonancia con la precisión de su predicción. Tradicionalmente, se determina la temperatura correcta utilizando un conjunto de datos de validación etiquetados de ejemplos específicos de la tarea.
Dado que los LLM suelen aplicarse a nuevas tareas, los conjuntos de datos etiquetados pueden resultar casi imposibles de adquirir. Por ejemplo, un usuario que desea implementar un LLM para responder preguntas de los clientes sobre un nuevo producto probablemente no tenga un conjunto de datos que contenga dichas preguntas y respuestas.
En lugar de utilizar un conjunto de datos etiquetados, los investigadores entrenan un modelo auxiliar que se ejecuta sobre un LLM para predecir automáticamente la temperatura necesaria para calibrarlo para esta nueva tarea.
Utilizan conjuntos de datos etiquetados de algunas tareas representativas para entrenar el modelo del Termómetro, pero luego, una vez entrenado, puede generalizarse a nuevas tareas en una categoría similar sin la necesidad de datos etiquetados adicionales.
Un modelo de termómetro entrenado en una colección de conjuntos de datos de preguntas de opción múltiple, que quizás incluyan uno con preguntas de álgebra y otro con preguntas médicas, podría usarse para calibrar un LLM que responderá preguntas sobre geometría o biología, por ejemplo.
“El objetivo es que funcione en cualquier tarea, pero aún no lo hemos logrado”, dice Ghosh.
El modelo del termómetro solo necesita acceder a una pequeña parte del funcionamiento interno del LLM para predecir la temperatura correcta que calibrará su predicción para los puntos de datos de una tarea específica.
Un enfoque eficiente
Es importante destacar que la técnica no requiere múltiples ejecuciones de entrenamiento y solo reduce ligeramente la velocidad de respuesta. Además, dado que el escalamiento de temperatura no altera las predicciones de un modelo, Thermometer conserva su precisión.
Cuando compararon el termómetro con varias líneas de base en múltiples tareas, produjo consistentemente medidas de incertidumbre mejor calibradas y requirió mucho menos cálculo.
“Siempre que entrenemos un modelo de termómetro en una cantidad suficientemente grande de tareas, debería poder generalizarse bien en cualquier tarea nueva; al igual que un modelo de lenguaje grande, también es un modelo universal”, agrega Shen.
Los investigadores también descubrieron que si entrenan un modelo de termómetro para un LLM más pequeño, se puede aplicar directamente para calibrar un LLM más grande dentro de la misma familia.
En el futuro, quieren adaptar Thermometer para tareas de generación de texto más complejas y aplicar la técnica a LLM aún más grandes. Los investigadores también esperan cuantificar la diversidad y la cantidad de conjuntos de datos etiquetados que se necesitarían para entrenar un modelo Thermometer para que pueda generalizarse a una nueva tarea.
Esta investigación fue financiada, en parte, por el MIT-IBM Watson AI Lab.