A pesar de todas sus capacidades impresionantes, los modelos de idiomas grandes (LLM) a menudo se quedan cortos cuando se les da nuevas tareas desafiantes que requieren habilidades de razonamiento complejas.
Si bien la LLM de una firma de contabilidad podría sobresalir al resumir los informes financieros, ese mismo modelo podría fallar inesperadamente si se le asigna la tarea de predecir las tendencias del mercado o identificar transacciones fraudulentas.
Para hacer que los LLM sean más adaptables, los investigadores del MIT investigaron cómo una cierta técnica de capacitación puede implementarse estratégicamente para impulsar el rendimiento de un modelo en problemas desconocidos y difíciles.
Muestran que la capacitación en el tiempo de prueba, un método que implica actualizar temporalmente algunos de los trabajos internos de un modelo durante el despliegue, puede conducir a una mejora de seis veces en la precisión. Los investigadores desarrollaron un marco para implementar una estrategia de capacitación en el tiempo de prueba que utiliza ejemplos de la nueva tarea para maximizar estas ganancias.
Su trabajo podría mejorar la flexibilidad de un modelo, lo que permite que un LLM estándar se adapte a tareas complejas que requieren planificación o abstracción. Esto podría conducir a LLM que serían más precisos en muchas aplicaciones que requieren una deducción lógica, desde diagnósticos médicos hasta la gestión de la cadena de suministro.
«El aprendizaje genuino, lo que hicimos aquí con la capacitación en el tiempo de prueba, es algo que estos modelos no pueden hacer por su cuenta después de que se envíen. No pueden obtener nuevas habilidades ni mejorar en una tarea. Pero hemos demostrado que si presiona un poco el modelo para hacer un aprendizaje real, ves que pueden ocurrir grandes mejoras en el rendimiento», dice Ekin Akyürek Phd ’25, autor principal, autor del estudio.
Akyürek se une en el periódico por estudiantes graduados Mehul Damani, Linlu Qiu, Han Guo y Jyothish Pari; pregrado Adam Zweiger; y autores principales Yoon Kim, profesor asistente de ingeniería eléctrica e informática (EECS) y miembro del Laboratorio de Informática e Inteligencia Artificial (CSAIL); y Jacob Andreas, profesor asociado en EECS y miembro de CSAIL. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Autor.
Abordar dominios duros
Los usuarios de LLM a menudo intentan mejorar el rendimiento de su modelo en una nueva tarea utilizando una técnica llamada aprendizaje en contexto. Alimentan al modelo algunos ejemplos de la nueva tarea como indicaciones de texto que guían las salidas del modelo.
Pero el aprendizaje en contexto no siempre funciona para problemas que requieren lógica y razonamiento.
Los investigadores del MIT investigaron cómo la capacitación en el tiempo de prueba puede usarse junto con el aprendizaje en contexto para aumentar el rendimiento en estas tareas desafiantes. La capacitación en el tiempo de prueba implica actualizar algunos parámetros del modelo, las variables internas que utiliza para hacer predicciones, utilizando una pequeña cantidad de datos nuevos específicos para la tarea en cuestión.
Los investigadores exploraron cómo la capacitación en el tiempo de prueba interactúa con el aprendizaje en contexto. Estudiaron opciones de diseño que maximizan las mejoras de rendimiento que uno puede sacar de una LLM de propósito general.
«Encontramos que la capacitación en el tiempo de prueba es una forma mucho más fuerte de aprendizaje. Si bien simplemente proporcionar ejemplos puede aumentar modestamente la precisión, actualizar el modelo con esos ejemplos puede conducir a un rendimiento significativamente mejor, particularmente en los dominios desafiantes», dice Damani.
El aprendizaje en contexto requiere un pequeño conjunto de ejemplos de tareas, incluidos problemas y sus soluciones. Los investigadores usan estos ejemplos para crear un conjunto de datos específico de tarea necesario para la capacitación en el tiempo de prueba.
Para expandir el tamaño de este conjunto de datos, crean nuevas entradas cambiando ligeramente los problemas y soluciones en los ejemplos, como voltear horizontalmente algunos datos de entrada. Encuentran que capacitar al modelo en las salidas de este nuevo conjunto de datos conduce al mejor rendimiento.
Además, los investigadores solo actualizan un pequeño número de parámetros del modelo utilizando una técnica llamada adaptación de bajo rango, lo que mejora la eficiencia del proceso de entrenamiento de tiempo de prueba.
«Esto es importante porque nuestro método debe ser eficiente si se va a implementar en el mundo real. Encontramos que puede obtener grandes mejoras en precisión con una cantidad muy pequeña de entrenamiento de parámetros», dice Akyürek.
Desarrollar nuevas habilidades
La racionalización del proceso es clave, ya que la capacitación en el tiempo de prueba se emplea por instancia, lo que significa que un usuario necesitaría hacer esto para cada tarea individual. Las actualizaciones del modelo son solo temporales, y el modelo vuelve a su forma original después de hacer una predicción.
Un modelo que generalmente tarda menos de un minuto en responder una consulta puede tardar cinco o 10 minutos en proporcionar una respuesta con el entrenamiento de tiempo de prueba, agrega Akyürek.
«No querríamos hacer esto para todas las consultas de los usuarios, pero es útil si tiene una tarea muy difícil que desea que el modelo resuelva bien. También podrían haber tareas que son demasiado desafiantes para que un LLM resuelva sin este método», dice.
Los investigadores probaron su enfoque en dos conjuntos de datos de referencia de problemas extremadamente complejos, como los rompecabezas de IQ. Aumentó una precisión hasta seis sobre técnicas que usan solo el aprendizaje en contexto.
Las tareas que involucraron patrones estructurados o aquellos que utilizaron tipos de datos completamente desconocidos mostraron las mayores mejoras de rendimiento.
«Para tareas más simples, el aprendizaje en contexto podría estar bien. Pero actualizar los parámetros en sí mismos podría desarrollar una nueva habilidad en el modelo», dice Damani.
En el futuro, los investigadores quieren utilizar estas ideas para el desarrollo de modelos que aprenden continuamente.
El objetivo a largo plazo es una LLM que, dada una consulta, puede determinar automáticamente si necesita usar capacitación en el tiempo de prueba para actualizar los parámetros o si puede resolver la tarea utilizando el aprendizaje en contexto, y luego implementar la mejor estrategia de entrenamiento de tiempo de prueba sin la necesidad de intervención humana.
Este trabajo es apoyado, en parte, por el MIT-IBM Watson AI Lab y la National Science Foundation.