Una de las cosas que hace que los modelos de lenguaje extensos (LLM) sean tan poderosos es la diversidad de tareas a las que se pueden aplicar. El mismo modelo de aprendizaje automático que puede ayudar a un estudiante de posgrado a redactar un correo electrónico también podría ayudar a un médico a diagnosticar el cáncer.
Sin embargo, la amplia aplicabilidad de estos modelos también dificulta su evaluación sistemática. Sería imposible crear un conjunto de datos de referencia para probar un modelo en cada tipo de pregunta que se le pueda plantear.
En un nuevo artículo, los investigadores del MIT adoptaron un enfoque diferente. Sostienen que, dado que los humanos deciden cuándo implementar modelos lingüísticos de gran tamaño, para evaluar un modelo es necesario comprender cómo las personas forman creencias sobre sus capacidades.
Por ejemplo, el estudiante de posgrado debe decidir si el modelo podría ser útil para redactar un correo electrónico en particular, y el médico debe determinar en qué casos sería mejor consultar el modelo.
Partiendo de esta idea, los investigadores crearon un marco para evaluar un LLM en función de su alineación con las creencias de un ser humano sobre cómo se desempeñará en una determinada tarea.
Presentan una función de generalización humana, un modelo de cómo las personas actualizan sus creencias sobre las capacidades de un LLM después de interactuar con él. Luego, evalúan qué tan alineados están los LLM con esta función de generalización humana.
Sus resultados indican que cuando los modelos no están alineados con la función de generalización humana, un usuario podría tener demasiada o poca confianza en el lugar donde implementarlo, lo que podría provocar que el modelo falle inesperadamente. Además, debido a esta falta de alineación, los modelos más capaces tienden a tener un peor desempeño que los modelos más pequeños en situaciones de alto riesgo.
“Estas herramientas son interesantes porque son de uso general, pero como son de uso general, colaborarán con personas, por lo que tenemos que tener en cuenta al ser humano en el proceso”, dice el coautor del estudio Ashesh Rambachan, profesor adjunto de economía e investigador principal del Laboratorio de Sistemas de Información y Decisión (LIDS).
En el artículo, Rambachan está acompañado por el autor principal Keyon Vafa, un posdoctorado de la Universidad de Harvard, y Sendhil Mullainathan, profesor del MIT en los departamentos de Ingeniería Eléctrica y Ciencias de la Computación y de Economía, y miembro de LIDS. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.
Generalización humana
A medida que interactuamos con otras personas, formamos creencias sobre lo que creemos que saben y lo que no. Por ejemplo, si tu amigo es muy exigente a la hora de corregir la gramática de las personas, es posible que generalices y pienses que también se destaca en la construcción de oraciones, aunque nunca le hayas hecho preguntas sobre la construcción de oraciones.
“Los modelos lingüísticos suelen parecer muy humanos. Queríamos demostrar que esta fuerza de generalización humana también está presente en la forma en que las personas forman creencias sobre los modelos lingüísticos”, afirma Rambachan.
Como punto de partida, los investigadores definieron formalmente la función de generalización humana, que implica hacer preguntas, observar cómo responde una persona o modelo y luego hacer inferencias sobre cómo esa persona o modelo respondería a preguntas relacionadas.
Si alguien ve que un LLM puede responder correctamente a preguntas sobre inversión de matrices, también podría suponer que puede responder correctamente a preguntas sobre aritmética simple. Un modelo que no esté alineado con esta función (que no funcione bien en preguntas que un humano espera que responda correctamente) podría fallar al implementarse.
Con esa definición formal en la mano, los investigadores diseñaron una encuesta para medir cómo las personas generalizan cuando interactúan con LLM y otras personas.
Los participantes de la encuesta mostraron preguntas que una persona o un LLM respondió correctamente o no y luego les preguntaron si creían que esa persona o LLM respondería correctamente una pregunta relacionada. A través de la encuesta, generaron un conjunto de datos de casi 19.000 ejemplos de cómo los humanos generalizan sobre el desempeño de LLM en 79 tareas diferentes.
Medición de la desalineación
Descubrieron que los participantes obtuvieron buenos resultados cuando se les preguntó si un humano que respondía correctamente una pregunta respondería correctamente una pregunta relacionada, pero fueron mucho peores al generalizar sobre el desempeño de los LLM.
“La generalización humana se aplica a los modelos lingüísticos, pero eso no funciona porque esos modelos lingüísticos en realidad no muestran patrones de experiencia como lo harían las personas”, dice Rambachan.
Las personas también eran más propensas a actualizar sus creencias sobre un LLM cuando respondía preguntas incorrectamente que cuando respondía correctamente. También tendían a creer que el desempeño del LLM en preguntas simples tendría poca influencia en su desempeño en preguntas más complejas.
En situaciones donde las personas dan más importancia a las respuestas incorrectas, los modelos más simples superaron a modelos muy grandes como GPT-4.
“Los modelos lingüísticos que mejoran pueden casi engañar a las personas haciéndoles creer que se desempeñarán bien en preguntas relacionadas cuando, en realidad, no es así”, afirma.
Una posible explicación de por qué los humanos son peores a la hora de generalizar en el caso de los LLM podría provenir de su novedad: las personas tienen mucha menos experiencia interactuando con los LLM que con otras personas.
“En el futuro, es posible que mejoremos simplemente por el hecho de interactuar más con los modelos lingüísticos”, afirma.
Para ello, los investigadores quieren realizar estudios adicionales sobre cómo evolucionan las creencias de las personas sobre los LLM a lo largo del tiempo a medida que interactúan con un modelo. También quieren explorar cómo se podría incorporar la generalización humana al desarrollo de los LLM.
“Cuando entrenamos estos algoritmos en primer lugar, o intentamos actualizarlos con retroalimentación humana, debemos tener en cuenta la función de generalización humana en la forma en que pensamos sobre la medición del rendimiento”, afirma.
Mientras tanto, los investigadores esperan que su conjunto de datos pueda usarse como punto de referencia para comparar el desempeño de los LLM en relación con la función de generalización humana, lo que podría ayudar a mejorar el rendimiento de los modelos implementados en situaciones del mundo real.
“Para mí, la contribución del artículo es doble. La primera es práctica: el artículo descubre un problema crítico en la implementación de los modelos LLM para uso general del consumidor. Si las personas no tienen la comprensión correcta de cuándo los modelos LLM serán precisos y cuándo fallarán, entonces será más probable que vean errores y tal vez se desanimen a seguir usándolos. Esto resalta la cuestión de alinear los modelos con la comprensión de la generalización por parte de las personas”, dice Alex Imas, profesor de ciencias del comportamiento y economía en la Escuela de Negocios Booth de la Universidad de Chicago, que no participó en este trabajo. “La segunda contribución es más fundamental: la falta de generalización a los problemas y dominios esperados ayuda a obtener una mejor imagen de lo que hacen los modelos cuando resuelven un problema de manera “correcta”. Proporciona una prueba de si los modelos LLM “entienden” el problema que están resolviendo”.
Esta investigación fue financiada, en parte, por la Iniciativa de Ciencia de Datos de Harvard y el Centro de IA Aplicada de la Escuela de Negocios Booth de la Universidad de Chicago.