La investigación ha demostrado que los modelos de idiomas grandes (LLM) tienden a enfatizar demasiado la información al principio y al final de un documento o conversación, al tiempo que descuidan el medio.
Este «sesgo de posición» significa que, si un abogado está utilizando un asistente virtual con motor LLM para recuperar una cierta frase en una declaración jurada de 30 páginas, es más probable que el LLM encuentre el texto correcto si está en las páginas iniciales o finales.
Los investigadores del MIT han descubierto el mecanismo detrás de este fenómeno.
Crearon un marco teórico para estudiar cómo fluye la información a través de la arquitectura de aprendizaje automático que forma la columna vertebral de LLM. Descubrieron que ciertas opciones de diseño que controlan cómo el modelo procesa los datos de entrada puede causar sesgo de posición.
Sus experimentos revelaron que las arquitecturas del modelo, particularmente aquellas que afectan cómo se extiende la información a través de las palabras de entrada dentro del modelo, pueden dar lugar o intensificar el sesgo de posición, y que los datos de entrenamiento también contribuyen al problema.
Además de identificar los orígenes del sesgo de posición, su marco se puede utilizar para diagnosticarlo y corregirlo en futuros diseños de modelos.
Esto podría conducir a chatbots más confiables que permanecen en el tema durante las largas conversaciones, los sistemas de IA médicos que razonan más justo al manejar un tesoro de datos del paciente y asistentes de código que prestan más atención a todas las partes de un programa.
“These models are black boxes, so as an LLM user, you probably don’t know that position bias can cause your model to be inconsistent. You just feed it your documents in whatever order you want and expect it to work. But by understanding the underlying mechanism of these black-box models better, we can improve them by addressing these limitations,” says Xinyi Wu, a graduate student in the MIT Institute for Data, Systems, and Society (IDSS) and the Laboratory for Information and Decision Sistemas (tapas), y primer autor de un artículo sobre esta investigación.
Sus coautores incluyen a Yifei Wang, un postdoc de MIT; y autores principales Stefanie Jegelka, profesora asociada de ingeniería eléctrica e informática (EEC) y miembro de IDSS y del Laboratorio de Inteligencia de Informática e Artificial (CSAIL); y Ali Jadbabaie, profesor y jefe del Departamento de Ingeniería Civil y Ambiental, un miembro central de la facultad de IDSS e investigador principal en Lids. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Autor.
Análisis de atención
Los LLM como Claude, Llama y GPT-4 están impulsados por un tipo de arquitectura de red neuronal conocida como transformador. Los transformadores están diseñados para procesar datos secuenciales, codificar una oración en fragmentos llamados tokens y luego aprender las relaciones entre los tokens para predecir qué palabras vienen a continuación.
Estos modelos se han vuelto muy buenos en esto debido al mecanismo de atención, que utiliza capas interconectadas de nodos de procesamiento de datos para dar sentido al contexto al permitir que los tokens se concentren selectivamente o atiendan tokens relacionados.
Pero si cada token puede atender cualquier otro token en un documento de 30 páginas, eso rápidamente se vuelve computacionalmente intratable. Entonces, cuando los ingenieros construyen modelos de transformadores, a menudo emplean técnicas de enmascaramiento de atención que limitan las palabras que puede atender un token.
Por ejemplo, una máscara causal solo permite que las palabras atiendan a las que vinieron antes.
Los ingenieros también usan codificaciones posicionales para ayudar al modelo a comprender la ubicación de cada palabra en una oración, mejorando el rendimiento.
Los investigadores del MIT crearon un marco teórico basado en gráficos para explorar cómo estas opciones de modelado, máscaras de atención y codificaciones posicionales podrían afectar el sesgo de posición.
«Todo está acoplado y enredado dentro del mecanismo de atención, por lo que es muy difícil de estudiar. Los gráficos son un lenguaje flexible para describir la relación dependiente entre las palabras dentro del mecanismo de atención y rastrearlas en múltiples capas», dice Wu.
Su análisis teórico sugirió que el enmascaramiento causal le da al modelo un sesgo inherente hacia el comienzo de una entrada, incluso cuando ese sesgo no existe en los datos.
Si las palabras anteriores son relativamente poco importantes para el significado de una oración, el enmascaramiento causal puede hacer que el transformador preste más atención a su comienzo de todos modos.
«Si bien a menudo es cierto que las palabras anteriores y las palabras posteriores en una oración son más importantes, si se usa un LLM en una tarea que no es una generación de lenguaje natural, como la clasificación o la recuperación de información, estos sesgos pueden ser extremadamente dañinos», dice Wu.
A medida que crece un modelo, con capas adicionales de mecanismo de atención, este sesgo se amplifica porque las partes anteriores de la entrada se usan con mayor frecuencia en el proceso de razonamiento del modelo.
También encontraron que usar codificaciones posicionales para vincular las palabras con más fuerza a las palabras cercanas puede mitigar el sesgo de posición. La técnica reenfoca la atención del modelo en el lugar correcto, pero su efecto se puede diluir en modelos con más capas de atención.
Y estas opciones de diseño son solo una causa de sesgo de posición: algunos pueden provenir de los datos de entrenamiento que el modelo usa para aprender a priorizar las palabras en una secuencia.
«Si sabe que sus datos están sesgados de cierta manera, entonces también debe finitar su modelo además de ajustar sus opciones de modelado», dice Wu.
Perdido en el medio
Después de establecer un marco teórico, los investigadores realizaron experimentos en los que variaron sistemáticamente la posición de la respuesta correcta en las secuencias de texto para una tarea de recuperación de información.
Los experimentos mostraron un fenómeno «perdido en el medio», donde la precisión de la recuperación siguió a un patrón en forma de U. Los modelos se desempeñaron mejor si la respuesta correcta se encontraba al comienzo de la secuencia. El rendimiento disminuyó cuanto más se acercaba al medio antes de recuperarse un poco si la respuesta correcta estaba cerca del final.
En última instancia, su trabajo sugiere que usar una técnica de enmascaramiento diferente, eliminar capas adicionales del mecanismo de atención o emplear estratégicamente codificaciones posicionales podría reducir el sesgo de posición y mejorar la precisión de un modelo.
«Al hacer una combinación de teoría y experimentos, pudimos analizar las consecuencias de las opciones de diseño del modelo que no estaban claras en ese momento. Si desea usar un modelo en aplicaciones de alto riesgo, debe saber cuándo funcionará, cuándo no lo hará y por qué», dice Jadbabaie.
En el futuro, los investigadores quieren explorar más a fondo los efectos de las codificaciones posicionales y estudiar cómo el sesgo de posición podría explotarse estratégicamente en ciertas aplicaciones.
«Estos investigadores ofrecen una lente teórica rara en el mecanismo de atención en el corazón del modelo de transformador. Proporcionan un análisis convincente que aclara las peculiaridades de larga data en el comportamiento del transformador, mostrando que los mecanismos de atención, especialmente con las máscaras causales, inherentemente modelos de sesgo hacia el comienzo de las secuencias. Profesor y director del Centro de Diseño del Mercado Computacional de Stanford, que no participó en este trabajo.
Esta investigación es apoyada, en parte, por la Oficina de Investigación Naval de los Estados Unidos, la Fundación Nacional de Ciencias y una profesión de Alexander von Humboldt.