Sócrates dijo una vez: “No es el tamaño de una cosa, sino la calidad lo que realmente importa. Porque es en la naturaleza de la sustancia, no en su volumen, donde se encuentra el verdadero valor.”
¿El tamaño siempre importa para los modelos de lenguaje grande (LLM)? En un panorama tecnológico deslumbrado por los LLM que ocupan un lugar central, un equipo de investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT cree que los modelos más pequeños no deben pasarse por alto, especialmente para los productos de comprensión del lenguaje natural ampliamente implementados en la industria.
Con ese fin, los investigadores prepararon un enfoque para los problemas de larga data de ineficiencia y privacidad asociados con grandes modelos de inteligencia artificial basados en texto: un modelo consciente de la lógica que supera a sus contrapartes 500 veces más grandes en algunas tareas de comprensión del lenguaje sin intervención humana. anotaciones generadas, preservando la privacidad y robustez con alto rendimiento.
Los LLM, que han demostrado algunas habilidades prometedoras en la generación de lenguaje, arte y código, son computacionalmente costosos y sus requisitos de datos pueden correr el riesgo de filtraciones de privacidad al usar interfaces de programación de aplicaciones para cargar datos. Históricamente, los modelos más pequeños han sido menos capaces, particularmente en tareas multitarea y poco supervisadas, en comparación con sus contrapartes más grandes.
Entonces, ¿qué está ayudando a estos modelos más pequeños a actuar tan poderosamente? Algo llamado «vinculación textual», una forma de ayudar a estos modelos a comprender una variedad de tareas del lenguaje, donde si una oración (la premisa) es verdadera, entonces es probable que la otra oración (la hipótesis) también lo sea. Por ejemplo, si la premisa es «todos los gatos tienen cola», entonces la premisa implicaría la hipótesis «un gato atigrado tiene cola». Este concepto se utiliza para entrenar un «modelo de vinculación» que demostró ser menos sesgado que otros modelos de lenguaje, según la investigación anterior del equipo. Luego crearon «indicaciones» que los modelos pueden usar para determinar si cierta información está relacionada con una oración o frase determinada de acuerdo con diferentes tareas. Este método mejoró la capacidad del modelo para adaptarse a diferentes tareas sin ningún entrenamiento adicional, lo que se conoce como adaptación de disparo cero.
En el ámbito de la «comprensión del lenguaje natural», existen varias aplicaciones que dependen de la determinación de la relación entre dos fragmentos de texto. Por ejemplo, en la clasificación de sentimientos, una declaración como «Creo que la película es buena» se puede inferir o derivar de una reseña de una película que dice «Me gusta la historia y la actuación es excelente», lo que indica un sentimiento positivo. Otra es la clasificación de noticias, donde el tema de un artículo de noticias se puede inferir de su contenido. Por ejemplo, una declaración como «el artículo de noticias es sobre deportes» puede estar implícita si el contenido principal del artículo informa sobre un juego de la NBA. La idea clave fue que muchas tareas existentes de comprensión del lenguaje natural podrían reformularse como una tarea de vinculación (es decir, inferencia lógica en lenguaje natural).
“Nuestra investigación se trata de mejorar la capacidad de los programas informáticos para comprender y procesar el lenguaje natural, la forma en que los humanos hablan y escriben. Nuestros modelos de vinculación autodidactas de 350 millones de parámetros, sin etiquetas generadas por humanos, superan a los modelos de lenguaje supervisado con 137 a 175 mil millones de parámetros”, dice el postdoctorado MIT CSAIL Hongyin Luo, autor principal de un nuevo artículo sobre el estudio. “Esto tiene el potencial de remodelar el panorama de la IA y el aprendizaje automático, brindando una solución más escalable, confiable y rentable para el modelado del lenguaje”, dice Luo. “Al demostrar que los modelos más pequeños pueden funcionar al mismo nivel que los más grandes para la comprensión del lenguaje, este trabajo allana el camino para tecnologías de IA más sostenibles y que preservan la privacidad”.
El equipo descubrió que podían mejorar aún más el rendimiento del modelo mediante el uso de una técnica llamada «autoentrenamiento», en la que el modelo utiliza sus propias predicciones para aprender a sí mismo, aprendiendo de manera efectiva sin supervisión humana y datos de entrenamiento anotados adicionales. El método de autoentrenamiento mejoró significativamente el rendimiento en un montón de tareas posteriores, incluido el análisis de sentimientos, la respuesta a preguntas y la clasificación de noticias. Superó tanto a LaMDA como a FLAN de Google en capacidades de disparo cero, modelos GPT y otros algoritmos supervisados.
Sin embargo, un desafío con el autoaprendizaje es que el modelo a veces puede generar etiquetas incorrectas o ruidosas que perjudican el rendimiento. Para superar esto, desarrollaron un nuevo algoritmo llamado ‘SimPLE’ (Simple Pseudo-Label Editing), un proceso para revisar y modificar las pseudo-etiquetas realizadas en las rondas iniciales de aprendizaje. Al corregir las instancias mal etiquetadas, mejoró la calidad general de las etiquetas autogeneradas. Esto no solo hizo que los modelos fueran más efectivos en la comprensión del lenguaje, sino también más sólidos cuando se enfrentaron a datos contradictorios.
Como ocurre con la mayoría de las investigaciones, existen algunas limitaciones. El autoaprendizaje en tareas de clasificación de clases múltiples no se desempeñó tan bien como en tareas de comprensión del lenguaje natural binario, lo que indica el desafío de aplicar modelos de vinculación a tareas de opción múltiple.
“Esta investigación presenta una forma eficiente y efectiva de entrenar modelos de lenguaje grande (LLM) formulando tareas de comprensión del lenguaje natural como problemas de vinculación contextual y empleando un mecanismo de autoentrenamiento de pseudo-etiquetado para incorporar grandes cantidades de datos de texto sin etiquetar en el proceso de entrenamiento. ” agrega el científico investigador sénior de CSAIL, James Glass, quien también es autor del artículo. “Si bien el campo de los LLM está experimentando cambios rápidos y drásticos, esta investigación muestra que es posible producir modelos de lenguaje relativamente compactos que funcionan muy bien en tareas de comprensión de referencia en comparación con sus pares de aproximadamente el mismo tamaño, o incluso modelos de lenguaje mucho más grandes. .”
“La tarea de vinculación es un proxy popular para evaluar la “comprensión” de un contexto dado por parte de un modelo de IA”, dice Leonid Karlinsky, miembro del personal de investigación del MIT-IBM Watson AI Lab. “Se utiliza en muchas áreas analizando modelos unimodales, como LLM, y multimodales, como VLM. [visual language models] entradas, simplificando la tarea de preguntas y respuestas sobre un contexto de entrada dado a un problema de clasificación binaria: ¿implica este contexto una conclusión determinada (por ejemplo, texto) o no? Este artículo hace dos contribuciones en este espacio. En primer lugar, propone una forma de mejorar el rendimiento y la solidez de la NLU de disparo cero (sin ajuste adicional) frente a los ataques adversarios mediante el ajuste con tareas de implicación sintetizadas (especializadas) generadas para la tarea principal de NLU. En segundo lugar, ofrece un método SimPLE autosupervisado que incluye pseudoetiquetado y filtrado basado en la confianza para mejorar aún más el rendimiento de la NLU de los grandes LLM”.
Luo y Glass escribieron el artículo con Yoon Kim, miembro de CSAIL y profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT, y Jiaxin Ge de la Universidad de Pekín. Su trabajo será presentado en la reunión de la Asociación de Lingüística Computacional en Toronto, Ontario, este mes de julio. Esta investigación fue apoyada por una subvención del programa Hong Kong Innovation AI.