Para entrenar modelos de lenguaje grandes y más potentes, los investigadores utilizan grandes colecciones de conjuntos de datos que combinan datos diversos de miles de fuentes web.
Pero a medida que estos conjuntos de datos se combinan y recombinan en múltiples colecciones, a menudo se pierde o se confunde en el proceso información importante sobre sus orígenes y las restricciones sobre cómo pueden usarse.
Esto no solo genera problemas legales y éticos, sino que también puede perjudicar el rendimiento de un modelo. Por ejemplo, si un conjunto de datos está mal categorizado, alguien que entrena un modelo de aprendizaje automático para una determinada tarea puede terminar usando, sin saberlo, datos que no están diseñados para esa tarea.
Además, los datos de fuentes desconocidas podrían contener sesgos que hagan que un modelo haga predicciones injustas al implementarse.
Para mejorar la transparencia de los datos, un equipo de investigadores multidisciplinarios del MIT y de otros centros emprendió una auditoría sistemática de más de 1.800 conjuntos de datos de texto en sitios de alojamiento populares. Descubrieron que más del 70 por ciento de estos conjuntos de datos omitían alguna información sobre licencias, mientras que alrededor del 50 por ciento contenía información que contenía errores.
A partir de estos conocimientos, desarrollaron una herramienta fácil de usar llamada Data Provenance Explorer, que genera automáticamente resúmenes fáciles de leer de los creadores, las fuentes, las licencias y los usos permitidos de un conjunto de datos.
“Este tipo de herramientas pueden ayudar a los reguladores y profesionales a tomar decisiones informadas sobre la implementación de la IA y promover el desarrollo responsable de la IA”, dice Alex “Sandy” Pentland, profesor del MIT, líder del Grupo de Dinámica Humana en el Media Lab del MIT y coautor de un nuevo artículo de acceso abierto sobre el proyecto.
El explorador de procedencia de datos podría ayudar a los profesionales de la IA a crear modelos más eficaces, permitiéndoles seleccionar conjuntos de datos de entrenamiento que se ajusten al propósito previsto de su modelo. A largo plazo, esto podría mejorar la precisión de los modelos de IA en situaciones del mundo real, como las que se utilizan para evaluar solicitudes de préstamos o responder a consultas de clientes.
“Una de las mejores maneras de entender las capacidades y limitaciones de un modelo de IA es entender con qué datos fue entrenado. Cuando hay atribución errónea y confusión sobre la procedencia de los datos, se tiene un grave problema de transparencia”, afirma Robert Mahari, estudiante de posgrado del Grupo de Dinámica Humana del MIT, candidato a doctor en Derecho en la Facultad de Derecho de Harvard y coautor principal del artículo.
En el artículo, Mahari y Pentland cuentan con la colaboración de la coautora principal Shayne Longpre, estudiante de posgrado en el Media Lab; Sara Hooker, que dirige el laboratorio de investigación Cohere for AI; así como otros investigadores del MIT, la Universidad de California en Irvine, la Universidad de Lille en Francia, la Universidad de Colorado en Boulder, Olin College, la Universidad Carnegie Mellon, Contextual AI, ML Commons y Tidelift. La investigación se publica hoy en Inteligencia de la máquina de la naturaleza.
Centrarse en el ajuste fino
Los investigadores suelen utilizar una técnica denominada «ajuste fino» para mejorar las capacidades de un modelo de lenguaje de gran tamaño que se implementará para una tarea específica, como la de responder preguntas. Para realizar el ajuste fino, crean conjuntos de datos cuidadosamente seleccionados diseñados para mejorar el rendimiento de un modelo para esta tarea en particular.
Los investigadores del MIT se centraron en estos conjuntos de datos de ajuste fino, que a menudo son desarrollados por investigadores, organizaciones académicas o empresas y licenciados para usos específicos.
Cuando las plataformas de colaboración colectiva agregan dichos conjuntos de datos en colecciones más grandes para que los profesionales los utilicen para realizar ajustes, parte de esa información de licencia original suele quedar relegada.
“Estas licencias deberían ser importantes y exigibles”, afirma Mahari.
Por ejemplo, si los términos de licencia de un conjunto de datos son incorrectos o faltan, alguien podría gastar una gran cantidad de dinero y tiempo en desarrollar un modelo que podría verse obligado a eliminar más adelante porque algunos datos de entrenamiento contienen información privada.
“La gente puede terminar entrenando modelos sin siquiera comprender las capacidades, preocupaciones o riesgos de esos modelos, que en última instancia surgen de los datos”, agrega Longpre.
Para comenzar este estudio, los investigadores definieron formalmente la procedencia de los datos como la combinación de la procedencia, creación y concesión de licencias de un conjunto de datos, así como sus características. A partir de ahí, desarrollaron un procedimiento de auditoría estructurado para rastrear la procedencia de los datos de más de 1.800 colecciones de conjuntos de datos de texto de repositorios en línea populares.
Tras descubrir que más del 70 por ciento de estos conjuntos de datos contenían licencias “no especificadas” que omitían mucha información, los investigadores trabajaron a la inversa para completar los espacios en blanco. Gracias a sus esfuerzos, lograron reducir la cantidad de conjuntos de datos con licencias “no especificadas” a alrededor del 30 por ciento.
Su trabajo también reveló que las licencias correctas a menudo eran más restrictivas que las asignadas por los repositorios.
Además, descubrieron que casi todos los creadores de conjuntos de datos se concentraban en el norte global, lo que podría limitar las capacidades de un modelo si se lo entrena para su implementación en una región diferente. Por ejemplo, un conjunto de datos en idioma turco creado predominantemente por personas de Estados Unidos y China podría no contener ningún aspecto culturalmente significativo, explica Mahari.
“Casi nos engañamos a nosotros mismos al pensar que los conjuntos de datos son más diversos de lo que realmente son”, afirma.
Curiosamente, los investigadores también observaron un aumento dramático en las restricciones impuestas a los conjuntos de datos creados en 2023 y 2024, lo que podría estar impulsado por las preocupaciones de los académicos de que sus conjuntos de datos podrían usarse para fines comerciales no deseados.
Una herramienta fácil de usar
Para ayudar a otros a obtener esta información sin necesidad de una auditoría manual, los investigadores crearon el Data Provenance Explorer. Además de ordenar y filtrar conjuntos de datos en función de determinados criterios, la herramienta permite a los usuarios descargar una tarjeta de procedencia de datos que ofrece una descripción general sucinta y estructurada de las características de los conjuntos de datos.
“Esperamos que este sea un paso, no solo para comprender el panorama, sino también para ayudar a las personas a tomar decisiones más informadas sobre los datos con los que se entrenan”, dice Mahari.
En el futuro, los investigadores quieren ampliar su análisis para investigar la procedencia de los datos multimodales, incluidos los de vídeo y voz. También quieren estudiar cómo se reflejan en los conjuntos de datos las condiciones de servicio de los sitios web que sirven como fuentes de datos.
A medida que amplían su investigación, también se están acercando a los reguladores para discutir sus hallazgos y las implicaciones únicas en materia de derechos de autor que implica el ajuste de los datos.
“Necesitamos la procedencia y la transparencia de los datos desde el principio, cuando las personas crean y publican estos conjuntos de datos, para que a otros les resulte más fácil obtener esta información”, afirma Longpre.
“Muchas de las intervenciones políticas propuestas asumen que podemos asignar e identificar correctamente las licencias asociadas con los datos, y este trabajo primero demuestra que esto no es así y luego mejora significativamente la información de procedencia disponible”, dice Stella Biderman, directora ejecutiva de EleutherAI, que no participó en este trabajo. “Además, la sección 3 contiene un debate legal relevante. Esto es muy valioso para los profesionales del aprendizaje automático que no son empresas lo suficientemente grandes como para tener equipos legales dedicados. Muchas personas que quieren construir sistemas de IA para el bien público actualmente luchan en silencio para descubrir cómo manejar las licencias de datos, porque Internet no está diseñado de una manera que facilite la determinación de la procedencia de los datos”.