En un esfuerzo por mejorar la equidad o reducir los retrasos, los modelos de aprendizaje automático a veces se diseñan para imitar la toma de decisiones humana, como decidir si las publicaciones en las redes sociales violan las políticas de contenido tóxico.
Pero los investigadores del MIT y otros lugares han descubierto que estos modelos a menudo no replican las decisiones humanas sobre las violaciones de las reglas. Si los modelos no están entrenados con los datos correctos, es probable que emitan juicios diferentes, a menudo más duros que los humanos.
En este caso, los datos «correctos» son aquellos que han sido etiquetados por humanos a quienes se les preguntó explícitamente si los elementos desafían una determinada regla. La capacitación implica mostrarle a un modelo de aprendizaje automático millones de ejemplos de estos «datos normativos» para que pueda aprender una tarea.
Pero los datos que se usan para entrenar modelos de aprendizaje automático generalmente se etiquetan de manera descriptiva, lo que significa que se les pide a los humanos que identifiquen características fácticas, como, por ejemplo, la presencia de comida frita en una foto. Si se utilizan «datos descriptivos» para entrenar modelos que juzgan las infracciones de las reglas, como si una comida infringe una política escolar que prohíbe los alimentos fritos, los modelos tienden a predecir en exceso las infracciones de las reglas.
Esta caída en la precisión podría tener serias implicaciones en el mundo real. Por ejemplo, si se usa un modelo descriptivo para tomar decisiones sobre si es probable que un individuo reincida, los hallazgos de los investigadores sugieren que puede emitir juicios más estrictos que los que haría un ser humano, lo que podría conducir a montos de fianza más altos o sentencias penales más largas.
“Creo que la mayoría de los investigadores de inteligencia artificial/aprendizaje automático asumen que los juicios humanos en los datos y las etiquetas están sesgados, pero este resultado dice algo peor. Estos modelos ni siquiera reproducen juicios humanos ya sesgados porque los datos con los que están siendo entrenados tienen un defecto: los humanos etiquetarían las características de las imágenes y el texto de manera diferente si supieran que esas características se utilizarían para un juicio. Esto tiene enormes ramificaciones para los sistemas de aprendizaje automático en los procesos humanos”, dice Marzyeh Ghassemi, profesora asistente y directora del Grupo de Aprendizaje Automático Saludable en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL).
Ghassemi es el autor principal de un nuevo artículo que detalla estos hallazgos, que se publicó hoy en Avances de la ciencia. Junto a ella en el artículo están la autora principal Aparna Balagopalan, estudiante de posgrado en ingeniería eléctrica e informática; David Madras, estudiante de posgrado de la Universidad de Toronto; David H. Yang, ex estudiante de posgrado que ahora es cofundador de ML Estimation; Dylan Hadfield-Menell, profesor asistente del MIT; y Gillian K. Hadfield, Cátedra Schwartz Reisman de Tecnología y Sociedad y profesora de derecho en la Universidad de Toronto.
discrepancia de etiquetado
Este estudio surgió de un proyecto diferente que exploró cómo un modelo de aprendizaje automático puede justificar sus predicciones. Mientras recopilaban datos para ese estudio, los investigadores notaron que los humanos a veces dan respuestas diferentes si se les pide que proporcionen etiquetas descriptivas o normativas sobre los mismos datos.
Para recopilar etiquetas descriptivas, los investigadores piden a los etiquetadores que identifiquen características fácticas: ¿este texto contiene lenguaje obsceno? Para recopilar etiquetas normativas, los investigadores dan a los etiquetadores una regla y preguntan si los datos violan esa regla: ¿este texto viola la política de lenguaje explícito de la plataforma?
Sorprendidos por este hallazgo, los investigadores lanzaron un estudio de usuarios para profundizar más. Recopilaron cuatro conjuntos de datos para imitar diferentes políticas, como un conjunto de datos de imágenes de perros que podrían violar la regla de un apartamento contra las razas agresivas. Luego pidieron a grupos de participantes que proporcionaran etiquetas descriptivas o normativas.
En cada caso, se pidió a los rotuladores descriptivos que indicaran si tres características fácticas estaban presentes en la imagen o el texto, como si el perro parece agresivo. Sus respuestas luego se utilizaron para elaborar juicios. (Si un usuario dijo que una foto contenía un perro agresivo, entonces se violó la política). Los etiquetadores no conocían la política de mascotas. Por otro lado, a los etiquetadores normativos se les dio la política que prohíbe perros agresivos y luego se les preguntó si había sido violada por cada imagen y por qué.
Los investigadores encontraron que los humanos eran significativamente más propensos a etiquetar un objeto como una violación en el entorno descriptivo. La disparidad, que calcularon usando la diferencia absoluta en las etiquetas en promedio, varió del 8 por ciento en un conjunto de datos de imágenes utilizadas para juzgar las violaciones del código de vestimenta al 20 por ciento para las imágenes de perros.
“Si bien no probamos explícitamente por qué sucede esto, una hipótesis es que tal vez la forma en que las personas piensan sobre las violaciones de las reglas es diferente de cómo piensan sobre los datos descriptivos. En general, las decisiones normativas son más indulgentes”, dice Balagopalan.
Sin embargo, los datos generalmente se recopilan con etiquetas descriptivas para entrenar un modelo para una tarea particular de aprendizaje automático. Estos datos a menudo se reutilizan más tarde para entrenar diferentes modelos que realizan juicios normativos, como violaciones de reglas.
problemas de entrenamiento
Para estudiar los impactos potenciales de reutilizar los datos descriptivos, los investigadores entrenaron dos modelos para juzgar las violaciones de las reglas utilizando una de sus cuatro configuraciones de datos. Entrenaron un modelo usando datos descriptivos y el otro usando datos normativos, y luego compararon su desempeño.
Descubrieron que si se utilizan datos descriptivos para entrenar un modelo, tendrá un rendimiento inferior al de un modelo entrenado para realizar los mismos juicios utilizando datos normativos. Específicamente, es más probable que el modelo descriptivo clasifique erróneamente las entradas al predecir falsamente una violación de la regla. Y la precisión del modelo descriptivo fue incluso menor al clasificar objetos con los que los etiquetadores humanos no estaban de acuerdo.
“Esto demuestra que los datos realmente importan. Es importante hacer coincidir el contexto de entrenamiento con el contexto de implementación si está entrenando modelos para detectar si se ha violado una regla”, dice Balagopalan.
Puede ser muy difícil para los usuarios determinar cómo se recopilaron los datos; esta información puede estar enterrada en el apéndice de un trabajo de investigación o no ser revelada por una empresa privada, dice Ghassemi.
Mejorar la transparencia del conjunto de datos es una forma de mitigar este problema. Si los investigadores saben cómo se recopilaron los datos, entonces saben cómo se deben usar esos datos. Otra estrategia posible es ajustar un modelo entrenado de forma descriptiva en una pequeña cantidad de datos normativos. Esta idea, conocida como transferencia de aprendizaje, es algo que los investigadores quieren explorar en trabajos futuros.
También quieren realizar un estudio similar con etiquetadores expertos, como médicos o abogados, para ver si conduce a la misma disparidad de etiquetas.
“La forma de solucionar esto es reconocer de manera transparente que si queremos reproducir el juicio humano, solo debemos usar los datos que se recopilaron en ese entorno. De lo contrario, vamos a terminar con sistemas que van a tener moderaciones extremadamente duras, mucho más duras de lo que harían los humanos. Los humanos verían matices o harían otra distinción, mientras que estos modelos no lo hacen”, dice Ghassemi.
Esta investigación fue financiada, en parte, por el Instituto de Tecnología y Sociedad Schwartz Reisman, Microsoft Research, el Instituto Vector y una cadena del Consejo de Investigación de Canadá.