Antes de recibir un doctorado en informática del MIT en 2017, Marzyeh Ghassemi ya había comenzado a preguntarse si el uso de técnicas de IA podría mejorar los sesgos que ya existían en la atención médica. Fue una de las primeras investigadoras en abordar este tema y lo ha estado explorando desde entonces. En un nuevo artículo, Ghassemi, ahora profesor asistente en el Departamento de Ciencia e Ingeniería Eléctrica (EECS) del MIT, y tres colaboradores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial, han investigado las raíces de las disparidades que pueden surgir en el aprendizaje automático. a menudo, los modelos que funcionan bien en general fallan cuando se trata de subgrupos para los cuales se han recopilado y utilizado relativamente pocos datos en el proceso de capacitación. El documento, escrito por dos estudiantes de doctorado del MIT, Yuzhe Yang y Haoran Zhang, la científica informática de EECS Dina Katabi (la profesora de Thuan y Nicole Pham) y Ghassemi, se presentó el mes pasado en la 40ª Conferencia Internacional sobre Aprendizaje Automático en Honolulu, Hawái.
En su análisis, los investigadores se centraron en los «cambios de subpoblación»: diferencias en la forma en que los modelos de aprendizaje automático funcionan para un subgrupo en comparación con otro. “Queremos que los modelos sean justos y funcionen igual de bien para todos los grupos, pero en cambio observamos constantemente la presencia de cambios entre los diferentes grupos que pueden conducir a un diagnóstico y tratamiento médico inferior”, dice Yang, quien junto con Zhang son los dos líderes autores en el papel. El punto principal de su investigación es determinar los tipos de cambios de subpoblación que pueden ocurrir y descubrir los mecanismos detrás de ellos para que, en última instancia, se puedan desarrollar modelos más equitativos.
El nuevo artículo «avanza significativamente nuestra comprensión» del fenómeno del cambio de subpoblación, afirma el científico informático de la Universidad de Stanford, Sanmi Koyejo. «Esta investigación aporta información valiosa para futuros avances en el rendimiento de los modelos de aprendizaje automático en subgrupos subrepresentados».
camellos y ganado
El grupo del MIT ha identificado cuatro tipos principales de cambios (correlaciones espurias, desequilibrio de atributos, desequilibrio de clases y generalización de atributos) que, según Yang, “nunca se han reunido en un marco coherente y unificado. Hemos creado una única ecuación que muestra de dónde pueden provenir los sesgos”.
Los sesgos pueden, de hecho, provenir de lo que los investigadores llaman la clase, o del atributo, o de ambos. Para elegir un ejemplo simple, suponga que la tarea asignada al modelo de aprendizaje automático es clasificar imágenes de objetos (animales en este caso) en dos clases: vacas y camellos. Los atributos son descriptores que no se relacionan específicamente con la clase en sí. Podría resultar, por ejemplo, que todas las imágenes utilizadas en el análisis muestren vacas de pie sobre la hierba y camellos sobre la arena; la hierba y la arena sirven aquí como atributos. Dados los datos disponibles, la máquina podría llegar a una conclusión errónea, a saber, que las vacas solo se pueden encontrar en la hierba, no en la arena, y lo contrario es cierto para los camellos. Sin embargo, tal hallazgo sería incorrecto y daría lugar a una correlación espuria que, explica Yang, es un «caso especial» entre los cambios de subpoblación: «uno en el que tienes un sesgo tanto en la clase como en el atributo».
En un entorno médico, uno podría confiar en los modelos de aprendizaje automático para determinar si una persona tiene neumonía o no en función de un examen de imágenes de rayos X. Habría dos clases en esta situación, una compuesta por personas que tienen la enfermedad pulmonar, otra para aquellos que no tienen infección. Un caso relativamente sencillo involucraría solo dos atributos: las personas que se someten a radiografías son mujeres o hombres. Si, en este conjunto de datos en particular, hubiera 100 hombres diagnosticados con neumonía por cada mujer diagnosticada con neumonía, eso podría conducir a un desequilibrio de atributos, y el modelo probablemente haría un mejor trabajo al detectar correctamente la neumonía en un hombre que en una mujer. . Del mismo modo, tener 1.000 veces más sujetos sanos (libres de neumonía) que enfermos conduciría a un desequilibrio de clases, con el modelo sesgado hacia los casos sanos. La generalización de atributos es el último cambio destacado en el nuevo estudio. Si su muestra contenía 100 pacientes masculinos con neumonía y cero sujetos femeninos con la misma enfermedad, aún le gustaría que el modelo pudiera generalizar y hacer predicciones sobre sujetos femeninos aunque no haya muestras en los datos de entrenamiento para mujeres con neumonía.
Luego, el equipo tomó 20 algoritmos avanzados, diseñados para llevar a cabo tareas de clasificación, y los probó en una docena de conjuntos de datos para ver cómo funcionaban en diferentes grupos de población. Llegaron a algunas conclusiones inesperadas: al mejorar el «clasificador», que es la última capa de la red neuronal, pudieron reducir la aparición de correlaciones espurias y el desequilibrio de clases, pero los otros cambios no se vieron afectados. Las mejoras en el «codificador», una de las capas superiores de la red neuronal, podrían reducir el problema del desequilibrio de atributos. «Sin embargo, sin importar lo que le hicimos al codificador o clasificador, no vimos ninguna mejora en términos de generalización de atributos», dice Yang, «y aún no sabemos cómo abordar eso».
Precisamente exacto
También está la cuestión de evaluar qué tan bien funciona realmente su modelo en términos de imparcialidad entre los diferentes grupos de población. La métrica que normalmente se usa, llamada precisión del peor grupo o WGA, se basa en la suposición de que si puede mejorar la precisión, de, por ejemplo, el diagnóstico médico, para el grupo que tiene el peor rendimiento del modelo, habría mejorado el modelo como entero. «La WGA se considera el estándar de oro en la evaluación de subpoblaciones», sostienen los autores, pero hicieron un descubrimiento sorprendente: aumentar la precisión del peor grupo da como resultado una disminución en lo que ellos llaman «precisión del peor de los casos». En la toma de decisiones médicas de todo tipo, se necesita tanto exactitud, que habla de la validez de los hallazgos, como precisión, que se relaciona con la confiabilidad de la metodología. “La precisión y la exactitud son métricas muy importantes en las tareas de clasificación, y eso es especialmente cierto en el diagnóstico médico”, explica Yang. “Nunca se debe cambiar la precisión por la exactitud. Siempre necesitas equilibrar los dos”.
Los científicos del MIT están poniendo en práctica sus teorías. En un estudio que están realizando con un centro médico, están analizando conjuntos de datos públicos de decenas de miles de pacientes y cientos de miles de radiografías de tórax, tratando de ver si es posible que los modelos de aprendizaje automático funcionen de manera imparcial. manera para todas las poblaciones. Eso todavía está lejos de ser el caso, a pesar de que se ha generado más conciencia sobre este problema, dice Yang. “Estamos encontrando muchas disparidades entre diferentes edades, géneros, etnias y grupos interseccionales”.
Él y sus colegas están de acuerdo en el objetivo final, que es lograr la equidad en la atención médica entre todas las poblaciones. Pero antes de que podamos llegar a ese punto, sostienen, todavía necesitamos una mejor comprensión de las fuentes de la injusticia y cómo impregnan nuestro sistema actual. Reconocen que reformar el sistema en su conjunto no será fácil. De hecho, el título del artículo que presentaron en la conferencia de Honolulu, «El cambio es difícil», da algunas indicaciones sobre los desafíos que enfrentan ellos y los investigadores afines.
Esta investigación está financiada por el MIT-IBM Watson AI Lab.