La ambigüedad en las imágenes médicas puede presentar desafíos importantes para los médicos que intentan identificar enfermedades. Por ejemplo, en una radiografía de tórax, el derrame pleural, una acumulación anormal de líquido en los pulmones, puede parecerse mucho a los infiltrados pulmonares, que son acumulaciones de pus o sangre.
Un modelo de inteligencia artificial podría ayudar al clínico en el análisis de rayos X al ayudar a identificar detalles sutiles y aumentar la eficiencia del proceso de diagnóstico. Pero debido a que muchas condiciones posibles podrían estar presentes en una imagen, el médico probablemente querría considerar un conjunto de posibilidades, en lugar de solo tener una predicción de IA para evaluar.
Una forma prometedora de producir un conjunto de posibilidades, llamada clasificación conforme, es conveniente porque se puede implementar fácilmente en la parte superior de un modelo de aprendizaje automático existente. Sin embargo, puede producir conjuntos que son impactamente grandes.
Los investigadores del MIT ahora han desarrollado una mejora simple y efectiva que puede reducir el tamaño de los conjuntos de predicciones hasta en un 30 por ciento, al tiempo que hace que las predicciones sean más confiables.
Tener un conjunto de predicción más pequeño puede ayudar a un clínico a concertar en el diagnóstico correcto de manera más eficiente, lo que podría mejorar y racionalizar el tratamiento para los pacientes. Este método podría ser útil en una variedad de tareas de clasificación, por ejemplo, para identificar la especie de un animal en una imagen de un parque de vida silvestre, ya que proporciona un conjunto de opciones más pequeño pero más preciso.
«Con menos clases a considerar, los conjuntos de predicciones son naturalmente más informativos en que está eligiendo entre menos opciones. En cierto sentido, realmente no está sacrificando nada en términos de precisión para algo más informativo», dice Divya Shanmugam PhD ’24, un postdoc de Cornell Tech que dirigió esta investigación mientras ella era un estudiante de posgrado de MIT.
Shanmugam se une en el papel por Helen Lu ’24; Swami Sankaranarayanan, un ex postdoc de MIT que ahora es científica de investigación de Lilia Biosciences; y el autor senior John Guttag, profesor de Dugald C. Jackson de Ingeniería de Ciencias de la Computación e Eléctrica en el MIT y miembro del Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL). La investigación se presentará en la conferencia sobre visión por computadora y reconocimiento de patrones en junio.
Garantías de predicción
Los asistentes de IA implementados para tareas de alto riesgo, como clasificar las enfermedades en imágenes médicas, generalmente están diseñados para producir una puntuación de probabilidad junto con cada predicción para que un usuario pueda medir la confianza del modelo. Por ejemplo, un modelo podría predecir que existe un 20 por ciento de posibilidades de que una imagen corresponde a un diagnóstico particular, como Pleurisy.
Pero es difícil confiar en la confianza prevista de un modelo porque muchas investigaciones previas han demostrado que estas probabilidades pueden ser inexactas. Con una clasificación conforme, la predicción del modelo se reemplaza por un conjunto de diagnósticos más probables junto con la garantía de que el diagnóstico correcto está en algún lugar del conjunto.
Pero la incertidumbre inherente en las predicciones de IA a menudo hace que el modelo se ponga en conjunto que son demasiado grandes para ser útiles.
Por ejemplo, si un modelo está clasificando a un animal en una imagen como una de las 10,000 especies potenciales, podría generar un conjunto de 200 predicciones para que pueda ofrecer una fuerte garantía.
«Esas son bastantes clases para que alguien tamice para descubrir cuál es la clase correcta», dice Shanmugam.
La técnica también puede ser poco confiable porque pequeños cambios en las entradas, como la rotación ligeramente de una imagen, pueden producir conjuntos de predicciones completamente diferentes.
Para hacer que la clasificación conforme sea más útil, los investigadores aplicaron una técnica desarrollada para mejorar la precisión de los modelos de visión por computadora llamado aumento de tiempo de prueba (TTA).
TTA crea múltiples aumentos de una sola imagen en un conjunto de datos, tal vez recortando la imagen, voltearla, acercarse, etc. Luego aplica un modelo de visión por computadora a cada versión de la misma imagen y agrega sus predicciones.
«De esta manera, obtienes múltiples predicciones de un solo ejemplo. La agregación de predicciones de esta manera mejora las predicciones en términos de precisión y robustez», explica Shanmugam.
Maximización de precisión
Para aplicar TTA, los investigadores mantienen algunos datos de imagen etiquetados utilizados para el proceso de clasificación conforme. Aprenden a agregar los aumentos en estos datos retenidos, aumentando automáticamente las imágenes de una manera que maximiza la precisión de las predicciones del modelo subyacente.
Luego ejecutan una clasificación conforme en las nuevas predicciones transformadas en TTA del modelo. El clasificador conforme genera un conjunto más pequeño de predicciones probables para la misma garantía de confianza.
«Combinar el aumento en el tiempo de prueba con una predicción conforme es fácil de implementar, efectiva en la práctica y no requiere capacitación modelo», dice Shanmugam.
En comparación con el trabajo previo en una predicción conforme en varios puntos de referencia de clasificación de imágenes estándar, su método acuático de TTA redujo los tamaños de establecimiento de predicción entre los experimentos, del 10 al 30 por ciento.
Es importante destacar que la técnica logra esta reducción en el tamaño del conjunto de predicción mientras se mantiene la garantía de probabilidad.
Los investigadores también encontraron que, a pesar de que están sacrificando algunos datos etiquetados que normalmente se utilizarían para el procedimiento de clasificación conforme, TTA aumenta la precisión suficiente para superar el costo de perder esos datos.
«Plantea preguntas interesantes sobre cómo utilizamos datos etiquetados después del entrenamiento del modelo. La asignación de datos etiquetados entre diferentes pasos posteriores al entrenamiento es una dirección importante para el trabajo futuro», dice Shanmugam.
En el futuro, los investigadores quieren validar la efectividad de dicho enfoque en el contexto de los modelos que clasifican el texto en lugar de las imágenes. Para mejorar aún más el trabajo, los investigadores también están considerando formas de reducir la cantidad de cálculo requerida para TTA.
Esta investigación es financiada, en parte, por la Corporación Wistrom.