Para el ojo inexperto, una imagen médica como una resonancia magnética o una radiografía parece una colección turbia de manchas en blanco y negro. Puede resultar complicado descifrar dónde termina una estructura (como un tumor) y dónde empieza otra.
Cuando se los entrena para comprender los límites de las estructuras biológicas, los sistemas de IA pueden segmentar (o delinear) regiones de interés que los médicos y los trabajadores biomédicos desean monitorear para detectar enfermedades y otras anomalías. En lugar de perder un tiempo precioso trazando la anatomía a mano en muchas imágenes, un asistente artificial podría hacerlo por ellos.
¿El truco? Los investigadores y los médicos deben etiquetar innumerables imágenes para entrenar a su sistema de IA antes de que pueda segmentar con precisión. Por ejemplo, sería necesario anotar la corteza cerebral en numerosas exploraciones de resonancia magnética para entrenar a un modelo supervisado para que comprenda cómo puede variar la forma de la corteza en diferentes cerebros.
Para evitar esta tediosa recopilación de datos, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, el Hospital General de Massachusetts (MGH) y la Facultad de Medicina de Harvard han desarrollado el marco interactivo “ScribblePrompt”: una herramienta flexible que puede ayudar a segmentar rápidamente cualquier imagen médica, incluso tipos que no ha visto antes.
En lugar de que los humanos marcaran cada imagen manualmente, el equipo simuló cómo los usuarios anotarían más de 50.000 exploraciones, incluidas resonancias magnéticas, ecografías y fotografías, en estructuras de los ojos, células, cerebros, huesos, piel y más. Para etiquetar todas esas exploraciones, el equipo utilizó algoritmos para simular cómo los humanos garabatearían y harían clic en diferentes regiones de las imágenes médicas. Además de las regiones etiquetadas comúnmente, el equipo también utilizó algoritmos de superpíxeles, que encuentran partes de la imagen con valores similares, para identificar posibles nuevas regiones de interés para los investigadores médicos y entrenar a ScribblePrompt para segmentarlas. Estos datos sintéticos prepararon a ScribblePrompt para manejar las solicitudes de segmentación del mundo real de los usuarios.
“La IA tiene un potencial significativo en el análisis de imágenes y otros datos de alta dimensión para ayudar a los humanos a hacer las cosas de manera más productiva”, dice la estudiante de doctorado del MIT Hallee Wong SM ’22, autora principal de un nuevo artículo sobre ScribblePrompt y afiliada de CSAIL. “Queremos aumentar, no reemplazar, los esfuerzos de los trabajadores médicos a través de un sistema interactivo. ScribblePrompt es un modelo simple con la eficiencia para ayudar a los médicos a centrarse en las partes más interesantes de su análisis. Es más rápido y más preciso que los métodos de segmentación interactiva comparables, reduciendo el tiempo de anotación en un 28 por ciento en comparación con el marco Segment Anything Model (SAM) de Meta, por ejemplo”.
La interfaz de ScribblePrompt es sencilla: los usuarios pueden hacer garabatos sobre el área rugosa que desean segmentar o hacer clic en ella y la herramienta resaltará toda la estructura o el fondo según lo solicitado. Por ejemplo, puede hacer clic en venas individuales dentro de un escaneo de retina (ojo). ScribblePrompt también puede marcar una estructura con un cuadro delimitador.
Luego, la herramienta puede hacer correcciones en función de los comentarios del usuario. Si desea resaltar un riñón en una ecografía, puede usar un cuadro delimitador y luego garabatear partes adicionales de la estructura si ScribblePrompt omitió algún borde. Si desea editar su segmento, puede usar un «garabato negativo» para excluir ciertas regiones.
Estas capacidades interactivas y de autocorrección hicieron que ScribblePrompt fuera la herramienta preferida entre los investigadores de neuroimagen del MGH en un estudio de usuarios. El 93,8 por ciento de estos usuarios preferían el método MIT sobre la línea base de SAM para mejorar sus segmentos en respuesta a las correcciones de garabatos. En cuanto a las ediciones basadas en clics, el 87,5 por ciento de los investigadores médicos prefirieron ScribblePrompt.
ScribblePrompt se entrenó con garabatos simulados y clics en 54.000 imágenes de 65 conjuntos de datos, que incluían exploraciones de ojos, tórax, columna vertebral, células, piel, músculos abdominales, cuello, cerebro, huesos, dientes y lesiones. El modelo se familiarizó con 16 tipos de imágenes médicas, incluidas microscopías, tomografías computarizadas, radiografías, resonancias magnéticas, ecografías y fotografías.
“Muchos métodos existentes no responden bien cuando los usuarios hacen garabatos sobre las imágenes porque es difícil simular dichas interacciones durante el entrenamiento. En el caso de ScribblePrompt, pudimos obligar a nuestro modelo a prestar atención a diferentes entradas mediante nuestras tareas de segmentación sintética”, afirma Wong. “Queríamos entrenar lo que es esencialmente un modelo de base con una gran cantidad de datos diversos para que se generalizara a nuevos tipos de imágenes y tareas”.
Después de analizar tantos datos, el equipo evaluó ScribblePrompt en 12 nuevos conjuntos de datos. Aunque no había visto estas imágenes antes, superó a cuatro métodos existentes al segmentar de manera más eficiente y brindar predicciones más precisas sobre las regiones exactas que los usuarios querían resaltar.
“La segmentación es la tarea de análisis de imágenes biomédicas más frecuente, que se realiza ampliamente tanto en la práctica clínica habitual como en la investigación, lo que la convierte en un paso muy diverso y crucial de gran impacto”, afirma el autor principal Adrian Dalca SM ’12, PhD ’16, científico investigador de CSAIL y profesor adjunto en MGH y la Facultad de Medicina de Harvard. “ScribblePrompt fue diseñado cuidadosamente para que fuera de utilidad práctica para médicos e investigadores y, por lo tanto, para hacer que este paso sea mucho, mucho más rápido”.
“La mayoría de los algoritmos de segmentación que se han desarrollado en el análisis de imágenes y el aprendizaje automático se basan, al menos en cierta medida, en nuestra capacidad para anotar imágenes manualmente”, afirma Bruce Fischl, profesor de radiología de la Facultad de Medicina de Harvard y neurocientífico del MGH, que no participó en el artículo. “El problema es mucho peor en las imágenes médicas, en las que nuestras ‘imágenes’ suelen ser volúmenes en 3D, ya que los seres humanos no tienen ninguna razón evolutiva o fenomenológica para tener alguna competencia en la anotación de imágenes en 3D. ScribblePrompt permite realizar la anotación manual mucho, mucho más rápido y con mayor precisión, al entrenar una red precisamente en los tipos de interacciones que un humano normalmente tendría con una imagen al anotar manualmente. El resultado es una interfaz intuitiva que permite a los anotadores interactuar de forma natural con los datos de las imágenes con una productividad mucho mayor de la que era posible antes”.
Wong y Dalca escribieron el artículo junto con otros dos afiliados de CSAIL: John Guttag, profesor Dugald C. Jackson de EECS en el MIT e investigador principal de CSAIL; y la estudiante de doctorado del MIT Marianne Rakic SM ’22. Su trabajo fue financiado, en parte, por Quanta Computer Inc., el Centro Eric y Wendy Schmidt en el Broad Institute, Wistron Corp. y el Instituto Nacional de Imágenes Biomédicas y Bioingeniería de los Institutos Nacionales de Salud, con apoyo de hardware del Centro de Ciencias de la Vida de Massachusetts.
El trabajo de Wong y sus colegas se presentará en la Conferencia Europea sobre Visión Artificial de 2024 y se presentó como charla oral en el taller DCAMI en la Conferencia sobre Visión Artificial y Reconocimiento de Patrones a principios de este año. En el taller recibieron el premio Bench-to-Bedside Paper Award por el posible impacto clínico de ScribblePrompt.