Anotar regiones de interés en imágenes médicas, un proceso conocido como segmentación, a menudo es uno de los primeros pasos que los investigadores clínicos toman cuando ejecutan un nuevo estudio que involucra imágenes biomédicas.
Por ejemplo, para determinar cómo el tamaño del hipocampo del cerebro cambia a medida que los pacientes envejecen, el científico primero describe cada hipocampo en una serie de exploraciones cerebrales. Para muchas estructuras y tipos de imágenes, este es a menudo un proceso manual que puede ser extremadamente lento, especialmente si las regiones que se estudian son difíciles de delinear.
Para optimizar el proceso, los investigadores del MIT desarrollaron un sistema artificial basado en inteligencia que permite a un investigador segmentar rápidamente los nuevos conjuntos de datos de imágenes biomédicas haciendo clic, garabateando y dibujando cuadros en las imágenes. Este nuevo modelo de IA utiliza estas interacciones para predecir la segmentación.
A medida que el usuario marca imágenes adicionales, el número de interacciones que necesita realizar disminuye, y finalmente disminuye a cero. El modelo puede segmentar cada nueva imagen con precisión sin la entrada del usuario.
Puede hacer esto porque la arquitectura del modelo ha sido especialmente diseñada para usar información a partir de imágenes que ya se ha segmentado para hacer nuevas predicciones.
A diferencia de otros modelos de segmentación de imágenes médicas, este sistema permite al usuario segmentar un conjunto de datos completo sin repetir su trabajo para cada imagen.
Además, la herramienta Interactive no requiere un conjunto de datos de imágenes en representación para la capacitación, por lo que los usuarios no necesitan experiencia en el aprendizaje automático o recursos computacionales extensos. Pueden usar el sistema para una nueva tarea de segmentación sin volver a capacitar el modelo.
A la larga, esta herramienta podría acelerar los estudios de nuevos métodos de tratamiento y reducir el costo de los ensayos clínicos y la investigación médica. Los médicos también podrían utilizarlo para mejorar la eficiencia de las aplicaciones clínicas, como la planificación del tratamiento de radiación.
«Muchos científicos solo podrían tener tiempo para segmentar algunas imágenes por día para su investigación porque la segmentación de imágenes manuales lleva mucho tiempo. Nuestra esperanza es que este sistema permita una nueva ciencia al permitir que los investigadores clínicos realicen estudios que se les prohíba hacer antes debido a la falta de una herramienta eficiente», dice Hallee Wong, un estudiante de graduados de ingeniería y informática electrical y un autor principal en esta nueva herramienta en una nueva herramienta.
Se une en el periódico por José Javier González Ortiz PhD ’24; John Guttag, el profesor de Dugald C. Jackson de Informática e Ingeniería Eléctrica; y el autor principal Adrian Dalca, profesor asistente de la Facultad de Medicina de Harvard y MGH, y científico de investigación en el Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL). La investigación se presentará en la Conferencia Internacional sobre Visión por Computadora.
Segmentación de racionalización
Principalmente hay dos métodos que usan los investigadores para segmentar nuevos conjuntos de imágenes médicas. Con la segmentación interactiva, ingresan una imagen en un sistema de IA y usan una interfaz para marcar áreas de interés. El modelo predice la segmentación basada en esas interacciones.
Una herramienta desarrollada previamente por los investigadores del MIT, ScribblePrompt, permite a los usuarios hacer esto, pero deben repetir el proceso para cada nueva imagen.
Otro enfoque es desarrollar un modelo AI específico de la tarea para segmentar automáticamente las imágenes. Este enfoque requiere que el usuario segmine manualmente cientos de imágenes para crear un conjunto de datos y luego entrenar un modelo de aprendizaje automático. Ese modelo predice la segmentación para una nueva imagen. Pero el usuario debe iniciar el complejo proceso basado en el aprendizaje automático desde cero para cada nueva tarea, y no hay forma de corregir el modelo si comete un error.
Este nuevo sistema, Multiverseg, combina lo mejor de cada enfoque. Predice una segmentación para una nueva imagen basada en interacciones del usuario, como garabatos, pero también mantiene cada imagen segmentada en un conjunto de contexto al que se refiere más adelante.
Cuando el usuario carga una nueva imagen y marca áreas de interés, el modelo se basa en los ejemplos en su contexto establecido para hacer una predicción más precisa, con menos entrada del usuario.
Los investigadores diseñaron la arquitectura del modelo para usar un conjunto de contexto de cualquier tamaño, por lo que el usuario no necesita tener una cierta cantidad de imágenes. Esto le da a Multiverseg la flexibilidad de usarse en una variedad de aplicaciones.
«En algún momento, para muchas tareas, no debería necesitar proporcionar ninguna interacción. Si tiene suficientes ejemplos en el conjunto de contexto, el modelo puede predecir con precisión la segmentación por sí solo», dice Wong.
Los investigadores diseñaron y capacitaron cuidadosamente el modelo en una colección diversa de datos de imágenes biomédicas para garantizar que tuviera la capacidad de mejorar incrementalmente sus predicciones basadas en la entrada del usuario.
El usuario no necesita volver a entrenar o personalizar el modelo para sus datos. Para usar Multiverseg para una nueva tarea, se puede subir una nueva imagen médica y comenzar a marcarla.
Cuando los investigadores compararon Multiverseg con herramientas de última generación para la segmentación de imágenes interactivas y en contexto, superó a cada línea de base.
Menos clics, mejores resultados
A diferencia de estas otras herramientas, Multiverseg requiere menos entrada del usuario con cada imagen. Para la novena imagen nueva, solo necesitaba dos clics del usuario para generar una segmentación más precisa que un modelo diseñado específicamente para la tarea.
Para algunos tipos de imágenes, como las radiografías, es posible que el usuario solo necesite segmentar una o dos imágenes manualmente antes de que el modelo se vuelva lo suficientemente preciso como para hacer predicciones por sí solas.
La interactividad de la herramienta también permite al usuario hacer correcciones a la predicción del modelo, iterando hasta que alcanza el nivel de precisión deseado. En comparación con el sistema anterior de los investigadores, Multiverseg alcanzó la precisión del 90 por ciento con aproximadamente 2/3 el número de garabatos y 3/4 el número de clics.
«Con Multiverseg, los usuarios siempre pueden proporcionar más interacciones para refinar las predicciones de IA. Esto aún acelera dramáticamente el proceso porque generalmente es más rápido corregir algo que existe que comenzar desde cero», dice Wong.
En el futuro, los investigadores quieren probar esta herramienta en situaciones del mundo real con colaboradores clínicos y mejorarla en función de los comentarios de los usuarios. También quieren habilitar Multiverseg para segmentar imágenes biomédicas 3D.
Este trabajo es compatible, en parte, por Quanta Computer, Inc. y los Institutos Nacionales de Salud, con apoyo de hardware del Centro de Ciencias de la Vida de Massachusetts.