Debido a la ambigüedad inherente en imágenes médicas como radiografías, los radiólogos a menudo usan palabras como «pueden» o «probable» al describir la presencia de una cierta patología, como la neumonía.
¿Pero las palabras usan los radiólogos para expresar su nivel de confianza reflejan con precisión con qué frecuencia ocurre una patología particular en los pacientes? Un nuevo estudio muestra que cuando los radiólogos expresan confianza sobre una cierta patología utilizando una frase como «muy probable», tienden a ser demasiado confiables y viceversas cuando expresan menos confianza usando una palabra como «posiblemente».
Utilizando datos clínicos, un equipo multidisciplinario de investigadores del MIT en colaboración con investigadores y médicos de hospitales afiliados a la Facultad de Medicina de Harvard creó un marco para cuantificar cuán confiables son los radiólogos cuando expresan certeza utilizando términos de lenguaje natural.
Utilizaron este enfoque para proporcionar sugerencias claras que ayudan a los radiólogos a elegir frases de certeza que mejorarían la confiabilidad de sus informes clínicos. También mostraron que la misma técnica puede medir y mejorar efectivamente la calibración de modelos de lenguaje grandes al alinear mejor las palabras que los modelos utilizan para expresar confianza con la precisión de sus predicciones.
Al ayudar a los radiólogos a describir con mayor precisión la probabilidad de ciertas patologías en las imágenes médicas, este nuevo marco podría mejorar la confiabilidad de la información clínica crítica.
«Las palabras que usan los radiólogos son importantes. Afectan cómo intervienen los médicos, en términos de su toma de decisiones para el paciente. Si estos profesionales pueden ser más confiables en sus informes, los pacientes serán los beneficiarios finales», dice Peiqi Wang, un estudiante graduado del MIT y autor principal de un artículo sobre esta investigación.
Se le une al documento la autora senior Polina Golland, profesora de Sunlin y Priscilla Chou de Ingeniería Eléctrica e Informática (EECS), una investigadora principal en el Laboratorio de Informática e Inteligencia Artificial del MIT (CSAIL), y el líder del Grupo de Visión Médica; así como Barbara D. Lam, una becaria clínica en el Beth Israel Deaconess Medical Center; Yingcheng Liu, en el estudiante graduado del MIT; Ameneh Asgari-Targhi, investigador del general de Massachusetts Brigham (MGB); Rameswar Panda, miembro del personal de investigación en el Laboratorio MIT-IBM Watson AI; William M. Wells, profesor de radiología en MGB y científico de investigación en CSAIL; y Tina Kapur, profesora asistente de radiología en MGB. La investigación se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje.
Decodificación de incertidumbre en palabras
Un radiólogo que escribe un informe sobre una radiografía de tórax podría decir que la imagen muestra una neumonía «posible», que es una infección que infla los sacos de aire en los pulmones. En ese caso, un médico podría ordenar una tomografía computarizada de seguimiento para confirmar el diagnóstico.
Sin embargo, si el radiólogo escribe que la radiografía muestra una neumonía «probable», el médico podría comenzar el tratamiento de inmediato, como recetando antibióticos, al tiempo que ordena pruebas adicionales para evaluar la gravedad.
Intentar medir la calibración, o confiabilidad, de términos de lenguaje natural ambiguo como «posiblemente» y «probable» presenta muchos desafíos, dice Wang.
Los métodos de calibración existentes generalmente dependen del puntaje de confianza proporcionado por un modelo de IA, que representa la probabilidad estimada del modelo de que su predicción sea correcta.
Por ejemplo, una aplicación meteorológica podría predecir una probabilidad del 83 por ciento de lluvia mañana. Ese modelo está bien calibrado si, en todas las instancias en los que predice una probabilidad del 83 por ciento de lluvia, llueve aproximadamente el 83 por ciento del tiempo.
«Pero los humanos usan el lenguaje natural, y si asignamos estas frases a un solo número, no es una descripción precisa del mundo real. Si una persona dice que un evento es» probable «, no necesariamente están pensando en la probabilidad exacta, como el 75 por ciento», dice Wang.
En lugar de tratar de asignar frases de certeza a un solo porcentaje, el enfoque de los investigadores las trata como distribuciones de probabilidad. Una distribución describe el rango de posibles valores y sus probabilidades: piense en la curva de campana clásica en las estadísticas.
«Esto captura más matices de lo que significa cada palabra», agrega Wang.
Evaluar y mejorar la calibración
Los investigadores aprovecharon el trabajo previo que encuestó a los radiólogos para obtener distribuciones de probabilidad que corresponden a cada frase de certeza diagnóstica, que van desde «muy probablemente» hasta «consistente».
Por ejemplo, dado que más radiólogos creen que la frase «consistente con» significa que una patología está presente en una imagen médica, su distribución de probabilidad sube bruscamente a un pico alto, con la mayoría de los valores agrupados alrededor del rango del 90 al 100 por ciento.
En contraste, la frase «puede representar» transmite una mayor incertidumbre, lo que lleva a una distribución más amplia en forma de campana centrada en alrededor del 50 por ciento.
Los métodos típicos evalúan la calibración comparando qué tan bien los puntajes de probabilidad predichos de un modelo se alinean con el número real de resultados positivos.
El enfoque de los investigadores sigue el mismo marco general, pero lo extiende para dar cuenta del hecho de que las frases de certeza representan distribuciones de probabilidad en lugar de probabilidades.
Para mejorar la calibración, los investigadores formularon y resolvieron un problema de optimización que ajusta con qué frecuencia se usan ciertas frases, para alinear mejor la confianza con la realidad.
Derivaron un mapa de calibración que sugiere términos de certeza que un radiólogo debe usar para hacer que los informes sean más precisos para una patología específica.
«Tal vez, para este conjunto de datos, si cada vez que el radiólogo dijo que la neumonía estaba» presente «, cambiaron la frase a» probablemente presente «, entonces se volverían mejor calibrados», explica Wang.
Cuando los investigadores utilizaron su marco para evaluar los informes clínicos, encontraron que los radiólogos generalmente no tenían confianza al diagnosticar afecciones comunes como la atelectasia, pero demasiado confidentes con afecciones más ambiguas como la infección.
Además, los investigadores evaluaron la confiabilidad de los modelos de lenguaje utilizando su método, proporcionando una representación de confianza más matizada que los métodos clásicos que dependen de los puntajes de confianza.
«Muchas veces, estos modelos usan frases como ‘ciertamente’. Pero debido a que tienen tanta confianza en sus respuestas, no alienta a las personas a verificar la corrección de las declaraciones mismas ”, agrega Wang.
En el futuro, los investigadores planean continuar colaborando con los médicos con la esperanza de mejorar los diagnósticos y el tratamiento. Están trabajando para expandir su estudio para incluir datos de tomografías computarizadas abdominales.
Además, están interesados en estudiar cómo están los radiólogos receptivos a las sugerencias que mejoran la calibración y si pueden ajustar mentalmente su uso de frases de certeza de manera efectiva.
«La expresión de la certeza del diagnóstico es un aspecto crucial del informe de radiología, ya que influye en decisiones de gestión significativas. Este estudio adopta un enfoque novedoso para analizar y calibrar cómo los radiólogos expresan certeza de diagnóstico en informes de rayos X de tórax, ofreciendo comentarios sobre el uso de términos y los resultados asociados», dice Atul B. Shinagaree, Profesor Asociado de Radiología en Harvard Medical School, quién no estaba involucrado con este trabajo con este trabajo. «Este enfoque tiene el potencial de mejorar la precisión y la comunicación de los radiólogos, lo que ayudará a mejorar la atención al paciente».
El trabajo fue financiado, en parte, por una beca Takeda, el Laboratorio MIT-IBM Watson AI, el programa MIT Csail Wistrom y la Clínica MIT Jameel.