Un modelo de lenguaje grande (LLM) desplegado para hacer recomendaciones de tratamiento puede ser tropezada por información no clínica en mensajes de pacientes, como errores tipográficos, espacio en blanco adicional, marcadores de género faltantes o el uso de un lenguaje incierto, dramático e informal, según un estudio realizado por investigadores del MIT.
Descubrieron que hacer cambios estilísticos o gramaticales a los mensajes aumenta la probabilidad de que una LLM recomiende que un paciente autogestaje su condición de salud informada en lugar de entrar en una cita, incluso cuando ese paciente debe buscar atención médica.
Su análisis también reveló que estas variaciones no clínicas en el texto, que imitan cómo las personas realmente se comunican, tienen más probabilidades de cambiar las recomendaciones de tratamiento de un modelo para pacientes femeninas, lo que resulta en un mayor porcentaje de mujeres que se aconsejó erróneamente que no busquen atención médica, según los médicos humanos.
Este trabajo «es una fuerte evidencia de que los modelos deben auditarse antes de su uso en la atención médica, que es un entorno en el que ya están en uso», dice Marzyeh Ghassemi, profesor asociado en el Departamento de Ingeniería Eléctrica e Informática del MIT (EECS), miembro del Instituto de Ciencias de la Medicina y el Laboratorio de Información y Sistemas de Decisión, y el autor senior del estudio.
Estos hallazgos indican que los LLM tienen en cuenta la información no clínica de la toma de decisiones clínicas de formas previamente desconocidas. Lleva a la luz la necesidad de estudios más rigurosos de LLM antes de implementarse para aplicaciones de alto riesgo como hacer recomendaciones de tratamiento, dicen los investigadores.
«Estos modelos a menudo se capacitan y se prueban en las preguntas del examen médico, pero luego se utilizan en tareas que están bastante lejos de eso, como evaluar la gravedad de un caso clínico. Todavía hay mucho sobre LLM que no sabemos», agrega Abinitha Gourabathina, un estudiante graduado de EECS y autor principal del estudio.
Se unen en el documento, que se presentará en la Conferencia de ACM sobre equidad, responsabilidad y transparencia, la estudiante graduada Eileen Pan y el postdoc Walter Gerych.
Mensajes mixtos
Los grandes modelos de idiomas como el GPT-4 de OpenAI se están utilizando para redactar notas clínicas y mensajes de pacientes en instalaciones de atención médica en todo el mundo, en un esfuerzo por optimizar algunas tareas para ayudar a los médicos sobrecargados.
Un creciente cuerpo de trabajo ha explorado las capacidades de razonamiento clínico de los LLM, especialmente desde el punto de vista de la equidad, pero pocos estudios han evaluado cómo la información no clínica afecta el juicio de un modelo.
Interesado en cómo el género impacta el razonamiento de LLM, Gourabathina realizó experimentos donde cambió las señales de género en las notas de los pacientes. Se sorprendió de que los errores de formato en las indicaciones, como el espacio en blanco extra, causaron cambios significativos en las respuestas de LLM.
Para explorar este problema, los investigadores diseñaron un estudio en el que alteraron los datos de entrada del modelo intercambiando o eliminando marcadores de género, agregando un lenguaje colorido o incierto, o insertando espacio y errores tipográficos adicionales en mensajes de pacientes.
Cada perturbación fue diseñada para imitar el texto que podría ser escrito por alguien en una población de pacientes vulnerable, basada en la investigación psicosocial sobre cómo las personas se comunican con los médicos.
Por ejemplo, los espacios adicionales y los errores tipográficos simulan la escritura de pacientes con dominio limitado del inglés o aquellos con menos aptitud tecnológica, y la adición de un lenguaje incierto representa a los pacientes con ansiedad de la salud.
«Los conjuntos de datos médicos en los que se entrenan estos modelos generalmente se limpian y estructuran, y no es un reflejo muy realista de la población de pacientes. Queríamos ver cómo estos cambios muy realistas en el texto podrían afectar los casos de uso posteriores», dice Gourabathina.
Utilizaron un LLM para crear copias perturbadas de miles de notas de pacientes, al tiempo que garantizan que los cambios de texto fueran mínimos y se conserven todos los datos clínicos, como medicamentos y diagnósticos previos. Luego evaluaron cuatro LLM, incluido el gran modelo comercial GPT-4 y un LLM más pequeño construido específicamente para entornos médicos.
Impulsaron cada LLM con tres preguntas basadas en la nota del paciente: si el paciente se las arregla en el hogar, si el paciente venga a una visita clínica y si se asigna un recurso médico al paciente, como una prueba de laboratorio.
Los investigadores compararon las recomendaciones de LLM con respuestas clínicas reales.
Recomendaciones inconsistentes
Vieron inconsistencias en las recomendaciones de tratamiento y un desacuerdo significativo entre los LLM cuando fueron alimentados con datos perturbados. En general, los LLM exhibieron un aumento del 7 al 9 por ciento en las sugerencias de autogestión para los nueve tipos de mensajes alterados de pacientes.
Esto significa que los LLM tenían más probabilidades de recomendar que los pacientes no buscan atención médica cuando los mensajes contenían errores tipográficos o pronombres neutrales de género, por ejemplo. El uso de un lenguaje colorido, como argot o expresiones dramáticas, tuvo el mayor impacto.
También encontraron que los modelos cometieron aproximadamente un 7 por ciento más de errores para las pacientes femeninas y tenían más probabilidades de recomendar que las pacientes femeninas se autogestionen en el hogar, incluso cuando los investigadores eliminaron todas las señales de género del contexto clínico.
Muchos de los peores resultados, como los pacientes se les dijo que se autogestionen cuando tienen una afección médica grave, probablemente no serían capturados por pruebas que se centren en la precisión clínica general de los modelos.
«En la investigación, tendemos a mirar las estadísticas agregadas, pero hay muchas cosas que se pierden en la traducción. Necesitamos observar la dirección en la que ocurren estos errores, no recomendar las visitas cuando deberías ser mucho más dañinas que hacer lo contrario», dice Gourabathina.
Las inconsistencias causadas por el lenguaje no clínico se vuelven aún más pronunciadas en entornos de conversación donde un LLM interactúa con un paciente, que es un caso de uso común para los chatbots orientados al paciente.
Pero en el trabajo de seguimiento, los investigadores encontraron que estos mismos cambios en los mensajes de los pacientes no afectan la precisión de los médicos humanos.
«En nuestro trabajo de seguimiento bajo revisión, descubrimos que los modelos de idiomas grandes son frágiles a los cambios que los médicos humanos no son», dice Ghassemi. «Esto quizás no sea sorprendente: los LLM no fueron diseñados para priorizar la atención médica del paciente. Los LLM son flexibles y lo suficientemente desempeñados en promedio que podríamos pensar que este es un buen caso de uso. Pero no queremos optimizar un sistema de atención médica que solo funcione bien para pacientes en grupos específicos».
Los investigadores quieren ampliar este trabajo diseñando perturbaciones del lenguaje natural que capturan otras poblaciones vulnerables y imiten mejor los mensajes reales. También quieren explorar cómo los LLM infieren el género del texto clínico.