Los sistemas de inteligencia artificial se utilizan cada vez más en situaciones de atención sanitaria en las que la seguridad es fundamental. Sin embargo, estos modelos a veces arrojan información incorrecta, hacen predicciones sesgadas o fallan por razones inesperadas, lo que podría tener graves consecuencias para los pacientes y los médicos.
En un Artículo de opinión publicado hoy en Naturaleza Ciencia ComputacionalLa profesora asociada del MIT Marzyeh Ghassemi y la profesora asociada de la Universidad de Boston Elaine Nsoesie sostienen que, para mitigar estos daños potenciales, los sistemas de IA deberían ir acompañados de etiquetas de uso responsable, similares a las etiquetas que exige la Administración de Alimentos y Medicamentos de Estados Unidos que se colocan en los medicamentos recetados.
Noticias del MIT Hablé con Ghassemi sobre la necesidad de dichas etiquetas, la información que deberían transmitir y cómo podrían implementarse los procedimientos de etiquetado.
P: ¿Por qué necesitamos etiquetas de uso responsable para los sistemas de IA en entornos de atención médica?
A: En el ámbito sanitario, nos encontramos con una situación interesante en la que los médicos suelen recurrir a tecnologías o tratamientos que no se comprenden del todo. A veces, esta falta de comprensión es fundamental (por ejemplo, el mecanismo que se esconde detrás del paracetamol), pero otras veces se trata simplemente de un límite de especialización. No esperamos que los médicos sepan cómo realizar el mantenimiento de una máquina de resonancia magnética, por ejemplo. En cambio, tenemos sistemas de certificación a través de la FDA u otras agencias federales que certifican el uso de un dispositivo médico o un fármaco en un entorno específico.
Es importante destacar que los dispositivos médicos también tienen contratos de servicio: un técnico del fabricante reparará su máquina de resonancia magnética si está mal calibrada. En el caso de los medicamentos aprobados, existen sistemas de vigilancia y notificación posteriores a la comercialización para poder abordar los efectos o eventos adversos, por ejemplo, si muchas personas que toman un medicamento parecen desarrollar una afección o alergia.
Los modelos y algoritmos, ya sea que incorporen IA o no, evitan muchos de estos procesos de aprobación y monitoreo a largo plazo, y eso es algo de lo que debemos ser cautelosos. Muchos estudios anteriores han demostrado que los modelos predictivos necesitan una evaluación y un monitoreo más cuidadosos. Con respecto a la IA generativa más reciente, en particular, citamos trabajos que han demostrado que no se garantiza que la generación sea apropiada, sólida o imparcial. Debido a que no tenemos el mismo nivel de vigilancia sobre las predicciones o la generación de modelos, sería aún más difícil detectar las respuestas problemáticas de un modelo. Los modelos generativos que se utilizan actualmente en los hospitales podrían estar sesgados. Tener etiquetas de uso es una forma de garantizar que los modelos no automaticen los sesgos que se aprenden de los profesionales humanos o de las puntuaciones de apoyo a la toma de decisiones clínicas mal calibradas del pasado.
P: Su artículo describe varios componentes de una etiqueta de uso responsable para IA, siguiendo el enfoque de la FDA para crear etiquetas de prescripción, incluido el uso aprobado, los ingredientes, los posibles efectos secundarios, etc. ¿Qué información básica deberían transmitir estas etiquetas?
A: Las cosas que una etiqueta debe dejar en claro son el tiempo, el lugar y la forma en que se pretende utilizar un modelo. Por ejemplo, el usuario debe saber que los modelos se entrenaron en un momento específico con datos de un momento específico. Por ejemplo, ¿incluye datos que incluyeron o no la pandemia de Covid-19? Hubo prácticas sanitarias muy diferentes durante la pandemia de Covid que podrían afectar a los datos. Por eso, recomendamos que se revelen los “ingredientes” y los “estudios completados” del modelo.
En cuanto al lugar, sabemos por investigaciones anteriores que los modelos entrenados en una ubicación tienden a tener un peor rendimiento cuando se trasladan a otra. Saber de dónde provienen los datos y cómo se optimizó un modelo dentro de esa población puede ayudar a garantizar que los usuarios estén al tanto de los “posibles efectos secundarios”, las “advertencias y precauciones” y las “reacciones adversas”.
Si se entrena un modelo para predecir un resultado, conocer el momento y el lugar del entrenamiento puede ayudar a tomar decisiones inteligentes sobre la implementación. Sin embargo, muchos modelos generativos son increíblemente flexibles y se pueden utilizar para muchas tareas. En este caso, el momento y el lugar pueden no ser tan informativos, y entran en juego instrucciones más explícitas sobre las «condiciones de etiquetado» y el «uso aprobado» frente al «uso no aprobado». Si un desarrollador ha evaluado un modelo generativo para leer las notas clínicas de un paciente y generar códigos de facturación prospectivos, puede revelar que tiene un sesgo hacia la sobrefacturación de condiciones específicas o hacia el reconocimiento insuficiente de otras. Un usuario no querría utilizar este mismo modelo generativo para decidir quién recibe una derivación a un especialista, aunque podría hacerlo. Esta flexibilidad es la razón por la que abogamos por detalles adicionales sobre la forma en que se deben utilizar los modelos.
En general, recomendamos entrenar el mejor modelo posible, utilizando las herramientas disponibles. Pero incluso en ese caso, debería haber mucha transparencia. Ningún modelo va a ser perfecto. Como sociedad, ahora entendemos que ninguna píldora es perfecta: siempre hay algún riesgo. Deberíamos tener la misma comprensión de los modelos de IA. Cualquier modelo, con o sin IA, es limitado. Puede brindarle pronósticos realistas y bien entrenados de futuros potenciales, pero tómelo con la cautela que sea apropiada.
P: Si se implementaran etiquetas de IA, ¿quién las etiquetaría y cómo se regularían y aplicarían?
A: Si no tiene intención de que su modelo se utilice en la práctica, entonces las divulgaciones que haría para una publicación de investigación de alta calidad son suficientes. Pero una vez que tenga intención de que su modelo se implemente en un entorno de cara al ser humano, los desarrolladores e implementadores deben realizar un etiquetado inicial, basado en algunos de los marcos establecidos. Debe haber una validación de estas afirmaciones antes de la implementación; en un entorno crítico para la seguridad como la atención médica, muchas agencias del Departamento de Salud y Servicios Humanos podrían estar involucradas.
Para los desarrolladores de modelos, creo que saber que necesitarán etiquetar las limitaciones de un sistema induce a una consideración más cuidadosa del proceso en sí. Si sé que en algún momento tendré que revelar la población con la que se entrenó un modelo, no querría revelar que se entrenó solo con diálogos de usuarios masculinos del chatbot, por ejemplo.
Pensar en cosas como sobre quién se recopilan los datos, durante qué período de tiempo, cuál fue el tamaño de la muestra y cómo se decidió qué datos incluir o excluir, puede abrir su mente a posibles problemas en la implementación.