Con la cobertura del anonimato y la compañía de extraños, el atractivo del mundo digital está creciendo como lugar para buscar apoyo para la salud mental. Este fenómeno se ve impulsado por el hecho de que más de 150 millones de personas en los Estados Unidos viven en áreas de escasez de profesionales de salud mental designadas por el gobierno federal.
«Realmente necesito tu ayuda, ya que tengo demasiado miedo para hablar con un terapeuta y de todos modos no puedo comunicarme con uno».
“¿Estoy exagerando y me siento herida porque mi marido se burla de mí con sus amigos?”
“¿Podrían algunos extraños opinar sobre mi vida y decidir mi futuro por mí?”
Las citas anteriores son publicaciones reales tomadas de usuarios de Reddit, un foro y sitio web de noticias de redes sociales donde los usuarios pueden compartir contenido o pedir consejo en foros más pequeños basados en intereses conocidos como «subreddits».
Utilizando un conjunto de datos de 12.513 publicaciones con 70.429 respuestas de 26 subreddits relacionados con la salud mental, investigadores del MIT, la Universidad de Nueva York (NYU) y la Universidad de California en Los Ángeles (UCLA) idearon un marco para ayudar a evaluar la equidad y la calidad general de la salud mental. Chatbots de apoyo a la salud basados en modelos de lenguaje grande (LLM) como GPT-4. Su trabajo se publicó recientemente en la Conferencia de 2024 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP).
Para lograr esto, los investigadores pidieron a dos psicólogos clínicos autorizados que evaluaran 50 publicaciones de Reddit seleccionadas al azar que buscaban apoyo para la salud mental, emparejando cada publicación con la respuesta real de un Redditor o una respuesta generada por GPT-4. Sin saber qué respuestas eran reales o cuáles fueron generadas por IA, se pidió a los psicólogos que evaluaran el nivel de empatía en cada respuesta.
Los chatbots de apoyo a la salud mental se han explorado durante mucho tiempo como una forma de mejorar el acceso al apoyo a la salud mental, pero LLM poderosos como ChatGPT de OpenAI están transformando la interacción entre humanos y IA, y las respuestas generadas por IA se vuelven más difíciles de distinguir de las respuestas de humanos reales.
A pesar de este notable progreso, las consecuencias no deseadas del apoyo a la salud mental proporcionado por la IA han llamado la atención sobre sus riesgos potencialmente mortales; En marzo del año pasado, un belga se suicidó como resultado de un intercambio con ELIZA, un chatbot desarrollado para emular a un psicoterapeuta con un LLM llamado GPT-J. Un mes después, la Asociación Nacional de Trastornos de la Alimentación suspendería su chatbot Tessa, después de que el chatbot comenzara a ofrecer consejos dietéticos a pacientes con trastornos alimentarios.
Saadia Gabriel, una reciente posdoctorada del MIT que ahora es profesora asistente de UCLA y primera autora del artículo, admitió que inicialmente se mostró muy escéptica sobre cuán efectivos podrían ser los chatbots de apoyo a la salud mental. Gabriel llevó a cabo esta investigación durante su estancia como postdoctorado en el MIT en el Grupo de Aprendizaje Automático Saludable, dirigida por Marzyeh Ghassemi, profesora asociada del MIT en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación y del Instituto de Ingeniería y Ciencias Médicas del MIT, afiliado al MIT. Clínica Abdul Latif Jameel de Aprendizaje Automático en Salud y Laboratorio de Informática e Inteligencia Artificial.
Lo que Gabriel y el equipo de investigadores encontraron fue que las respuestas de GPT-4 no solo eran más empáticas en general, sino que eran un 48 por ciento mejores a la hora de fomentar cambios de comportamiento positivos que las respuestas humanas.
Sin embargo, en una evaluación de sesgo, los investigadores encontraron que los niveles de empatía de respuesta de GPT-4 se redujeron para los carteles negros (entre un 2 y un 15 por ciento más bajos) y asiáticos (entre un 5 y un 17 por ciento más bajos) en comparación con los carteles blancos o cuya raza se desconocía.
Para evaluar el sesgo en las respuestas de GPT-4 y las respuestas humanas, los investigadores incluyeron diferentes tipos de publicaciones con fugas demográficas explícitas (por ejemplo, género, raza) y fugas demográficas implícitas.
Una filtración demográfica explícita sería algo como: «Soy una mujer negra de 32 años».
Mientras que una fuga demográfica implícita se vería así: «Ser una chica de 32 años que lleva mi cabello natural», en la que se utilizan palabras clave para indicar ciertos datos demográficos a GPT-4.
Con la excepción de las mujeres negras que publicaron, se descubrió que las respuestas de GPT-4 se vieron menos afectadas por la filtración demográfica explícita e implícita en comparación con los encuestados humanos, que tendían a ser más empáticos al responder a publicaciones con sugerencias demográficas implícitas.
“La estructura de la información que das [the LLM] y alguna información sobre el contexto, como si quieres [the LLM] Actuar al estilo de un médico, el estilo de una publicación en las redes sociales o si se desea utilizar atributos demográficos del paciente, tiene un impacto importante en la respuesta que se obtiene”, dice Gabriel.
El artículo sugiere que proporcionar instrucciones explícitas a los LLM para que utilicen atributos demográficos puede aliviar eficazmente el sesgo, ya que este fue el único método en el que los investigadores no observaron una diferencia significativa en la empatía entre los diferentes grupos demográficos.
Gabriel espera que este trabajo pueda ayudar a garantizar una evaluación más completa y reflexiva de los LLM que se implementan en entornos clínicos en todos los subgrupos demográficos.
«Los LLM ya se están utilizando para brindar apoyo de cara al paciente y se han implementado en entornos médicos, en muchos casos para automatizar sistemas humanos ineficientes», dice Ghassemi. “Aquí, demostramos que, si bien los LLM de última generación generalmente se ven menos afectados por la filtración demográfica que los humanos en el apoyo de salud mental entre pares, no brindan respuestas de salud mental equitativas entre los subgrupos de pacientes inferidos… Tenemos muchas oportunidades de mejorar los modelos para que brinden un mejor soporte cuando se usan”.