Cuando Erik Duhaime PhD ’19 estaba trabajando en su tesis en el Centro de Inteligencia Colectiva del MIT, notó que su esposa, entonces estudiante de medicina, pasaba horas estudiando en aplicaciones que ofrecían tarjetas didácticas y cuestionarios. Su investigación había demostrado que, como grupo, los estudiantes de medicina podían clasificar las lesiones cutáneas con mayor precisión que los dermatólogos profesionales; el truco consistía en medir continuamente el desempeño de cada estudiante en casos con respuestas conocidas, descartar las opiniones de las personas que no eran malas en la tarea y juntar inteligentemente las opiniones de las personas que eran buenas.
Combinando los hábitos de estudio de su esposa con su investigación, Duhaime fundó Centaur Labs, una empresa que creó una aplicación móvil llamada DiagnosUs para recopilar las opiniones de expertos médicos sobre datos científicos y biomédicos del mundo real. A través de la aplicación, los usuarios revisan cualquier cosa, desde imágenes de lesiones cutáneas potencialmente cancerosas o clips de audio de sonidos cardíacos y pulmonares que podrían indicar un problema. Si los usuarios son precisos, Centaur usa sus opiniones y les otorga pequeños premios en efectivo. Esas opiniones, a su vez, ayudan a las empresas de inteligencia artificial médica a entrenar y mejorar sus algoritmos.
El enfoque combina el deseo de los expertos médicos de perfeccionar sus habilidades con la necesidad desesperada de datos médicos bien etiquetados por parte de las empresas que utilizan IA para la biotecnología, el desarrollo de productos farmacéuticos o la comercialización de dispositivos médicos.
“Me di cuenta de que los estudios de mi esposa podrían ser un trabajo productivo para los desarrolladores de IA”, recuerda Duhaime. “Hoy tenemos decenas de miles de personas que usan nuestra aplicación, y aproximadamente la mitad son estudiantes de medicina que están asombrados de ganar dinero en el proceso de estudio. Entonces, tenemos esta plataforma gamificada donde las personas compiten entre sí para entrenar datos y ganar dinero si son buenos y mejoran sus habilidades al mismo tiempo, y al hacerlo, están etiquetando datos para equipos que construyen IA que salva vidas”.
Gamificando el etiquetado médico
Duhaime completó su doctorado con Thomas Malone, profesor de administración de la cátedra Patrick J. McGovern y director fundador del Centro de Inteligencia Colectiva.
“Lo que me interesó fue la sabiduría del fenómeno de las multitudes”, dice Duhaime. “Pregúntele a un grupo de personas cuántas gominolas hay en un frasco, y el promedio de la respuesta de todos es bastante similar. Me interesaba saber cómo se aborda ese problema en una tarea que requiere habilidad o experiencia. Obviamente, no solo desea preguntarle a un grupo de personas al azar si tiene cáncer, pero al mismo tiempo, sabemos que las segundas opiniones en el cuidado de la salud pueden ser extremadamente valiosas. Puede pensar en nuestra plataforma como una forma sobrealimentada de obtener una segunda opinión”.
Duhaime comenzó a explorar formas de aprovechar la inteligencia colectiva para mejorar los diagnósticos médicos. En un experimento, capacitó a grupos de legos y estudiantes de medicina que él describe como «semiexpertos» para clasificar las afecciones de la piel y descubrió que al combinar las opiniones de los mejores, podía superar a los dermatólogos profesionales. También descubrió que al combinar algoritmos entrenados para detectar el cáncer de piel con las opiniones de expertos, podía superar cualquiera de los dos métodos por sí solo.
“La idea central fue que haces dos cosas”, explica Duhaime. “Lo primero es medir el desempeño de las personas, lo que suena obvio, pero incluso en el ámbito médico no se hace mucho. Si le preguntas a un dermatólogo si son buenos, te dirá: ‘Sí, por supuesto, soy dermatólogo’. No necesariamente saben qué tan buenos son en tareas específicas. Lo segundo es que cuando obtienes múltiples opiniones, necesitas identificar complementariedades entre las diferentes personas. Debe reconocer que la experiencia es multidimensional, por lo que es un poco más como armar el equipo de trivia óptimo que reunir a las cinco personas que son las mejores en la misma cosa. Por ejemplo, un dermatólogo podría ser mejor para identificar el melanoma, mientras que otro podría ser mejor para clasificar la gravedad de la psoriasis”.
Mientras aún cursaba su doctorado, Duhaime fundó Centaur y comenzó a utilizar el ecosistema empresarial del MIT para desarrollar aún más la idea. Recibió fondos del Sandbox Innovation Fund del MIT en 2017 y participó en el acelerador de empresas emergentes delta v dirigido por el Martin Trust Center for MIT Entrepreneurship durante el verano de 2018. La experiencia lo ayudó a ingresar al prestigioso acelerador Y Combinator ese mismo año.
La aplicación DiagnosUs, que Duhaime desarrolló con los cofundadores de Centaur, Zach Rausnitz y Tom Gellatly, está diseñada para ayudar a los usuarios a probar y mejorar sus habilidades. Duhaime dice que aproximadamente la mitad de los usuarios son estudiantes de medicina y la otra mitad son en su mayoría médicos, enfermeras y otros profesionales médicos.
“Es mejor que estudiar para los exámenes, en los que podrías tener preguntas de opción múltiple”, dice Duhaime. “Pueden ver casos reales y practicar”.
Centaur recopila millones de opiniones cada semana de decenas de miles de personas en todo el mundo. Duhaime dice que la mayoría de la gente gana dinero con el café, aunque la persona que más gana con la plataforma es un médico de Europa del Este que gana alrededor de 10.000 dólares.
“La gente puede hacerlo en el sofá, puede hacerlo en la T”, dice Duhaime. “No se siente como un trabajo, es divertido”.
El enfoque contrasta fuertemente con el etiquetado de datos tradicional y la moderación de contenido de IA, que generalmente se subcontratan a países de bajos recursos.
El enfoque de Centaur también produce resultados precisos. En un artículo con investigadores del Hospital Brigham and Women’s, el Hospital General de Massachusetts (MGH) y la Universidad Tecnológica de Eindhoven, Centaur mostró que sus opiniones de colaboración colectiva etiquetaron los ultrasonidos pulmonares de manera tan confiable como lo hicieron los expertos. Otro estudio con investigadores del Memorial Sloan Kettering mostró que el etiquetado colaborativo de imágenes dermatoscópicas era más preciso que el de dermatólogos altamente experimentados. Más allá de las imágenes, la plataforma de Centaur también funciona con video, audio, texto de fuentes como trabajos de investigación o conversaciones anónimas entre médicos y pacientes, y ondas de electroencefalogramas (EEG) y electrocardiografías (ECG).
Encontrar a los expertos
Centaur ha descubierto que los mejores artistas provienen de lugares sorprendentes. En 2021, para recopilar opiniones de expertos sobre patrones de EEG, los investigadores realizaron un concurso a través de la aplicación DiagnosUs en una conferencia en la que participaron unos 50 epileptólogos, cada uno con más de 10 años de experiencia. Los organizadores hicieron una camiseta personalizada para regalar al ganador del concurso, quien supusieron que asistiría a la conferencia.
Pero cuando llegaron los resultados, un par de estudiantes de medicina en Ghana, Jeffery Danquah y Andrews Gyabaah, habían vencido a todos los asistentes. El asistente de la conferencia mejor clasificado había llegado en noveno lugar.
“Empecé haciéndolo por el dinero, pero me di cuenta de que en realidad empezó a ayudarme mucho”, dijo Gyabaah al equipo de Centaur más tarde. “Hubo momentos en la clínica en los que me di cuenta de que me estaba yendo mejor que los demás gracias a lo que aprendí en la aplicación DiagnosUs”.
A medida que la IA continúa cambiando la naturaleza del trabajo, Duhaime cree que Centaur Labs se utilizará como un control continuo de los modelos de IA.
“En este momento, estamos ayudando a las personas a entrenar algoritmos principalmente, pero cada vez más creo que seremos utilizados para monitorear algoritmos y en conjunto con algoritmos, básicamente sirviendo como humanos en el circuito para una variedad de tareas”, dice Duhaime. “Puede pensar en nosotros menos como una forma de entrenar la IA y más como parte del ciclo de vida completo, donde proporcionamos comentarios sobre los resultados de los modelos o monitoreamos el modelo”.
Duhaime ve que el trabajo de los humanos y los algoritmos de IA se integran cada vez más y cree que Centaur Labs tiene un papel importante que desempeñar en ese futuro.
“No se trata solo de entrenar algoritmos, implementar algoritmos”, dice Duhaime. “En cambio, habrá estas líneas de montaje digitales en toda la economía, y se necesita un juicio humano experto bajo demanda infundido en diferentes lugares a lo largo de la cadena de valor”.