Una estrategia para la reprogramación celular implica el uso de intervenciones genéticas específicas para diseñar una célula en un nuevo estado. La técnica es muy prometedora en inmunoterapia, por ejemplo, donde los investigadores podrían reprogramar las células T de un paciente para que sean más potentes contra el cáncer. Algún día, el enfoque también podría ayudar a identificar tratamientos contra el cáncer que salven vidas o terapias regenerativas que reparen órganos devastados por enfermedades.
Pero el cuerpo humano tiene alrededor de 20.000 genes, y una perturbación genética podría deberse a una combinación de genes o a cualquiera de los más de 1.000 factores de transcripción que regulan los genes. Debido a que el espacio de búsqueda es vasto y los experimentos genéticos son costosos, los científicos a menudo luchan por encontrar la perturbación ideal para su aplicación particular.
Investigadores del MIT y la Universidad de Harvard desarrollaron un nuevo enfoque computacional que puede identificar de manera eficiente perturbaciones genéticas óptimas basándose en un número mucho menor de experimentos que los métodos tradicionales.
Su técnica algorítmica aprovecha la relación causa-efecto entre factores de un sistema complejo, como la regulación del genoma, para priorizar la mejor intervención en cada ronda de experimentos secuenciales.
Los investigadores llevaron a cabo un análisis teórico riguroso para determinar que su técnica, de hecho, identificó intervenciones óptimas. Con ese marco teórico establecido, aplicaron los algoritmos a datos biológicos reales diseñados para imitar un experimento de reprogramación celular. Sus algoritmos fueron los más eficientes y efectivos.
“Con demasiada frecuencia, los experimentos a gran escala se diseñan empíricamente. Un marco causal cuidadoso para la experimentación secuencial puede permitir identificar intervenciones óptimas con menos ensayos, reduciendo así los costos experimentales”, dice la coautora principal Caroline Uhler, profesora del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) que también es codirectora. del Centro Eric y Wendy Schmidt en el Instituto Broad del MIT y Harvard, e investigador del Laboratorio de Sistemas de Información y Decisión (LIDS) y del Instituto de Datos, Sistemas y Sociedad (IDSS) del MIT.
Junto a Uhler en el artículo, que aparece hoy en Inteligencia de la máquina de la naturaleza, son el autor principal Jiaqi Zhang, estudiante de posgrado y miembro del Centro Eric y Wendy Schmidt; el coautor principal Themistoklis P. Sapsis, profesor de ingeniería mecánica y oceánica en el MIT y miembro del IDSS; y otros en Harvard y MIT.
Aprendizaje activo
Cuando los científicos intentan diseñar una intervención eficaz para un sistema complejo, como en la reprogramación celular, suelen realizar experimentos de forma secuencial. Estas configuraciones son ideales para el uso de un enfoque de aprendizaje automático llamado aprendizaje activo. Se recopilan muestras de datos y se utilizan para aprender un modelo del sistema que incorpora el conocimiento recopilado hasta el momento. A partir de este modelo, se diseña una función de adquisición: una ecuación que evalúa todas las posibles intervenciones y elige la mejor para probar en el próximo ensayo.
Este proceso se repite hasta que se identifica una intervención óptima (o se agotan los recursos para financiar experimentos posteriores).
«Si bien existen varias funciones de adquisición genéricas para diseñar experimentos secuencialmente, éstas no son efectivas para problemas de tal complejidad, lo que lleva a una convergencia muy lenta», explica Sapsis.
Las funciones de adquisición suelen considerar la correlación entre factores, como qué genes se coexpresan. Pero centrarse sólo en la correlación ignora las relaciones regulatorias o la estructura causal del sistema. Por ejemplo, una intervención genética sólo puede afectar la expresión de genes posteriores, pero un enfoque basado en la correlación no sería capaz de distinguir entre genes anteriores o posteriores.
«Se puede aprender algo de este conocimiento causal a partir de los datos y utilizarlo para diseñar una intervención de manera más eficiente», explica Zhang.
Los investigadores del MIT y Harvard aprovecharon esta estructura causal subyacente para su técnica. En primer lugar, construyeron cuidadosamente un algoritmo para que sólo pudiera aprender modelos del sistema que tuvieran en cuenta las relaciones causales.
Luego, los investigadores diseñaron la función de adquisición para que evalúe automáticamente las intervenciones utilizando información sobre estas relaciones causales. Elaboraron esta función para que priorice las intervenciones más informativas, es decir, aquellas con mayor probabilidad de conducir a la intervención óptima en experimentos posteriores.
“Al considerar modelos causales en lugar de modelos basados en correlaciones, ya podemos descartar ciertas intervenciones. Luego, cada vez que se obtengan nuevos datos, se podrá aprender un modelo causal más preciso y así reducir aún más el espacio de las intervenciones”, explica Uhler.
Este espacio de búsqueda más pequeño, junto con el enfoque especial de la función de adquisición en las intervenciones más informativas, es lo que hace que su enfoque sea tan eficiente.
Los investigadores mejoraron aún más su función de adquisición utilizando una técnica conocida como ponderación de salida, inspirada en el estudio de eventos extremos en sistemas complejos. Este método enfatiza cuidadosamente las intervenciones que probablemente se acerquen más a la intervención óptima.
«Esencialmente, consideramos una intervención óptima como un ‘evento extremo’ dentro del espacio de todas las posibles intervenciones subóptimas y utilizamos algunas de las ideas que hemos desarrollado para estos problemas», dice Sapsis.
Eficiencia mejorada
Probaron sus algoritmos utilizando datos biológicos reales en un experimento de reprogramación celular simulado. Para esta prueba, buscaron una perturbación genética que diera como resultado un cambio deseado en la expresión genética promedio. Sus funciones de adquisición identificaron consistentemente mejores intervenciones que los métodos de referencia en cada paso del experimento de múltiples etapas.
“Si se interrumpe el experimento en cualquier etapa, el nuestro seguirá siendo más eficiente que las líneas de base. Esto significa que se podrían realizar menos experimentos y obtener los mismos o mejores resultados”, afirma Zhang.
Actualmente, los investigadores están trabajando con experimentadores para aplicar su técnica a la reprogramación celular en el laboratorio.
Su enfoque también podría aplicarse a problemas ajenos a la genómica, como identificar precios óptimos para productos de consumo o permitir un control de retroalimentación óptimo en aplicaciones de mecánica de fluidos.
En el futuro, planean mejorar su técnica de optimización más allá de aquellas que buscan igualar una media deseada. Además, su método supone que los científicos ya comprenden las relaciones causales en su sistema, pero el trabajo futuro también podría explorar cómo utilizar la IA para aprender esa información.
Este trabajo fue financiado, en parte, por la Oficina de Investigación Naval, el Laboratorio de IA Watson de MIT-IBM, la Clínica J de Aprendizaje Automático y Salud del MIT, el Centro Eric y Wendy Schmidt del Instituto Broad, un Premio de Investigador Simons, la Oficina de Investigación Científica de la Fuerza Aérea y una beca de posgrado de la Fundación Nacional de Ciencias.