Al estudiar los cambios en la expresión genética, los investigadores aprenden cómo funcionan las células a nivel molecular, lo que podría ayudarles a comprender el desarrollo de determinadas enfermedades.
Pero un ser humano tiene alrededor de 20.000 genes que pueden afectarse entre sí de maneras complejas, por lo que incluso saber a qué grupos de genes apuntar es un problema enormemente complicado. Además, los genes trabajan juntos en módulos que se regulan entre sí.
Los investigadores del MIT han desarrollado ahora fundamentos teóricos para métodos que podrían identificar la mejor manera de agregar genes en grupos relacionados para que puedan aprender de manera eficiente las relaciones subyacentes de causa y efecto entre muchos genes.
Es importante destacar que este nuevo método logra esto utilizando únicamente datos de observación. Esto significa que los investigadores no necesitan realizar experimentos intervencionistas costosos y, a veces, inviables para obtener los datos necesarios para inferir las relaciones causales subyacentes.
A largo plazo, esta técnica podría ayudar a los científicos a identificar posibles objetivos genéticos para inducir ciertos comportamientos de una manera más precisa y eficiente, lo que podría permitirles desarrollar tratamientos precisos para los pacientes.
“En genómica, es muy importante comprender el mecanismo subyacente a los estados celulares. Pero las celdas tienen una estructura multiescala, por lo que el nivel de resumen también es muy importante. Si descubres la forma correcta de agregar los datos observados, la información que obtengas sobre el sistema debería ser más interpretable y útil”, dice el estudiante graduado Jiaqi Zhang, miembro del Centro Eric y Wendy Schmidt y coautor principal de un artículo sobre esta técnica.
A Zhang se une en el artículo el coautor principal Ryan Welch, actualmente estudiante de maestría en ingeniería; y la autora principal Caroline Uhler, profesora del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y del Instituto de Datos, Sistemas y Sociedad (IDSS), quien también es directora del Centro Eric y Wendy Schmidt en el Instituto Broad del MIT. y Harvard, e investigador del Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Aprendiendo de los datos observacionales
El problema que los investigadores se propusieron abordar implica programas de aprendizaje de genes. Estos programas describen qué genes funcionan juntos para regular otros genes en un proceso biológico, como el desarrollo o la diferenciación celular.
Dado que los científicos no pueden estudiar de manera eficiente cómo interactúan los 20.000 genes, utilizan una técnica llamada desenredo causal para aprender cómo combinar grupos de genes relacionados en una representación que les permita explorar de manera eficiente las relaciones de causa y efecto.
En trabajos anteriores, los investigadores demostraron cómo esto podría hacerse de manera efectiva en presencia de datos intervencionistas, que son datos obtenidos perturbando variables en la red.
Pero a menudo resulta costoso realizar experimentos de intervención y hay algunos escenarios en los que dichos experimentos no son éticos o la tecnología no es lo suficientemente buena para que la intervención tenga éxito.
Con sólo datos de observación, los investigadores no pueden comparar genes antes y después de una intervención para aprender cómo funcionan juntos los grupos de genes.
«La mayoría de las investigaciones sobre el desentrañamiento causal suponen el acceso a las intervenciones, por lo que no estaba claro cuánta información se puede desentrañar con sólo datos de observación», dice Zhang.
Los investigadores del MIT desarrollaron un enfoque más general que utiliza un algoritmo de aprendizaje automático para identificar y agregar de manera eficaz grupos de variables observadas, por ejemplo, genes, utilizando únicamente datos de observación.
Pueden utilizar esta técnica para identificar módulos causales y reconstruir una representación subyacente precisa del mecanismo de causa y efecto. “Si bien esta investigación fue motivada por el problema de dilucidar los programas celulares, primero tuvimos que desarrollar una nueva teoría causal para comprender qué se podía aprender y qué no a partir de datos de observación. Con esta teoría en la mano, en futuros trabajos podremos aplicar nuestros conocimientos a los datos genéticos e identificar módulos genéticos, así como sus relaciones reguladoras”, afirma Uhler.
Una representación por capas
Utilizando técnicas estadísticas, los investigadores pueden calcular una función matemática conocida como varianza del jacobiano de la puntuación de cada variable. Las variables causales que no afectan a ninguna variable posterior deben tener una varianza de cero.
Los investigadores reconstruyen la representación en una estructura capa por capa, comenzando por eliminar las variables de la capa inferior que tienen una varianza de cero. Luego trabajan hacia atrás, capa por capa, eliminando las variables con varianza cero para determinar qué variables o grupos de genes están conectados.
«Identificar las varianzas que son cero se convierte rápidamente en un objetivo combinatorio bastante difícil de resolver, por lo que derivar un algoritmo eficiente que pudiera resolverlo fue un gran desafío», dice Zhang.
Al final, su método genera una representación abstracta de los datos observados con capas de variables interconectadas que resume con precisión la estructura subyacente de causa y efecto.
Cada variable representa un grupo agregado de genes que funcionan juntos, y la relación entre dos variables representa cómo un grupo de genes regula a otro. Su método captura efectivamente toda la información utilizada para determinar cada capa de variables.
Después de demostrar que su técnica era teóricamente sólida, los investigadores realizaron simulaciones para demostrar que el algoritmo puede desenredar eficientemente representaciones causales significativas utilizando únicamente datos de observación.
En el futuro, los investigadores quieren aplicar esta técnica en aplicaciones genéticas del mundo real. También quieren explorar cómo su método podría proporcionar información adicional en situaciones en las que se dispone de algunos datos de intervención, o ayudar a los científicos a comprender cómo diseñar intervenciones genéticas eficaces. En el futuro, este método podría ayudar a los investigadores a determinar de manera más eficiente qué genes funcionan juntos en el mismo programa, lo que podría ayudar a identificar medicamentos que podrían atacar esos genes para tratar ciertas enfermedades.
Esta investigación está financiada, en parte, por el Laboratorio de IA Watson del MIT-IBM y la Oficina de Investigación Naval de EE. UU.