Para diseñar proteínas con funciones útiles, los investigadores generalmente comienzan con una proteína natural que tiene una función deseable, como emitir luz fluorescente, y la someten a muchas rondas de mutación aleatoria que eventualmente generan una versión optimizada de la proteína.
Este proceso ha producido versiones optimizadas de muchas proteínas importantes, incluida la proteína verde fluorescente (GFP). Sin embargo, para otras proteínas, ha resultado difícil generar una versión optimizada. Los investigadores del MIT han desarrollado ahora un enfoque computacional que facilita la predicción de mutaciones que conducirán a mejores proteínas, basándose en una cantidad relativamente pequeña de datos.
Utilizando este modelo, los investigadores generaron proteínas con mutaciones que se predijo que conducirían a versiones mejoradas de GFP y una proteína del virus adenoasociado (AAV), que se utiliza para administrar ADN para la terapia génica. Esperan que también pueda utilizarse para desarrollar herramientas adicionales para la investigación en neurociencia y aplicaciones médicas.
“El diseño de proteínas es un problema difícil porque el mapeo desde la secuencia del ADN hasta la estructura y función de las proteínas es realmente complejo. Puede haber una gran proteína a 10 cambios de distancia en la secuencia, pero cada cambio intermedio puede corresponder a una proteína totalmente no funcional. Es como intentar encontrar el camino hacia la cuenca del río en una cadena montañosa, cuando hay picos escarpados en el camino que bloquean la vista. El trabajo actual intenta hacer que el lecho del río sea más fácil de encontrar”, dice Ila Fiete, profesora de ciencias cerebrales y cognitivas en el MIT, miembro del Instituto McGovern para la Investigación del Cerebro del MIT, directora del Centro de Neurociencia Computacional Integrativa K. Lisa Yang, y uno de los autores principales del estudio.
Regina Barzilay, Profesora Distinguida de Inteligencia Artificial y Salud de la Escuela de Ingeniería del MIT, y Tommi Jaakkola, Profesor Thomas Siebel de Ingeniería Eléctrica y Ciencias de la Computación en el MIT, también son autores principales de un artículo de acceso abierto sobre el trabajo, que se publicará presentado en la Conferencia Internacional sobre Representaciones del Aprendizaje en mayo. Los estudiantes graduados del MIT Andrew Kirjner y Jason Yim son los autores principales del estudio. Otros autores incluyen a Shahar Bracha, postdoctorado del MIT, y Raman Samusevich, estudiante de posgrado de la Universidad Técnica Checa.
Optimización de proteínas
Muchas proteínas naturales tienen funciones que podrían hacerlas útiles para investigación o aplicaciones médicas, pero necesitan un poco de ingeniería adicional para optimizarlas. En este estudio, los investigadores estaban inicialmente interesados en desarrollar proteínas que pudieran usarse en células vivas como indicadores de voltaje. Estas proteínas, producidas por algunas bacterias y algas, emiten luz fluorescente cuando se detecta un potencial eléctrico. Si se diseñan para su uso en células de mamíferos, estas proteínas podrían permitir a los investigadores medir la actividad neuronal sin utilizar electrodos.
Si bien se han dedicado décadas de investigación a diseñar estas proteínas para producir una señal fluorescente más fuerte, en una escala de tiempo más rápida, no se han vuelto lo suficientemente efectivas para un uso generalizado. Bracha, que trabaja en el laboratorio de Edward Boyden en el Instituto McGovern, contactó al laboratorio de Fiete para ver si podían trabajar juntos en un enfoque computacional que pudiera ayudar a acelerar el proceso de optimización de las proteínas.
«Este trabajo ejemplifica la casualidad humana que caracteriza tantos descubrimientos científicos», dice Fiete. “Surgió del retiro del Colectivo Yang Tan, una reunión científica de investigadores de múltiples centros del MIT con distintas misiones unificadas por el apoyo compartido de K. Lisa Yang. Aprendimos que algunos de nuestros intereses y herramientas para modelar cómo aprenden y optimizan los cerebros podrían aplicarse en un dominio totalmente diferente del diseño de proteínas, como se practica en el laboratorio de Boyden”.
Para cualquier proteína determinada que los investigadores quieran optimizar, existe un número casi infinito de secuencias posibles que podrían generarse intercambiando diferentes aminoácidos en cada punto de la secuencia. Con tantas variantes posibles, es imposible probarlas todas experimentalmente, por lo que los investigadores han recurrido al modelado computacional para intentar predecir cuáles funcionarán mejor.
En este estudio, los investigadores se propusieron superar esos desafíos, utilizando datos de GFP para desarrollar y probar un modelo computacional que podría predecir mejores versiones de la proteína.
Comenzaron entrenando un tipo de modelo conocido como red neuronal convolucional (CNN) con datos experimentales que consisten en secuencias GFP y su brillo, la característica que querían optimizar.
El modelo pudo crear un «panorama de aptitud física», un mapa tridimensional que representa la aptitud de una proteína determinada y en qué medida difiere de la secuencia original, basándose en una cantidad relativamente pequeña de datos experimentales (de aproximadamente 1.000 variantes de GFP).
Estos paisajes contienen picos que representan proteínas más en forma y valles que representan proteínas menos en forma. Predecir el camino que una proteína debe seguir para alcanzar los picos de aptitud puede ser difícil, porque a menudo una proteína necesitará sufrir una mutación que la haga menos apta antes de alcanzar un pico cercano de mayor aptitud. Para superar este problema, los investigadores utilizaron una técnica computacional existente para «suavizar» el panorama del fitness.
Una vez que se suavizaron estos pequeños baches en el paisaje, los investigadores volvieron a entrenar el modelo de CNN y descubrieron que podía alcanzar mayores picos de aptitud con mayor facilidad. El modelo fue capaz de predecir secuencias de GFP optimizadas que tenían hasta siete aminoácidos diferentes de la secuencia de proteínas con la que comenzaron, y se estimó que la mejor de estas proteínas era aproximadamente 2,5 veces más apta que la original.
«Una vez que tenemos este paisaje que representa lo que el modelo cree que está cerca, lo suavizamos y luego volvemos a entrenar el modelo en la versión más suave del paisaje», dice Kirjner. “Ahora hay un camino fluido desde el punto de partida hasta la cima, que el modelo ahora puede alcanzar realizando pequeñas mejoras de forma iterativa. A menudo esto es imposible en el caso de paisajes no suavizados”.
Prueba de concepto
Los investigadores también demostraron que este enfoque funcionó bien en la identificación de nuevas secuencias para la cápside viral del virus adenoasociado (AAV), un vector viral que se usa comúnmente para administrar ADN. En ese caso, optimizaron la cápside por su capacidad de empaquetar una carga útil de ADN.
«Utilizamos GFP y AAV como prueba de concepto para demostrar que este es un método que funciona con conjuntos de datos que están muy bien caracterizados y, por eso, debería ser aplicable a otros problemas de ingeniería de proteínas», dice Bracha. .
Los investigadores ahora planean utilizar esta técnica computacional con datos que Bracha ha estado generando sobre proteínas indicadoras de voltaje.
«Decenas de laboratorios han estado trabajando en esto durante dos décadas y todavía no hay nada mejor», afirma. «La esperanza es que ahora, con la generación de un conjunto de datos más pequeño, podamos entrenar un modelo in silico y hacer predicciones que podrían ser mejores que las últimas dos décadas de pruebas manuales».
La investigación fue financiada, en parte, por la Fundación Nacional de Ciencias de EE. UU., el consorcio Machine Learning for Pharmaceutical Discovery and Synthesis, la Clínica Abdul Latif Jameel para el Aprendizaje Automático en Salud, el programa DTRA Discovery of Medical Countermeasures Against New and Emerging El programa DARPA Accelerated Molecular Discovery, la subvención de Diseño Computacional de Anticuerpos de Sanofi, la Oficina de Investigación Naval de EE. UU., el Instituto Médico Howard Hughes, los Institutos Nacionales de Salud, el Centro ICoN K. Lisa Yang y el Centro ICoN K. Lisa Yang y Hock E. Centro Tan de Terapéutica Molecular del MIT.