Al adaptar modelos de inteligencia artificial conocidos como modelos de lenguaje grande, los investigadores han logrado grandes avances en su capacidad para predecir la estructura de una proteína a partir de su secuencia. Sin embargo, este enfoque no ha sido tan exitoso con los anticuerpos, en parte debido a la hipervariabilidad observada en este tipo de proteína.
Para superar esa limitación, los investigadores del MIT han desarrollado una técnica computacional que permite que modelos de lenguaje grandes predigan las estructuras de los anticuerpos con mayor precisión. Su trabajo podría permitir a los investigadores examinar millones de posibles anticuerpos para identificar aquellos que podrían usarse para tratar el SARS-CoV-2 y otras enfermedades infecciosas.
«Nuestro método nos permite escalar, mientras que otros no lo hacen, hasta el punto de que podemos encontrar algunas agujas en el pajar», dice Bonnie Berger, profesora de Matemáticas Simons, jefa del grupo de Computación y Biología en el Instituto de Computación del MIT. Laboratorio de Ciencia e Inteligencia Artificial (CSAIL) y uno de los autores principales del nuevo estudio. «Si pudiéramos ayudar a impedir que las compañías farmacéuticas participen en ensayos clínicos con el producto equivocado, realmente ahorraríamos mucho dinero».
La técnica, que se centra en modelar las regiones hipervariables de los anticuerpos, también tiene potencial para analizar repertorios completos de anticuerpos de personas individuales. Esto podría ser útil para estudiar la respuesta inmune de personas que responden muy bien a enfermedades como el VIH, para ayudar a descubrir por qué sus anticuerpos defienden el virus con tanta eficacia.
Bryan Bryson, profesor asociado de ingeniería biológica en el MIT y miembro del Instituto Ragon del MGH, MIT y Harvard, también es autor principal del artículo, que aparece esta semana en la revista Actas de la Academia Nacional de Ciencias. Rohit Singh, ex científico investigador de CSAIL que ahora es profesor asistente de bioestadística, bioinformática y biología celular en la Universidad de Duke, y Chiho Im ’22 son los autores principales del artículo. A la investigación también contribuyeron investigadores de Sanofi y ETH Zurich.
Modelado de hipervariabilidad
Las proteínas están formadas por largas cadenas de aminoácidos, que pueden plegarse en una enorme cantidad de estructuras posibles. En los últimos años, predecir estas estructuras se ha vuelto mucho más fácil gracias al uso de programas de inteligencia artificial como AlphaFold. Muchos de estos programas, como ESMFold y OmegaFold, se basan en grandes modelos de lenguaje, que se desarrollaron originalmente para analizar grandes cantidades de texto, permitiéndoles aprender a predecir la siguiente palabra en una secuencia. Este mismo enfoque puede funcionar para secuencias de proteínas, al aprender qué estructuras proteicas tienen más probabilidades de formarse a partir de diferentes patrones de aminoácidos.
Sin embargo, esta técnica no siempre funciona con anticuerpos, especialmente en un segmento del anticuerpo conocido como región hipervariable. Los anticuerpos suelen tener una estructura en forma de Y, y estas regiones hipervariables están ubicadas en las puntas de la Y, donde detectan proteínas extrañas, también conocidas como antígenos, y se unen a ellas. La parte inferior de la Y proporciona soporte estructural y ayuda a los anticuerpos a interactuar con las células inmunitarias.
Las regiones hipervariables varían en longitud pero normalmente contienen menos de 40 aminoácidos. Se ha estimado que el sistema inmunológico humano puede producir hasta 1 trillón de anticuerpos diferentes cambiando la secuencia de estos aminoácidos, lo que ayuda a garantizar que el cuerpo pueda responder a una enorme variedad de antígenos potenciales. Esas secuencias no están limitadas evolutivamente de la misma manera que otras secuencias de proteínas, por lo que es difícil para los modelos de lenguaje grandes aprender a predecir sus estructuras con precisión.
«Parte de la razón por la que los modelos de lenguaje pueden predecir bien la estructura de las proteínas es que la evolución restringe estas secuencias de manera que el modelo puede descifrar lo que esas restricciones habrían significado», dice Singh. «Es similar a aprender las reglas gramaticales observando el contexto de las palabras en una oración, lo que te permite descubrir lo que significa».
Para modelar esas regiones hipervariables, los investigadores crearon dos módulos que se basan en modelos de lenguaje de proteínas existentes. Uno de estos módulos se entrenó en secuencias hipervariables de aproximadamente 3.000 estructuras de anticuerpos que se encuentran en el Banco de datos de proteínas (PDB), lo que le permitió aprender qué secuencias tienden a generar estructuras similares. El otro módulo se entrenó con datos que correlacionan alrededor de 3.700 secuencias de anticuerpos con la fuerza con la que se unen a tres antígenos diferentes.
El modelo computacional resultante, conocido como AbMap, puede predecir las estructuras de los anticuerpos y la fuerza de unión en función de sus secuencias de aminoácidos. Para demostrar la utilidad de este modelo, los investigadores lo utilizaron para predecir estructuras de anticuerpos que neutralizarían fuertemente la proteína de pico del virus SARS-CoV-2.
Los investigadores comenzaron con un conjunto de anticuerpos que se había predicho que se unirían a este objetivo y luego generaron millones de variantes cambiando las regiones hipervariables. Su modelo fue capaz de identificar estructuras de anticuerpos que serían las más exitosas, con mucha más precisión que los modelos tradicionales de estructura de proteínas basados en modelos de lenguaje grandes.
Luego, los investigadores dieron el paso adicional de agrupar los anticuerpos en grupos que tenían estructuras similares. Eligieron anticuerpos de cada uno de estos grupos para probarlos experimentalmente, trabajando con investigadores de Sanofi. Esos experimentos encontraron que el 82 por ciento de estos anticuerpos tenían una mejor fuerza de unión que los anticuerpos originales que se incluyeron en el modelo.
Identificar una variedad de buenos candidatos en las primeras etapas del proceso de desarrollo podría ayudar a las compañías farmacéuticas a evitar gastar mucho dinero en probar candidatos que terminan fallando más adelante, dicen los investigadores.
«No quieren poner todos los huevos en la misma canasta», dice Singh. “No quieren decir: voy a tomar este anticuerpo y someterlo a ensayos preclínicos, y luego resultará tóxico. Preferirían tener un conjunto de buenas posibilidades y aprovecharlas todas, para tener algunas opciones si alguna sale mal”.
Comparando anticuerpos
Utilizando esta técnica, los investigadores también podrían intentar responder algunas preguntas de larga data sobre por qué diferentes personas responden de manera diferente a la infección. Por ejemplo, ¿por qué algunas personas desarrollan formas mucho más graves de Covid y por qué algunas personas expuestas al VIH nunca se infectan?
Los científicos han estado tratando de responder esas preguntas realizando la secuenciación del ARN unicelular de células inmunes de individuos y comparándolas, un proceso conocido como análisis del repertorio de anticuerpos. Trabajos anteriores han demostrado que los repertorios de anticuerpos de dos personas diferentes pueden superponerse tan solo en un 10 por ciento. Sin embargo, la secuenciación no ofrece una imagen tan completa del rendimiento de los anticuerpos como la información estructural, porque dos anticuerpos que tienen secuencias diferentes pueden tener estructuras y funciones similares.
El nuevo modelo puede ayudar a resolver ese problema generando rápidamente estructuras para todos los anticuerpos que se encuentran en un individuo. En este estudio, los investigadores demostraron que cuando se tiene en cuenta la estructura, hay mucha más superposición entre individuos que el 10 por ciento observado en las comparaciones de secuencias. Ahora planean investigar más a fondo cómo estas estructuras pueden contribuir a la respuesta inmune general del cuerpo contra un patógeno en particular.
«Aquí es donde un modelo de lenguaje encaja muy bien porque tiene la escalabilidad del análisis basado en secuencias, pero se acerca a la precisión del análisis basado en estructuras», dice Singh.
La investigación fue financiada por Sanofi y la Clínica Abdul Latif Jameel para el Aprendizaje Automático en Salud.