• Sobre nosotros
  • Política de privacidad
  • Anunciar
  • Contactos
viernes, agosto 29, 2025
Retail
No Result
View All Result
Anunciar
Contactos
  • Nacional
  • International
  • Política
  • Economía
  • Ciencia y Tecnología
    • SpaceX
    • Inteligencia Artificial
    • Metaverse
  • Deportes
  • Sociedad
    • Cultura
    • Mascotas
    • Construcción y Vivienda
    • Turismo y Viajes
    • Música y películas
    • Psicología
    • Horóscopos
    • Moda y Estilo
    • Familia
    • Belleza
  • Salud
  • Turismo y Viajes
  • Gastronomía
EntreNosotros | Portal de noticias
No Result
View All Result

Los investigadores vislumbran el funcionamiento interno de los modelos de lenguaje de proteínas

Escrito por Entrenosotros
18/08/2025
in Inteligencia Artificial
50 4
0
Los investigadores vislumbran el funcionamiento interno de los modelos de lenguaje de proteínas

En los últimos años, los modelos que pueden predecir la estructura o función de las proteínas se han utilizado ampliamente para una variedad de aplicaciones biológicas, como identificar objetivos fármacos y diseñar nuevos anticuerpos terapéuticos.

Estos modelos, que se basan en modelos de idiomas grandes (LLM), pueden hacer predicciones muy precisas de la idoneidad de una proteína para una aplicación dada. Sin embargo, no hay forma de determinar cómo estos modelos hacen sus predicciones o qué características de proteínas juegan el papel más importante en esas decisiones.

YOU MAY ALSO LIKE

Los investigadores del MIT desarrollan una herramienta de IA para mejorar la selección de la tensión de la vacuna contra la gripe

Los modelos más simples pueden superar el aprendizaje profundo en la predicción climática

En un nuevo estudio, los investigadores del MIT han utilizado una técnica novedosa para abrir esa «caja negra» y permitirles determinar qué características tiene en cuenta un modelo de lenguaje de proteínas al hacer predicciones. Comprender lo que está sucediendo dentro de esa caja negra podría ayudar a los investigadores a elegir mejores modelos para una tarea particular, ayudando a optimizar el proceso de identificación de nuevos medicamentos o objetivos de vacuna.

«Nuestro trabajo tiene amplias implicaciones para una mejor explicabilidad en las tareas aguas abajo que dependen de estas representaciones», dice Bonnie Berger, profesora de Matemáticas de Simons, Jefe del Grupo de Computación y Biología en el Laboratorio de Informática e Inteligencia Artificial del MIT, y el autor principal del estudio. «Además, la identificación de características que rastrean los modelos de lenguaje de proteínas tienen el potencial de revelar nuevas ideas biológicas de estas representaciones».

Onkar Gujral, estudiante graduado del MIT, es el autor principal del estudio, que aparece esta semana en el Actas de la Academia Nacional de Ciencias. Mihir Bafna, un estudiante graduado del MIT, y Eric Alm, profesor de Ingeniería Biológica del MIT, también son autores del documento.

Abriendo la caja negra

En 2018, Berger y ex estudiante graduado del MIT Tristan Borpler PhD ’20 introdujeron el primer modelo de lenguaje de proteínas. Su modelo, como los modelos de proteínas posteriores que aceleraron el desarrollo de Alfafold, como ESM2 y OmegaFold, se basó en LLM. Estos modelos, que incluyen ChatGPT, pueden analizar grandes cantidades de texto y descubrir qué palabras tienen más probabilidades de aparecer juntas.

Los modelos de lenguaje de proteínas utilizan un enfoque similar, pero en lugar de analizar palabras, analizan secuencias de aminoácidos. Los investigadores han utilizado estos modelos para predecir la estructura y la función de las proteínas, y para aplicaciones como la identificación de proteínas que podrían unirse a fármacos particulares.

En un estudio de 2021, Berger y sus colegas utilizaron un modelo de lenguaje de proteínas para predecir qué secciones de proteínas de superficie viral tienen menos probabilidades de mutar de una manera que permita el escape viral. Esto les permitió identificar posibles objetivos para las vacunas contra la influenza, el VIH y el SARS-CoV-2.

Sin embargo, en todos estos estudios, ha sido imposible saber cómo los modelos estaban haciendo sus predicciones.

«Al final, obtendríamos alguna predicción, pero no teníamos absolutamente ninguna idea de lo que estaba sucediendo en los componentes individuales de esta caja negra», dice Berger.

En el nuevo estudio, los investigadores querían profundizar en cómo los modelos de lenguaje de proteínas hacen sus predicciones. Al igual que las LLM, los modelos de lenguaje de proteínas codifican la información como representaciones que consisten en un patrón de activación de diferentes «nodos» dentro de una red neuronal. Estos nodos son análogos a las redes de neuronas que almacenan recuerdos y otra información dentro del cerebro.

El funcionamiento interno de LLM no es fácil de interpretar, pero en los últimos años, los investigadores han comenzado a usar un tipo de algoritmo conocido como un autoencoder escaso para ayudar a arrojar algo de luz sobre cómo esos modelos hacen sus predicciones. El nuevo estudio del laboratorio de Berger es el primero en utilizar este algoritmo en modelos de lenguaje de proteínas.

Los autoencoders escasos funcionan ajustando cómo se representa una proteína dentro de una red neuronal. Típicamente, una proteína dada estará representada por un patrón de activación de un número restringido de neuronas, por ejemplo, 480. Un autoencoder escaso expandirá esa representación en un número mucho mayor de nodos, digamos 20,000.

Cuando la información sobre una proteína está codificada por solo 480 neuronas, cada nodo se ilumina para múltiples características, lo que hace que sea muy difícil saber qué características está codificando cada nodo. Sin embargo, cuando la red neuronal se expande a 20,000 nodos, este espacio adicional junto con una restricción de escasez ofrece la sala de información para «extenderse». Ahora, una característica de la proteína que anteriormente estaba codificada por múltiples nodos puede ocupar un solo nodo.

«En una representación escasa, las neuronas que se iluminan lo están haciendo de una manera más significativa», dice Gujral. «Antes de que se creen las representaciones escasas, las redes empacan la información tan estrechamente juntas que es difícil interpretar las neuronas».

Modelos interpretables

Una vez que los investigadores obtuvieron representaciones dispersas de muchas proteínas, utilizaron un asistente de IA llamado Claude (relacionado con el popular chatbot antrópico del mismo nombre), para analizar las representaciones. En este caso, le pidieron a Claude que comparara las representaciones dispersas con las características conocidas de cada proteína, como la función molecular, la familia de proteínas o la ubicación dentro de una célula.

Al analizar miles de representaciones, Claude puede determinar qué nodos corresponden a características de proteínas específicas, luego describirlos en inglés simple. Por ejemplo, el algoritmo podría decir: «Esta neurona parece estar detectando proteínas involucradas en el transporte transmembrana de iones o aminoácidos, particularmente aquellos ubicados en la membrana plasmática».

Este proceso hace que los nodos sean mucho más «interpretables», lo que significa que los investigadores pueden decir qué está codificando cada nodo. Descubrieron que las características que tienen más probabilidades de ser codificadas por estos nodos eran la familia de proteínas y ciertas funciones, incluidos varios procesos metabólicos y biosintéticos diferentes.

«Cuando entrena a un autoencoder escaso, no lo está entrenando para que sea interpretable, pero resulta que al incentivar la representación para que sea realmente escasa, eso termina resultando en una interpretabilidad», dice Gujral.

Comprender qué características está codificando un modelo de proteína en particular podría ayudar a los investigadores a elegir el modelo adecuado para una tarea en particular, o ajustar el tipo de entrada que dan al modelo, para generar los mejores resultados. Además, analizar las características que codifica un modelo podría ayudar algún día a los biólogos a aprender más sobre las proteínas que están estudiando.

«En algún momento cuando los modelos se vuelven mucho más poderosos, podría aprender más biología de lo que ya sabe, al abrir los modelos», dice Gujral.

La investigación fue financiada por los Institutos Nacionales de Salud.

Compartir7Tweet4Compartir1CompartirCompartir

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias recientes

Las familias luchan para salvar a Costa Blanca Beach Home Idyll de décadas de la demolición

Las familias luchan para salvar a Costa Blanca Beach Home Idyll de décadas de la demolición

29/08/2025
Dirado de la Liga de Campeones: el PSG consigue oponentes duros y la cabeza del Real Madrid a Almaty

Dirado de la Liga de Campeones: el PSG consigue oponentes duros y la cabeza del Real Madrid a Almaty

29/08/2025
Torremolinos presenta una liquidación presupuestaria con un remanente positivo

Torremolinos presenta una liquidación presupuestaria con un remanente positivo

29/08/2025

Amigos

Sharklinker, Mobellex.fr, Tiksaviems.lt, 365nachrichten, OnePlaceTwoStories, Mobellex.ch, REXFEL, CBDNutzen, Mobellex.de, CBDTropf

EntreNosotros Logo T

Entrenosotros es un portal de noticias que pretende ofrecer a sus lectores noticias de todo el mundo. Cubrimos desde noticias políticas hasta contenidos sobre estilo de vida.

Las familias luchan para salvar a Costa Blanca Beach Home Idyll de décadas de la demolición

Las familias luchan para salvar a Costa Blanca Beach Home Idyll de décadas de la demolición

29/08/2025
Dirado de la Liga de Campeones: el PSG consigue oponentes duros y la cabeza del Real Madrid a Almaty

Dirado de la Liga de Campeones: el PSG consigue oponentes duros y la cabeza del Real Madrid a Almaty

29/08/2025

Categorías

  • Belleza
  • Ciencia y Tecnología
  • Construcción y Vivienda
  • Cultura
  • Deportes
  • Economía
  • Familia
  • Gastronomía
  • Inteligencia Artificial
  • International
  • Málaga
  • Mascotas
  • Música y películas
  • Nacional
  • Otros
  • Política
  • Salud
  • Sociedad
  • Turismo y Viajes
  • Sobre nosotros
  • Política de privacidad
  • Anunciar
  • Contactos

© 2023 EntreNosotros. Reservados todos los derechos. $AOGX - Muebles para el hogar - Noticias Alemanas - CBDtropf.DE - Noticias de Lituania - Rexfel.COM

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Nacional
  • International
  • Política
  • Economía
  • Ciencia y Tecnología
    • SpaceX
    • Inteligencia Artificial
    • Metaverse
  • Deportes
  • Sociedad
    • Cultura
    • Mascotas
    • Construcción y Vivienda
    • Turismo y Viajes
    • Música y películas
    • Psicología
    • Horóscopos
    • Moda y Estilo
    • Familia
    • Belleza
  • Salud
  • Turismo y Viajes
  • Gastronomía

© 2023 EntreNosotros. Reservados todos los derechos. $AOGX - Muebles para el hogar - Noticias Alemanas - CBDtropf.DE - Noticias de Lituania - Rexfel.COM