Usando el aprendizaje automático, los ingenieros de MIT Chemical han creado un modelo computacional que puede predecir qué tan bien se disolverá cualquier molécula en un solvente orgánico, un paso clave en la síntesis de casi cualquier farmacéutico. Este tipo de predicción podría hacer que sea mucho más fácil desarrollar nuevas formas de producir drogas y otras moléculas útiles.
El nuevo modelo, que predice cuánto de un soluto se disolverá en un disolvente particular, debería ayudar a los químicos a elegir el solvente correcto para cualquier reacción dada en su síntesis, dicen los investigadores. Los solventes orgánicos comunes incluyen etanol y acetona, y hay cientos de otros que también pueden usarse en reacciones químicas.
«Predecir la solubilidad realmente es un paso limitante de la velocidad en la planificación sintética y la fabricación de productos químicos, especialmente los medicamentos, por lo que ha habido un interés de larga data en poder hacer mejores predicciones de solubilidad», dice Lucas Attia, un estudiante graduado del MIT y uno de los autores principales del nuevo estudio.
Los investigadores han puesto su modelo a disposición gratuitamente, y muchas empresas y laboratorios ya han comenzado a usarlo. El modelo podría ser particularmente útil para identificar solventes que son menos peligrosos que algunos de los solventes industriales más utilizados, dicen los investigadores.
«Hay algunos solventes que se sabe que disuelven la mayoría de las cosas. Son realmente útiles, pero son perjudiciales para el medio ambiente, y son perjudiciales para las personas, por lo que muchas compañías requieren que tenga que minimizar la cantidad de esos solventes que usa», dice Jackson Burns, un estudiante graduado del MIT que también es autor principal del documento. «Nuestro modelo es extremadamente útil para poder identificar al próximo mejor solvente, que con suerte es mucho menos dañino para el medio ambiente».
William Green, profesor de ingeniería química de Hottel Hoyt y director de la Iniciativa Energía MIT, es el autor principal del estudio, que aparece hoy en Comunicaciones de la naturaleza. Patrick Doyle, profesor de ingeniería química de Robert T. Haslam, también es autor del documento.
Resolver solubilidad
El nuevo modelo surgió de un proyecto en el que Attia and Burns trabajó juntos en un curso del MIT para aplicar el aprendizaje automático a los problemas de ingeniería química. Tradicionalmente, los químicos han predicho la solubilidad con una herramienta conocida como el modelo de solvatación de Abraham, que puede usarse para estimar la solubilidad general de una molécula al agregar las contribuciones de las estructuras químicas dentro de la molécula. Si bien estas predicciones son útiles, su precisión es limitada.
En los últimos años, los investigadores han comenzado a usar el aprendizaje automático para tratar de hacer predicciones de solubilidad más precisas. Antes de que Burns y Attia comenzaran a trabajar en su nuevo modelo, el modelo de vanguardia para predecir la solubilidad era un modelo desarrollado en el laboratorio de Green en 2022.
Ese modelo, conocido como solprop, funciona prediciendo un conjunto de propiedades relacionadas y combinándolas, utilizando la termodinámica, para predecir en última instancia la solubilidad. Sin embargo, el modelo tiene dificultades para predecir la solubilidad para los solutos que no había visto antes.
«Para las tuberías de descubrimiento de drogas y químicos donde está desarrollando una nueva molécula, desea poder predecir con anticipación cómo se ve su solubilidad», dice Attia.
Parte de la razón por la que los modelos de solubilidad existentes no han funcionado bien es porque no había un conjunto de datos integral para entrenarlos. Sin embargo, en 2023 se lanzó un nuevo conjunto de datos llamado BigSoldb, que compiló datos de casi 800 artículos publicados, incluida la información sobre la solubilidad para aproximadamente 800 moléculas disueltas sobre más de 100 solventes orgánicos que se usan comúnmente en química sintética.
Attia y Burns decidieron probar dos tipos diferentes de modelos en estos datos. Ambos modelos representan las estructuras químicas de las moléculas utilizando representaciones numéricas conocidas como incrustaciones, que incorporan información como el número de átomos en una molécula y qué átomos están unidos a los que otros átomos. Los modelos pueden usar estas representaciones para predecir una variedad de propiedades químicas.
Uno de los modelos utilizados en este estudio, conocidos como FastProp y desarrollados por Burns y otros en el Laboratorio de Green, incorpora «incrustaciones estáticas». Esto significa que el modelo ya conoce la incrustación para cada molécula antes de que comience a hacer cualquier tipo de análisis.
El otro modelo, ChemProp, aprende una incrustación para cada molécula durante el entrenamiento, al mismo tiempo que aprende a asociar las características de la incrustación con un rasgo como la solubilidad. Este modelo, desarrollado en múltiples laboratorios del MIT, ya se ha utilizado para tareas como el descubrimiento de antibióticos, el diseño de nanopartículas lipídicas y la predicción de las velocidades de reacción química.
Los investigadores capacitaron a ambos tipos de modelos en más de 40,000 puntos de datos de BigSoldB, incluida la información sobre los efectos de la temperatura, lo que juega un papel importante en la solubilidad. Luego, probaron los modelos en unos 1,000 solutos que habían sido retenidos de los datos de entrenamiento. Descubrieron que las predicciones de los modelos eran de dos a tres veces más precisas que las de Solprop, el mejor modelo anterior, y los nuevos modelos fueron especialmente precisos para predecir variaciones en la solubilidad debido a la temperatura.
«Ser capaz de reproducir con precisión esas pequeñas variaciones en la solubilidad debido a la temperatura, incluso cuando el ruido experimental general es muy grande, era una señal realmente positiva de que la red había aprendido correctamente una función de predicción de solubilidad subyacente», dice Burns.
Predicciones precisas
Los investigadores esperaban que el modelo basado en ChemProp, que puede aprender nuevas representaciones a medida que avanza, pudiera hacer predicciones más precisas. Sin embargo, para su sorpresa, descubrieron que los dos modelos funcionaban esencialmente iguales. Eso sugiere que la limitación principal en su rendimiento es la calidad de los datos, y que los modelos están funcionando, así como teóricamente posibles en función de los datos que están utilizando, dicen los investigadores.
«Chemprop siempre debe superar cualquier incrustación estática cuando tenga datos suficientes», dice Burns. «Nos sorprendió al ver que las embedidas estáticas y aprendidas eran estadísticamente indistinguibles en el rendimiento en todos los diferentes subconjuntos, lo que nos indica que las limitaciones de datos que están presentes en este espacio dominaron el rendimiento del modelo».
Los modelos podrían ser más precisos, dicen los investigadores, si hubieran mejores datos de capacitación y pruebas disponibles, idealmente, los datos obtenidos por una persona o un grupo de personas capacitadas para realizar los experimentos de la misma manera.
«Una de las grandes limitaciones del uso de este tipo de conjuntos de datos compilados es que diferentes laboratorios usan diferentes métodos y condiciones experimentales cuando realizan pruebas de solubilidad. Eso contribuye a esta variabilidad entre diferentes conjuntos de datos», dice Attia.
Debido a que el modelo basado en FastProp hace que sus predicciones sean más rápidas y tiene un código que es más fácil para otros usuarios, los investigadores decidieron hacer que esa, conocida como Fastsolv, esté disponible para el público. Múltiples compañías farmacéuticas ya han comenzado a usarlo.
«Hay aplicaciones en toda la tubería de descubrimiento de drogas», dice Burns. «También estamos emocionados de ver, fuera de la formulación y el descubrimiento de drogas, donde las personas pueden usar este modelo».
La investigación fue financiada, en parte, por el Departamento de Energía de los Estados Unidos.