En los viejos tiempos, en los tiempos realmente viejos, la tarea de diseñar materiales era laboriosa. Los investigadores, a lo largo de más de 1.000 años, intentaron producir oro combinando elementos como plomo, mercurio y azufre, mezclados en lo que esperaban que fueran las proporciones adecuadas. Incluso científicos famosos como Tycho Brahe, Robert Boyle e Isaac Newton probaron suerte en el esfuerzo infructuoso que llamamos alquimia.
Por supuesto, la ciencia de los materiales ha avanzado mucho. Durante los últimos 150 años, los investigadores han podido recurrir a la tabla periódica de elementos, que les dice que diferentes elementos tienen diferentes propiedades y que uno no puede transformarse mágicamente en otro. Además, en la última década, las herramientas de aprendizaje automático han aumentado considerablemente nuestra capacidad para determinar la estructura y las propiedades físicas de diversas moléculas y sustancias. Una nueva investigación realizada por un grupo dirigido por Ju Li, profesor de Ingeniería Nuclear de la Compañía de Energía Eléctrica de Tokio en el MIT y profesor de ciencia e ingeniería de materiales, ofrece la promesa de un gran salto en las capacidades que pueden facilitar el diseño de materiales. Los resultados de su investigación se informan en una edición de diciembre de 2024 de Ciencia Computacional de la Naturaleza.
En la actualidad, la mayoría de los modelos de aprendizaje automático que se utilizan para caracterizar sistemas moleculares se basan en la teoría funcional de la densidad (DFT), que ofrece un enfoque de la mecánica cuántica para determinar la energía total de una molécula o cristal observando la distribución de la densidad electrónica. – que es, básicamente, el número promedio de electrones ubicados en una unidad de volumen alrededor de cada punto dado en el espacio cerca de la molécula. (Walter Kohn, quien coinventó esta teoría hace 60 años, recibió el Premio Nobel de Química por ella en 1998.) Si bien el método ha tenido mucho éxito, tiene algunos inconvenientes, según Li: “En primer lugar, la precisión no es uniformemente genial. Y, en segundo lugar, sólo te dice una cosa: la energía total más baja del sistema molecular”.
La “terapia de pareja” al rescate
Su equipo ahora se basa en una técnica de química computacional diferente, también derivada de la mecánica cuántica, conocida como teoría de clústeres acoplados o CCSD(T). «Este es el estándar de oro de la química cuántica», comenta Li. Los resultados de los cálculos CCSD(T) son mucho más precisos que los que se obtienen con los cálculos DFT y pueden ser tan confiables como los que se obtienen actualmente a través de experimentos. El problema es que realizar estos cálculos en una computadora es muy lento, dice, “y la escala es mala: si se duplica el número de electrones en el sistema, los cálculos se vuelven 100 veces más caros”. Por esa razón, los cálculos de CCSD(T) normalmente se han limitado a moléculas con un pequeño número de átomos, del orden de 10. Cualquier cosa mucho más allá de eso simplemente llevaría demasiado tiempo.
Ahí es donde entra en juego el aprendizaje automático. Los cálculos CCSD(T) se realizan primero en computadoras convencionales y luego los resultados se utilizan para entrenar una red neuronal con una arquitectura novedosa especialmente diseñada por Li y sus colegas. Después del entrenamiento, la red neuronal puede realizar estos mismos cálculos mucho más rápido aprovechando técnicas de aproximación. Es más, su modelo de red neuronal puede extraer mucha más información sobre una molécula que sólo su energía. «En trabajos anteriores, la gente ha utilizado múltiples modelos diferentes para evaluar diferentes propiedades», dice Hao Tang, estudiante de doctorado en ciencia e ingeniería de materiales del MIT. «Aquí utilizamos solo un modelo para evaluar todas estas propiedades, por lo que lo llamamos un enfoque ‘multitarea'».
La “red hamiltoniana electrónica multitarea”, o MEHnet, arroja luz sobre una serie de propiedades electrónicas, como los momentos dipolares y cuadripolares, la polarizabilidad electrónica y la brecha de excitación óptica: la cantidad de energía necesaria para tomar un electrón del estado fundamental al estado excitado más bajo. «La brecha de excitación afecta las propiedades ópticas de los materiales», explica Tang, «porque determina la frecuencia de la luz que puede ser absorbida por una molécula». Otra ventaja de su modelo entrenado con CCSD es que puede revelar propiedades no solo de los estados fundamentales, sino también de los estados excitados. El modelo también puede predecir el espectro de absorción infrarroja de una molécula en relación con sus propiedades vibratorias, donde las vibraciones de los átomos dentro de una molécula se acoplan entre sí, lo que lleva a diversos comportamientos colectivos.
La solidez de su enfoque debe mucho a la arquitectura de la red. Basándose en el trabajo de la profesora adjunta del MIT Tess Smidt, el equipo está utilizando la llamada red neuronal gráfica equivalente E(3), dice Tang, «en la que los nodos representan átomos y los bordes que conectan los nodos representan los enlaces entre átomos. También utilizamos algoritmos personalizados que incorporan principios de la física (relacionados con cómo las personas calculan las propiedades moleculares en la mecánica cuántica) directamente en nuestro modelo”.
Pruebas, 1, 2 3
Cuando se probó en su análisis de moléculas de hidrocarburos conocidas, el modelo de Li et al. superó a sus homólogos DFT y coincidió estrechamente con los resultados experimentales tomados de la literatura publicada.
Qiang Zhu, especialista en descubrimiento de materiales de la Universidad de Carolina del Norte en Charlotte (que no participó en este estudio), está impresionado por lo que se ha logrado hasta ahora. «Su método permite un entrenamiento eficaz con un pequeño conjunto de datos, al tiempo que logra una precisión y eficiencia computacional superiores en comparación con los modelos existentes», afirma. «Este es un trabajo apasionante que ilustra la poderosa sinergia entre la química computacional y el aprendizaje profundo, y ofrece nuevas ideas para desarrollar métodos de estructura electrónica más precisos y escalables».
El grupo con sede en el MIT aplicó su modelo primero a elementos pequeños no metálicos (hidrógeno, carbono, nitrógeno, oxígeno y flúor, a partir de los cuales se pueden formar compuestos orgánicos) y desde entonces pasó a examinar elementos más pesados: silicio, fósforo, azufre, cloro e incluso platino. Después de entrenarse en moléculas pequeñas, el modelo se puede generalizar a moléculas cada vez más grandes. «Anteriormente, la mayoría de los cálculos se limitaban a analizar cientos de átomos con DFT y sólo decenas de átomos con cálculos CCSD(T)», dice Li. «Ahora estamos hablando de manejar miles de átomos y, eventualmente, quizás decenas de miles».
Por ahora, los investigadores todavía están evaluando moléculas conocidas, pero el modelo puede usarse para caracterizar moléculas que no se han visto antes, así como para predecir las propiedades de materiales hipotéticos que constan de diferentes tipos de moléculas. «La idea es utilizar nuestras herramientas teóricas para seleccionar candidatos prometedores, que satisfagan un conjunto particular de criterios, antes de sugerirlos a un experimentador para que los revise», dice Tang.
Se trata de las aplicaciones
De cara al futuro, Zhu se muestra optimista sobre las posibles aplicaciones. «Este enfoque tiene potencial para la detección molecular de alto rendimiento», afirma. «Ésa es una tarea en la que lograr precisión química puede ser esencial para identificar nuevas moléculas y materiales con propiedades deseables».
Una vez que demuestren la capacidad de analizar moléculas grandes con quizás decenas de miles de átomos, dice Li, “deberíamos poder inventar nuevos polímeros o materiales” que podrían usarse en el diseño de fármacos o en dispositivos semiconductores. El examen de elementos de metales de transición más pesados podría conducir a la llegada de nuevos materiales para baterías, un área que actualmente es de gran necesidad.
El futuro, tal como lo ve Li, está muy abierto. “Ya no se trata sólo de un área”, afirma. “Nuestra ambición, en última instancia, es cubrir toda la tabla periódica con una precisión de nivel CCSD(T), pero a un coste computacional menor que el DFT. Esto debería permitirnos resolver una amplia gama de problemas en química, biología y ciencia de materiales. Es difícil saber, en la actualidad, cuán amplio podría ser ese rango”.
Este trabajo fue apoyado por el Instituto de Investigación Honda. Hao Tang agradece el apoyo de Mathworks Engineering Fellowship. Los cálculos de este trabajo se realizaron, en parte, en el simulador atomístico universal de alta velocidad Matlantis, el Texas Advanced Computing Center, el MIT SuperCloud y el National Energy Research Scientific Computing.