Los modelos de aprendizaje automático pueden acelerar el descubrimiento de nuevos materiales haciendo predicciones y sugiriendo experimentos. Pero la mayoría de los modelos hoy solo consideran algunos tipos específicos de datos o variables. Compare eso con los científicos humanos, que trabajan en un entorno colaborativo y consideran los resultados experimentales, la literatura científica más amplia, las imágenes y el análisis estructural, la experiencia o la intuición personal, y los aportes de colegas y revisores de pares.
Ahora, los investigadores del MIT han desarrollado un método para optimizar las recetas de materiales y los experimentos de planificación que incorporan información de diversas fuentes como ideas de la literatura, composiciones químicas, imágenes microestructurales y más. El enfoque es parte de una nueva plataforma, llamada Copilot para científicos experimentales del mundo real (CREST), que también utiliza equipos robóticos para pruebas de materiales de alto rendimiento, cuyos resultados se vuelven a recibir grandes modelos multimodales para optimizar aún más las recetas de materiales.
Los investigadores humanos pueden conversar con el sistema en lenguaje natural, sin requerido la codificación, y el sistema hace sus propias observaciones e hipótesis en el camino. Las cámaras y los modelos de lenguaje visual también permiten al sistema monitorear los experimentos, detectar problemas y sugerir correcciones.
«En el campo de la IA para la ciencia, la clave es diseñar nuevos experimentos», dice Ju Li, profesor de ingeniería de energía de la Escuela de Ingeniería Carl Richard Soderberg. «Utilizamos la retroalimentación multimodal, por ejemplo, información de la literatura previa sobre cómo el paladio se comportó en las celdas de combustible a esta temperatura y la retroalimentación humana, para complementar los datos experimentales y diseñar nuevos experimentos. También usamos robots para sintetizar y caracterizar la estructura del material y probar el rendimiento».
El sistema se describe en un artículo publicado en Naturaleza. Los investigadores usaron Crest para explorar más de 900 químicas y realizar 3.500 pruebas electroquímicas, lo que llevó al descubrimiento de un material catalizador que entregó una densidad de potencia récord en una celda de combustible que funciona con sal de formato para producir electricidad.
Unirse a Li en el documento como los primeros autores son el estudiante de doctorado Zhen Zhang, Zhichu Ren PhD ’24, el estudiante de doctorado Chia-Wei Hsu y Postdoc Weibin Chen. Sus coautores son el profesor asistente del MIT IWNetim Abate; Profesor Asociado Pulkit Agrawal; Jr Profesor de Ingeniería Yang Shao-Horn; MIT.Nano investigador Aubrey Penn; Zhang-Wei Hong PhD ’25, Hongbin Xu PhD ’25; Daniel Zheng PhD ’25; Estudiantes graduados del MIT Shuhan Miao y Hugh Smith; MIT Postdocs Yimeng Huang, Weiyin Chen, Yungsheng Tian, Yifan Gao y Yaoshen Niu; ex MIT Postdoc Sipei Li; y colaboradores como Chi-Feng Lee, Yu-Cheng Shao, Hsiao-Tsu Wang y Ying-Rui Lu.
Un sistema más inteligente
Los experimentos de ciencias de los materiales pueden llevar mucho tiempo y costosos. Requieren que los investigadores diseñen flujos de trabajo cuidadosamente, hagan nuevos materiales y ejecuten una serie de pruebas y análisis para comprender lo que sucedió. Esos resultados se utilizan para decidir cómo mejorar el material.
Para mejorar el proceso, algunos investigadores han recurrido a una estrategia de aprendizaje automático conocido como aprendizaje activo para hacer un uso eficiente de puntos de datos experimentales anteriores y explorar o explotar esos datos. Cuando se combina con una técnica estadística conocida como optimización bayesiana (BO), el aprendizaje activo ha ayudado a los investigadores a identificar nuevos materiales para cosas como baterías y semiconductores avanzados.
«La optimización bayesiana es como Netflix recomendando la próxima película para ver en función de su historial de visualización, excepto que recomienda el próximo experimento que haga», explica Li. «Pero la optimización bayesiana básica es demasiado simplista. Utiliza un espacio de diseño en caja, por lo que si digo que voy a usar platino, paladio y hierro, solo cambia la relación de esos elementos en este pequeño espacio. Pero los materiales reales tienen muchas más dependencias y Bo a menudo se pierde».
La mayoría de los enfoques de aprendizaje activo también se basan en flujos de datos individuales que no capturan todo lo que sucede en un experimento. Para equipar los sistemas computacionales con más conocimiento humano, al tiempo que aprovecha la velocidad y el control de los sistemas automatizados, Li y sus colaboradores construyeron la cresta.
El equipo robótico de Crest incluye un robot de manejo de líquidos, un sistema de choque carbotérmico para sintetizar rápidamente los materiales, una estación de trabajo electroquímica automatizada para la prueba, equipos de caracterización que incluyen microscopía electrónica automatizada y microscopía óptica, y dispositivos auxiliares, como bombas y válvulas de gas, que también pueden controlarse remotamente. Muchos parámetros de procesamiento también se pueden ajustar.
Con la interfaz de usuario, los investigadores pueden chatear con Crest y decirle que use el aprendizaje activo para encontrar recetas prometedoras de materiales para diferentes proyectos. La cresta puede incluir hasta 20 moléculas y sustratos precursores en su receta. Para guiar los diseños de materiales, los modelos de Crest buscan a través de documentos científicos para descripciones de elementos o moléculas precursoras que puedan ser útiles. Cuando los investigadores humanos le dicen a Crest que busque nuevas recetas, inicia una sinfonía robótica de preparación, caracterización y pruebas de muestras. El investigador también puede pedirle a Crest que realice un análisis de imágenes a partir de imágenes de microscopía electrónica de barrido, difracción de rayos X y otras fuentes.
La información de esos procesos se utiliza para capacitar a los modelos de aprendizaje activo, que utilizan tanto el conocimiento de la literatura como los resultados experimentales actuales para sugerir más experimentos y acelerar el descubrimiento de materiales.
«Para cada receta utilizamos texto o bases de datos de literatura previa, y crea estas enormes representaciones de cada receta basada en la base de conocimiento anterior antes de hacer el experimento», dice Li. «Realizamos el análisis de componentes principales en este conocimiento de incrustación de conocimiento para obtener un espacio de búsqueda reducido que capture la mayor parte de la variabilidad del rendimiento. Luego utilizamos la optimización bayesiana en este espacio reducido para diseñar el nuevo experimento. Después del nuevo experimento, alimentamos el recién adquirido multimodal experimental y la retroalimentación humana en un modelo de lenguaje grande para aumentar la base de conocimiento y redefinir el espacio de búsqueda reducido, lo que nos brinda un gran boost en un gran boost en el eficiencia de aprendizaje activo».
Los experimentos de ciencias de los materiales también pueden enfrentar desafíos de reproducibilidad. Para abordar el problema, Crest monitorea sus experimentos con cámaras, buscando problemas potenciales y sugiriendo soluciones a través de texto y voz a los investigadores humanos.
Los investigadores utilizaron la cresta para desarrollar un material de electrodo para un tipo avanzado de celda de combustible de alta densidad conocida como una celda de combustible de formato directo. Después de explorar más de 900 químicas durante tres meses, Crest descubrió un material de catalizador hecho de ocho elementos que lograron una mejora de 9.3 veces en la densidad de potencia por dólar sobre paladio puro, un metal precioso costoso. En pruebas adicionales, el material de Crests se usó para entregar una densidad de potencia récord a una celda de combustible de formato directo de trabajo a pesar de que la celda contenía solo un cuarto de los metales preciosos de dispositivos anteriores.
Los resultados muestran el potencial de Crest para encontrar soluciones a los problemas de energía del mundo real que han afectado a la comunidad de ciencia e ingeniería de materiales durante décadas.
«Un desafío importante para los catalizadores de células de combustible es el uso de metales preciosos», dice Zhang. «Para las celdas de combustible, los investigadores han utilizado varios metales preciosos como Palladium y Platinum. Utilizamos un catalizador múltiple que también incorpora muchos otros elementos baratos para crear el entorno de coordinación óptimo para la actividad catalítica y la resistencia a las especies de envenenamiento, como el monóxido de carbono y el átomo de hidrógeno adsorbido. Las personas han estado buscando opciones de bajo costo durante muchos años. Este sistema aceleró en nuestra búsqueda en nuestra búsqueda de estos catalizs».
Un asistente útil
Al principio, la mala reproducibilidad surgió como un problema importante que limitó la capacidad de los investigadores para realizar su nueva técnica de aprendizaje activo en conjuntos de datos experimentales. Las propiedades del material pueden verse influenciadas por la forma en que los precursores se mezclan y procesan, y cualquier cantidad de problemas puede alterar sutilmente las condiciones experimentales, lo que requiere una inspección cuidadosa para corregir.
Para automatizar parcialmente el proceso, los investigadores acoplaron modelos de lenguaje de visión y visión por computadora con conocimiento de dominio de la literatura científica, lo que permitió al sistema plantear la hipótesis de fuentes de irreproducibilidad y proponer soluciones. Por ejemplo, los modelos pueden notar cuándo hay una desviación del tamaño de un milímetro en forma de una muestra o cuando una pipeta se mueve fuera de lugar. Los investigadores incorporaron algunas de las sugerencias del modelo, lo que llevó a una mejor consistencia, lo que sugiere que los modelos ya son buenos asistentes experimentales.
Los investigadores señalaron que los humanos aún realizaban la mayor parte de la depuración en sus experimentos.
«Crest es un asistente, no un reemplazo, para los investigadores humanos», dice Li. «Los investigadores humanos siguen siendo indispensables. De hecho, usamos el lenguaje natural para que el sistema pueda explicar lo que está haciendo y presentar observaciones e hipótesis. Pero este es un paso hacia laboratorios más flexibles y autónomos».