La IA generativa, que actualmente está en la cima del discurso popular, promete un mundo donde lo simple se transforma en complejo, donde una distribución simple evoluciona hacia patrones intrincados de imágenes, sonidos o texto, haciendo que lo artificial sea sorprendentemente real.
Los reinos de la imaginación ya no son meras abstracciones, ya que investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han dado vida a un modelo innovador de IA. Su nueva tecnología integra dos leyes físicas aparentemente no relacionadas que sustentan los modelos generativos de mejor rendimiento hasta la fecha: la difusión, que normalmente ilustra el movimiento aleatorio de elementos, como el calor que impregna una habitación o un gas que se expande en el espacio, y el flujo de Poisson, que se basa en los principios que rigen la actividad de las cargas eléctricas.
Esta combinación armoniosa ha dado como resultado un rendimiento superior en la generación de nuevas imágenes, superando a los modelos de última generación existentes. Desde sus inicios, el “Modelo generativo de flujo de Poisson ++” (PFGM++) ha encontrado aplicaciones potenciales en diversos campos, desde la generación de secuencias de anticuerpos y ARN hasta la producción de audio y la generación de gráficos.
El modelo puede generar patrones complejos, como crear imágenes realistas o imitar procesos del mundo real. PFGM++ se basa en PFGM, el trabajo del equipo del año anterior. PFGM se inspira en los medios detrás de la ecuación matemática conocida como ecuación de «Poisson» y luego la aplica a los datos de los que el modelo intenta aprender. Para hacer esto, el equipo utilizó un truco inteligente: agregaron una dimensión adicional al “espacio” de su modelo, algo así como pasar de un boceto 2D a un modelo 3D. Esta dimensión adicional brinda más espacio para maniobrar, coloca los datos en un contexto más amplio y ayuda a abordar los datos desde todas las direcciones al generar nuevas muestras.
«PFGM++ es un ejemplo de los tipos de avances en IA que pueden impulsarse a través de colaboraciones interdisciplinarias entre físicos e informáticos», dice Jesse Thaler, físico teórico de partículas en el Centro de Física Teórica del Laboratorio de Ciencias Nucleares del MIT y director de IA de la Fundación Nacional de Ciencias. Instituto de Inteligencia Artificial e Interacciones Fundamentales (NSF AI IAIFI), que no participó en el trabajo. “En los últimos años, los modelos generativos basados en IA han arrojado numerosos resultados sorprendentes, desde imágenes fotorrealistas hasta lúcidos flujos de texto. Sorprendentemente, algunos de los modelos generativos más poderosos se basan en conceptos de la física probados en el tiempo, como las simetrías y la termodinámica. PFGM++ toma una idea centenaria de la física fundamental (que podría haber dimensiones adicionales del espacio-tiempo) y la convierte en una herramienta potente y robusta para generar conjuntos de datos sintéticos pero realistas. Estoy encantado de ver las innumerables formas en que la ‘inteligencia física’ está transformando el campo de la inteligencia artificial”.
El mecanismo subyacente de PFGM no es tan complejo como podría parecer. Los investigadores compararon los puntos de datos con pequeñas cargas eléctricas colocadas en un plano en un mundo dimensionalmente expandido. Estas cargas producen un «campo eléctrico», en el que las cargas buscan moverse hacia arriba a lo largo de las líneas de campo hacia una dimensión adicional y, en consecuencia, forman una distribución uniforme en un vasto hemisferio imaginario. El proceso de generación es como rebobinar una cinta de vídeo: comenzando con un conjunto de cargas distribuidas uniformemente en el hemisferio y siguiendo su viaje de regreso al plano a lo largo de las líneas eléctricas, se alinean para coincidir con la distribución de datos original. Este intrigante proceso permite que el modelo neuronal aprenda el campo eléctrico y genere nuevos datos que reflejen el original.
El modelo PFGM++ extiende el campo eléctrico en PFGM a un marco intrincado y de dimensiones superiores. Cuando sigues expandiendo estas dimensiones, sucede algo inesperado: el modelo comienza a parecerse a otra clase importante de modelos, los modelos de difusión. Este trabajo se trata de encontrar el equilibrio adecuado. Los modelos PFGM y de difusión se encuentran en extremos opuestos de un espectro: uno es robusto pero complejo de manejar, el otro más simple pero menos resistente. El modelo PFGM++ ofrece un punto óptimo, logrando un equilibrio entre robustez y facilidad de uso. Esta innovación allana el camino para una generación más eficiente de imágenes y patrones, lo que marca un importante paso adelante en la tecnología. Además de las dimensiones ajustables, los investigadores propusieron un nuevo método de entrenamiento que permite un aprendizaje más eficiente del campo eléctrico.
Para hacer realidad esta teoría, el equipo resolvió un par de ecuaciones diferenciales que detallan el movimiento de estas cargas dentro del campo eléctrico. Evaluaron el rendimiento utilizando la puntuación Frechet Inception Distance (FID), una métrica ampliamente aceptada que evalúa la calidad de las imágenes generadas por el modelo en comparación con las reales. PFGM++ muestra además una mayor resistencia a los errores y robustez hacia el tamaño del paso en las ecuaciones diferenciales.
De cara al futuro, su objetivo es refinar ciertos aspectos del modelo, particularmente de manera sistemática para identificar el valor de «punto óptimo» de D adaptado a datos, arquitecturas y tareas específicas mediante el análisis del comportamiento de los errores de estimación de las redes neuronales. También planean aplicar el PFGM++ a la moderna generación de texto a imagen/texto a vídeo a gran escala.
«Los modelos de difusión se han convertido en una fuerza impulsora fundamental detrás de la revolución de la IA generativa», dice Yang Song, científico investigador de OpenAI. “PFGM++ presenta una poderosa generalización de los modelos de difusión, que permite a los usuarios generar imágenes de mayor calidad al mejorar la solidez de la generación de imágenes contra perturbaciones y errores de aprendizaje. Además, PFGM++ descubre una conexión sorprendente entre la electrostática y los modelos de difusión, proporcionando nuevos conocimientos teóricos sobre la investigación de los modelos de difusión”.
«Los modelos generativos de flujo de Poisson no solo se basan en una elegante formulación inspirada en la física basada en la electrostática, sino que también ofrecen un rendimiento de modelado generativo de última generación en la práctica», afirma Karsten Kreis, científico investigador sénior de NVIDIA, que no participó. en el trabajo. “Incluso superan a los modelos de difusión populares, que actualmente dominan la literatura. Esto los convierte en una herramienta de modelado generativo muy poderosa y imagino su aplicación en diversas áreas, desde la creación de contenido digital hasta el descubrimiento generativo de fármacos. En términos más generales, creo que la exploración de nuevos marcos de modelado generativo inspirados en la física es muy prometedor para el futuro y que los modelos generativos de flujo de Poisson son sólo el comienzo”.
Los autores de un artículo sobre este trabajo incluyen a tres estudiantes graduados del MIT: Yilun Xu del Departamento de Ingeniería Eléctrica e Informática (EECS) y CSAIL, Ziming Liu del Departamento de Física y NSF AI IAIFI, y Shangyuan Tong de EECS y CSAIL. , así como el investigador científico senior de Google Yonglong Tian PhD ’23. Los profesores del MIT Max Tegmark y Tommi Jaakkola asesoraron la investigación.
El equipo contó con el apoyo de la colaboración MIT-DSTA Singapur, el MIT-IBM Watson AI Lab, subvenciones de la National Science Foundation, The Casey and Family Foundation, Foundational Question Institute, Rothberg Family Fund for Cognitive Science y ML for Pharmaceutical Discovery. y Consorcio de Síntesis. Su trabajo se presentó en la Conferencia Internacional sobre Aprendizaje Automático este verano.