Behrooz Tahmasebi, estudiante de doctorado del MIT en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y afiliado del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL), estaba tomando un curso de matemáticas sobre ecuaciones diferenciales a fines de 2021 cuando surgió un rayo de inspiración. golpeado. En esa clase aprendió por primera vez sobre la ley de Weyl, que había sido formulada 110 años antes por el matemático alemán Hermann Weyl. Tahmasebi se dio cuenta de que podría tener alguna relevancia para el problema informático con el que estaba luchando en ese momento, a pesar de que la conexión parecía, en la superficie, ser delgada, en el mejor de los casos. La ley de Weyl, dice, proporciona una fórmula que mide la complejidad de la información o datos espectrales contenidos dentro de las frecuencias fundamentales de un parche de tambor o cuerda de guitarra.
Al mismo tiempo, Tahmasebi estaba pensando en medir la complejidad de los datos de entrada a una red neuronal, preguntándose si esa complejidad podría reducirse teniendo en cuenta algunas de las simetrías inherentes al conjunto de datos. Esta reducción, a su vez, podría facilitar (y acelerar) los procesos de aprendizaje automático.
La ley de Weyl, concebida aproximadamente un siglo antes del auge del aprendizaje automático, se había aplicado tradicionalmente a situaciones físicas muy diferentes, como aquellas relacionadas con las vibraciones de una cuerda o el espectro de radiación electromagnética (cuerpo negro) emitida por un objeto calentado. . Sin embargo, Tahmasebi creía que una versión personalizada de esa ley podría ayudar con el problema de aprendizaje automático que perseguía. Y si el enfoque da resultado, la recompensa podría ser considerable.
Habló con su asesora, Stefanie Jegelka, profesora asociada en EECS y afiliada de CSAIL y del Instituto de Datos, Sistemas y Sociedad del MIT, quien creía que definitivamente valía la pena estudiar la idea. Tal como lo vio Tahmasebi, la ley de Weyl tenía que ver con medir la complejidad de los datos, al igual que este proyecto. Pero la ley de Weyl, en su forma original, no decía nada acerca de la simetría.
Él y Jegelka han logrado modificar la ley de Weyl para que la simetría pueda tenerse en cuenta en la evaluación de la complejidad de un conjunto de datos. «Hasta donde yo sé», dice Tahmasebi, «esta es la primera vez que se utiliza la ley de Weyl para determinar cómo se puede mejorar el aprendizaje automático mediante la simetría».
El artículo que escribieron él y Jegelka obtuvo la designación de «Spotlight» cuando se presentó en la conferencia de diciembre de 2023 sobre Sistemas de procesamiento de información neuronal, ampliamente considerada como la conferencia más importante del mundo sobre aprendizaje automático.
Este trabajo, comenta Soledad Villar, matemática aplicada de la Universidad Johns Hopkins, “demuestra que los modelos que satisfacen las simetrías del problema no sólo son correctos sino que también pueden producir predicciones con errores menores, utilizando una pequeña cantidad de puntos de entrenamiento. [This] Es especialmente importante en ámbitos científicos, como la química computacional, donde los datos de entrenamiento pueden ser escasos”.
En su artículo, Tahmasebi y Jegelka exploraron las formas en que las simetrías, o las llamadas «invarianzas», podrían beneficiar el aprendizaje automático. Supongamos, por ejemplo, que el objetivo de una computadora en particular es seleccionar cada imagen que contenga el número 3. Esa tarea puede ser mucho más fácil y mucho más rápida si el algoritmo puede identificar el 3 independientemente de dónde se encuentre. colocado en la caja, ya sea exactamente en el centro o hacia un lado, y si está apuntando hacia arriba, hacia abajo u orientado en un ángulo aleatorio. Un algoritmo equipado con esta última capacidad puede aprovechar las simetrías de traslación y rotaciones, lo que significa que un 3, o cualquier otro objeto, no cambia en sí mismo al alterar su posición o al rotarlo alrededor de un eje arbitrario. Se dice que es invariante a esos cambios. La misma lógica se puede aplicar a los algoritmos encargados de identificar perros o gatos. Un perro es un perro, se podría decir, independientemente de cómo esté incrustado en una imagen.
El objetivo de todo el ejercicio, explican los autores, es explotar las simetrías intrínsecas de un conjunto de datos para reducir la complejidad de las tareas de aprendizaje automático. Esto, a su vez, puede conducir a una reducción en la cantidad de datos necesarios para el aprendizaje. Concretamente, el nuevo trabajo responde a la pregunta: ¿cuántos datos menos se necesitan para entrenar un modelo de aprendizaje automático si los datos contienen simetrías?
Hay dos formas de lograr una ganancia o beneficio aprovechando las simetrías presentes. El primero tiene que ver con el tamaño de la muestra a analizar. Imaginemos que se le encarga, por ejemplo, analizar una imagen que tiene simetría especular: el lado derecho es una réplica exacta, o imagen especular, del izquierdo. En ese caso, no es necesario mirar cada píxel; puede obtener toda la información que necesita de la mitad de la imagen: una mejora del factor dos. Si, por el contrario, la imagen se puede dividir en 10 partes idénticas, se puede obtener un factor de mejora de 10. Este tipo de efecto estimulante es lineal.
Para tomar otro ejemplo, imagine que está examinando un conjunto de datos, tratando de encontrar secuencias de bloques que tengan siete colores diferentes: negro, azul, verde, morado, rojo, blanco y amarillo. Tu trabajo se vuelve mucho más fácil si no te importa el orden en que están dispuestos los bloques. Si el orden importara, habría 5.040 combinaciones diferentes que buscar. Pero si lo único que le importa son secuencias de bloques en los que aparecen los siete colores, entonces ha reducido la cantidad de cosas (o secuencias) que está buscando de 5040 a solo una.
Tahmasebi y Jegelka descubrieron que es posible lograr un tipo diferente de ganancia (exponencial) que puede obtenerse mediante simetrías que operan en muchas dimensiones. Esta ventaja está relacionada con la noción de que la complejidad de una tarea de aprendizaje crece exponencialmente con la dimensionalidad del espacio de datos. Por lo tanto, el uso de una simetría multidimensional puede generar un rendimiento desproporcionadamente grande. «Esta es una nueva contribución que básicamente nos dice que las simetrías de dimensión superior son más importantes porque pueden darnos una ganancia exponencial», dice Tahmasebi.
El artículo NeurIPS 2023 que escribió con Jegelka contiene dos teoremas que fueron demostrados matemáticamente. «El primer teorema muestra que se puede lograr una mejora en la complejidad de la muestra con el algoritmo general que proporcionamos», dice Tahmasebi. El segundo teorema complementa al primero, añadió, “demostrando que ésta es la mejor ganancia posible que se puede obtener; No se puede lograr nada más”.
Él y Jegelka han proporcionado una fórmula que predice la ganancia que se puede obtener de una simetría particular en una aplicación determinada. Una virtud de esta fórmula es su generalidad, señala Tahmasebi. «Funciona para cualquier simetría y cualquier espacio de entrada». Funciona no sólo para simetrías que se conocen hoy en día, sino que también podría aplicarse en el futuro a simetrías que aún están por descubrir. Esta última perspectiva no es demasiado descabellada para considerarla, dado que la búsqueda de nuevas simetrías ha sido durante mucho tiempo un importante impulso en la física. Esto sugiere que, a medida que se encuentren más simetrías, la metodología introducida por Tahmasebi y Jegelka sólo debería mejorar con el tiempo.
Según Haggai Maron, un científico informático de Technion (el Instituto de Tecnología de Israel) y NVIDIA que no participó en el trabajo, el enfoque presentado en el documento «difiere sustancialmente de trabajos anteriores relacionados, adoptando una perspectiva geométrica y empleando herramientas de diferencial». geometría. Esta contribución teórica brinda apoyo matemático al subcampo emergente de «aprendizaje profundo geométrico», que tiene aplicaciones en el aprendizaje de gráficos, datos 3D y más. El artículo ayuda a establecer una base teórica para guiar futuros desarrollos en esta área de investigación en rápida expansión”.