La coordinación de sistemas interactivos complicados, ya sea los diferentes modos de transporte en una ciudad o los diversos componentes que deben trabajar juntos para hacer un robot efectivo y eficiente, es un tema cada vez más importante para que los diseñadores de software las aborden. Ahora, los investigadores del MIT han desarrollado una forma completamente nueva de abordar estos problemas complejos, utilizando diagramas simples como una herramienta para revelar mejores enfoques para la optimización de software en modelos de aprendizaje profundo.
Dicen que el nuevo método hace que abordar estas tareas complejas sea tan simple que se puede reducir a un dibujo que cabe en la parte posterior de una servilleta.
El nuevo enfoque se describe en la revista Transacciones de investigación de aprendizaje automáticoen un artículo del estudiante doctoral entrante, Vincent Abbott y el profesor Gioele Zardini del Laboratorio del MIT para Sistemas de Información y Decisión (LIDS).
«Diseñamos un nuevo idioma para hablar sobre estos nuevos sistemas», dice Zardini. Este nuevo «lenguaje» basado en el diagrama se basa en gran medida en algo llamado teoría de la categoría, explica.
Todo tiene que ver con el diseño de la arquitectura subyacente de los algoritmos informáticos, los programas que en realidad terminarán detectando y controlando las diferentes partes del sistema que se optimizan. «Los componentes son diferentes piezas de un algoritmo, y tienen que hablar entre sí, intercambiar información, pero también representan el uso de energía, el consumo de memoria, etc.». Dichas optimizaciones son notoriamente difíciles porque cada cambio en una parte del sistema puede causar cambios en otras partes, lo que puede afectar aún más otras partes, etc.
Los investigadores decidieron centrarse en la clase particular de algoritmos de aprendizaje profundo, que actualmente son un tema candente de investigación. El aprendizaje profundo es la base de los grandes modelos de inteligencia artificial, incluidos modelos de idiomas grandes como ChatGPT y modelos de generación de imágenes como MidJourney. Estos modelos manipulan datos mediante una serie «profunda» de multiplicaciones de matriz intercaladas con otras operaciones. Los números dentro de las matrices son parámetros y se actualizan durante largas ejecuciones de entrenamiento, lo que permite encontrar patrones complejos. Los modelos consisten en miles de millones de parámetros, lo que hace que el cálculo sea costoso y, por lo tanto, el uso mejorado de los recursos y la optimización son invaluables.
Los diagramas pueden representar detalles de las operaciones paralelizadas en las que consisten los modelos de aprendizaje profundo, revelando las relaciones entre los algoritmos y el hardware de la Unidad de Procesamiento de Gráficos (GPU) paralelo en el que se ejecutan, suministradas por empresas como Nvidia. «Estoy muy entusiasmado con esto», dice Zardini, porque «parece que hemos encontrado un lenguaje que describe muy bien los algoritmos de aprendizaje profundo, que representa explícitamente todas las cosas importantes, que son los operadores que usa», por ejemplo, el consumo de energía, la asignación de memoria y cualquier otro parámetro que esté tratando de optimizar.
Gran parte del progreso dentro del aprendizaje profundo ha surgido de las optimizaciones de eficiencia de recursos. El último modelo Deepseek mostró que un equipo pequeño puede competir con los mejores modelos de OpenAI y otros laboratorios importantes al centrarse en la eficiencia de los recursos y la relación entre el software y el hardware. Por lo general, al derivar estas optimizaciones, dice, «la gente necesita mucha prueba y error para descubrir nuevas arquitecturas». Por ejemplo, un programa de optimización ampliamente utilizado llamado FlashAttion tardó más de cuatro años en desarrollarse, dice. Pero con el nuevo marco que desarrollaron: «Realmente podemos abordar este problema de una manera más formal». Y todo esto se representa visualmente en un lenguaje gráfico definido con precisión.
Pero los métodos que se han utilizado para encontrar estas mejoras «son muy limitadas», dice. «Creo que esto muestra que hay una brecha importante, ya que no tenemos un método sistemático formal para relacionar un algoritmo con su ejecución óptima o incluso comprender realmente cuántos recursos se necesitarán para ejecutar». Pero ahora, con el nuevo método basado en el diagrama que idearon, tal sistema existe.
La teoría de la categoría, que subyace en este enfoque, es una forma de describir matemáticamente los diferentes componentes de un sistema y cómo interactúan de manera generalizada y abstracta. Se pueden relacionar diferentes perspectivas. Por ejemplo, las fórmulas matemáticas pueden estar relacionadas con algoritmos que los implementan y usan recursos, o las descripciones de los sistemas pueden estar relacionadas con los sólidos «diagramas de cadenas monoidales». Estas visualizaciones le permiten jugar y experimentar directamente con cómo las diferentes partes se conectan e interactúan. Lo que desarrollaron, dice, equivale a «diagramas de cuerdas sobre esteroides», que incorporan muchas más convenciones gráficas y muchas más propiedades.
«La teoría de la categoría puede considerarse como las matemáticas de la abstracción y la composición», dice Abbott. «Cualquier sistema de composición se puede describir utilizando la teoría de la categoría, y la relación entre los sistemas de composición también se puede estudiar». Las reglas algebraicas que generalmente están asociadas con funciones también pueden representarse como diagramas, dice. «Entonces, muchos de los trucos visuales que podemos hacer con los diagramas, podemos relacionarnos con los trucos y funciones algebraicas. Entonces, crea esta correspondencia entre estos diferentes sistemas».
Como resultado, dice: «Esto resuelve un problema muy importante, que es que tenemos estos algoritmos de aprendizaje profundo, pero no se entienden claramente como modelos matemáticos». Pero al representarlos como diagramas, es posible acercarse a ellos formal y sistemáticamente, dice.
Una cosa que esto permite es una comprensión visual clara de la forma en que los procesos paralelos del mundo real pueden representarse mediante el procesamiento paralelo en GPU de computadoras multinúcleo. «De esta manera», dice Abbott, «los diagramas pueden representar una función y luego revelar cómo ejecutarla de manera óptima en una GPU».
El algoritmo de «atención» es utilizado por algoritmos de aprendizaje profundo que requieren información general y contextual, y es una fase clave de los bloques serializados que constituyen modelos de idiomas grandes como ChatGPT. El flashatent es una optimización que tardó años en desarrollarse, pero resultó en una mejora de seis veces en los algoritmos de velocidad de atención.
Aplicando su método al algoritmo de flashatención bien establecido, Zardini dice que «aquí podemos derivarlo, literalmente, en una servilleta». Luego agrega: «Ok, tal vez sea una servilleta grande». Pero para llevar a casa el punto sobre cuánto puede simplificar su nuevo enfoque para tratar con estos algoritmos complejos, titularon su trabajo de investigación formal sobre el trabajo «Flashatent en una servilleta».
Este método, dice Abbott, «permite que la optimización se deriva realmente rápidamente, en contraste con los métodos prevalecientes». Si bien inicialmente aplicaron este enfoque al algoritmo de flashatención ya existente, verificando así su efectividad, «esperamos usar este idioma para automatizar la detección de mejoras», dice Zardini, quien además de ser un investigador principal en los tapas, es el Rudge y Nancy Allen Subdentador de Ingeniería Civil y Ambiental, y una facultad afiliada con el Instituto para Datos, Sistemas y Sociedad.
El plan es que, en última instancia, dice, desarrollarán el software hasta el punto de que «el investigador carga su código, y con el nuevo algoritmo que detecta automáticamente lo que se puede mejorar, lo que se puede optimizar y devuelve una versión optimizada del algoritmo al usuario».
Además de automatizar la optimización del algoritmo, Zardini señala que un análisis sólido de cómo los algoritmos de aprendizaje profundo se relacionan con el uso de recursos de hardware permiten un codiseño sistemático de hardware y software. Esta línea de trabajo se integra con el enfoque de Zardini en el codiseño categórico, que utiliza las herramientas de la teoría de la categoría para optimizar simultáneamente varios componentes de los sistemas de ingeniería.
Abbott dice que «todo este campo de modelos de aprendizaje profundo optimizados, creo, es bastante críticamente sin abordar, y es por eso que estos diagramas son tan emocionantes. Abren las puertas a un enfoque sistemático de este problema».
«Estoy muy impresionado por la calidad de esta investigación … El nuevo enfoque para diagramarse de algoritmos de aprendizaje profundo utilizados por este documento podría ser un paso muy significativo», dice Jeremy Howard, fundador y CEO de Respuestas. AI, que no estaba asociado con este trabajo. «Este artículo es la primera vez que he visto una notación utilizada para analizar profundamente el rendimiento de un algoritmo de aprendizaje profundo en el hardware del mundo real … el siguiente paso será ver si se pueden lograr ganancias de rendimiento del mundo real».
«Esta es una pieza de investigación teórica bellamente ejecutada, que también apunta a una alta accesibilidad a lectores no iniciados, un rasgo raramente visto en documentos de este tipo», dice Petar Velickovic, un científico de investigación senior de Google Deepmind y profesor de la Universidad de Cambridge, que no estaba asociado con este trabajo. Estos investigadores, dice, «son claramente excelentes comunicadores, ¡y no puedo esperar para ver qué se les ocurre a continuación!»
El nuevo lenguaje basado en diagramas, que se publicó en línea, ya ha atraído una gran atención e interés de los desarrolladores de software. Un revisor del artículo anterior de Abbott que presenta los diagramas señaló que «los diagramas de circuito neuronal propuestos se ven muy bien desde un punto de vista artístico (por lo que puedo juzgar esto)». «Es una investigación técnica, ¡pero también es llamativo!» Zardini dice.