El impacto de la inteligencia artificial nunca será equitativo si solo hay una empresa que construye y controla los modelos (sin mencionar los datos que contienen). Desafortunadamente, los modelos de IA actuales se componen de miles de millones de parámetros que deben entrenarse y ajustarse para maximizar el rendimiento para cada caso de uso, lo que hace que los modelos de IA más potentes estén fuera del alcance de la mayoría de las personas y empresas.
MosaicML comenzó con la misión de hacer que esos modelos sean más accesibles. La empresa, que cuenta con Jonathan Frankle PhD ’23 y el profesor asociado del MIT Michael Carbin como cofundadores, desarrolló una plataforma que permite a los usuarios entrenar, mejorar y monitorear modelos de código abierto utilizando sus propios datos. La empresa también construyó sus propios modelos de código abierto utilizando unidades de procesamiento gráfico (GPU) de Nvidia.
El enfoque hizo que el aprendizaje profundo, un campo incipiente cuando comenzó MosaicML, fuera accesible para muchas más organizaciones a medida que el entusiasmo en torno a la IA generativa y los grandes modelos de lenguaje (LLM) se disparó tras el lanzamiento de Chat GPT-3.5. También convirtió a MosaicML en una poderosa herramienta complementaria para las empresas de gestión de datos que también estaban comprometidas a ayudar a las organizaciones a hacer uso de sus datos sin entregárselos a las empresas de inteligencia artificial.
El año pasado, ese razonamiento llevó a la adquisición de MosaicML por parte de Databricks, una empresa global de almacenamiento de datos, análisis e inteligencia artificial que trabaja con algunas de las organizaciones más grandes del mundo. Desde la adquisición, las empresas combinadas han lanzado uno de los LLM de propósito general y código abierto de mayor rendimiento jamás creados. Conocido como DBRX, este modelo ha establecido nuevos puntos de referencia en tareas como comprensión lectora, preguntas de conocimiento general y acertijos de lógica.
Desde entonces, DBRX se ha ganado la reputación de ser uno de los LLM de código abierto más rápidos disponibles y ha demostrado ser especialmente útil en grandes empresas.
Sin embargo, más que el modelo, Frankle dice que DBRX es importante porque se creó utilizando herramientas de Databricks, lo que significa que cualquiera de los clientes de la empresa puede lograr un rendimiento similar con sus propios modelos, lo que acelerará el impacto de la IA generativa.
«Honestamente, es emocionante ver a la comunidad hacer cosas interesantes con él», dice Frankle. “Para mí, como científico, esa es la mejor parte. No es el modelo, son todas las cosas maravillosas que la comunidad está haciendo además de él. Ahí es donde ocurre la magia”.
Hacer que los algoritmos sean eficientes
Frankle obtuvo una licenciatura y una maestría en ciencias de la computación en la Universidad de Princeton antes de llegar al MIT para realizar su doctorado en 2016. Al principio en el MIT, no estaba seguro de qué área de la computación quería estudiar. Su eventual elección cambiaría el curso de su vida.
Frankle finalmente decidió centrarse en una forma de inteligencia artificial conocida como aprendizaje profundo. En ese momento, el aprendizaje profundo y la inteligencia artificial no inspiraron el mismo entusiasmo que hoy. El aprendizaje profundo era un área de estudio que llevaba décadas de antigüedad y que aún no había dado muchos frutos.
«No creo que nadie en ese momento anticipara que el aprendizaje profundo iba a explotar como lo hizo», dice Frankle. “La gente que lo sabía pensaba que era un área realmente interesante y que había muchos problemas sin resolver, pero frases como modelo de lenguaje grande (LLM) e IA generativa no se usaban realmente en ese momento. Eran los primeros días”.
Las cosas comenzaron a ponerse interesantes con la publicación en 2017 de un artículo ahora infame de investigadores de Google, en el que mostraban que una nueva arquitectura de aprendizaje profundo conocida como transformador era sorprendentemente eficaz como traducción de idiomas y era prometedora en otras aplicaciones, incluidas generación de contenidos.
En 2020, el eventual cofundador y ejecutivo de tecnología de Mosaic, Naveen Rao, envió un correo electrónico a Frankle y Carbin de la nada. Rao había leído un artículo del que ambos eran coautores, en el que los investigadores mostraban una forma de reducir los modelos de aprendizaje profundo sin sacrificar el rendimiento. Rao les propuso a los dos iniciar una empresa. A ellos se unió Hanlin Tang, que había trabajado con Rao en una startup de IA anterior que había sido adquirida por Intel.
Los fundadores comenzaron leyendo sobre diferentes técnicas utilizadas para acelerar el entrenamiento de modelos de IA y finalmente combinaron varias de ellas para demostrar que podían entrenar un modelo para realizar la clasificación de imágenes cuatro veces más rápido que lo que se había logrado antes.
«El truco era que no había ningún truco», dice Frankle. “Creo que tuvimos que hacer 17 cambios diferentes en la forma en que entrenamos el modelo para poder resolverlo. Fue solo un poquito aquí y un poquito allá, pero resulta que fue suficiente para obtener aceleraciones increíbles. Esa ha sido realmente la historia de Mosaic”.
El equipo demostró que sus técnicas podían hacer que los modelos fueran más eficientes y lanzaron un modelo de lenguaje grande de código abierto en 2023 junto con una biblioteca de código abierto de sus métodos. También desarrollaron herramientas de visualización para permitir a los desarrolladores trazar diferentes opciones experimentales para entrenar y ejecutar modelos.
El Fondo E14 del MIT invirtió en la ronda de financiación Serie A de Mosaic, y Frankle dice que el equipo de E14 ofreció orientación útil desde el principio. El progreso de Mosaic permitió a una nueva clase de empresas entrenar sus propios modelos de IA generativa.
«Había una democratización y un ángulo de código abierto en la misión de Mosaic», dice Frankle. “Eso es algo que siempre ha estado muy cerca de mi corazón. Desde que era estudiante de doctorado y no tenía GPU porque no estaba en un laboratorio de aprendizaje automático y todos mis amigos tenían GPU. Todavía me siento así. ¿Por qué no podemos participar todos? ¿Por qué no podemos todos hacer estas cosas y hacer ciencia?
Innovación de código abierto
Databricks también había estado trabajando para brindar a sus clientes acceso a modelos de inteligencia artificial. La compañía finalizó la adquisición de MosaicML en 2023 por 1.300 millones de dólares.
«En Databricks, vimos un equipo fundador de académicos como nosotros», dice Frankle. “También vimos un equipo de científicos que entienden de tecnología. Databricks tiene los datos, nosotros tenemos el aprendizaje automático. No se puede hacer uno sin el otro y viceversa. Terminó siendo un partido realmente bueno”.
En marzo, Databricks lanzó DBRX, que brindó a la comunidad de código abierto y a las empresas que construyen sus propios LLM capacidades que antes estaban limitadas a modelos cerrados.
«Lo que demostró DBRX es que se puede crear el mejor LLM de código abierto del mundo con Databricks», dice Frankle. «Si eres una empresa, hoy el cielo es el límite».
Frankle dice que el equipo de Databricks se ha sentido alentado al utilizar DBRX internamente en una amplia variedad de tareas.
«Ya es fantástico y, con algunos ajustes, es mejor que los modelos cerrados», afirma. “No vas a ser mejor que GPT en todo. Esto no es así como funciona. Pero nadie quiere resolver todos los problemas. Todo el mundo quiere resolver un problema. Y podemos personalizar este modelo para que sea realmente excelente para escenarios específicos”.
A medida que Databricks continúa ampliando las fronteras de la IA y los competidores continúan invirtiendo enormes sumas de dinero en IA de manera más amplia, Frankle espera que la industria llegue a ver el código abierto como el mejor camino a seguir.
«Creo en la ciencia y creo en el progreso y estoy entusiasmado de que estemos haciendo ciencia tan apasionante como un campo en este momento», dice Frankle. “También creo en la apertura y espero que todos los demás la adopten como lo hemos hecho nosotros. Así es como llegamos aquí, a través de buena ciencia y buen intercambio”.