Los modelos de redes neuronales profundas que impulsan las aplicaciones de aprendizaje automático más exigentes de la actualidad se han vuelto tan grandes y complejos que están superando los límites del hardware informático electrónico tradicional.
El hardware fotónico, que puede realizar cálculos de aprendizaje automático con luz, ofrece una alternativa más rápida y energéticamente más eficiente. Sin embargo, existen algunos tipos de cálculos de redes neuronales que un dispositivo fotónico no puede realizar, lo que requiere el uso de electrónica fuera del chip u otras técnicas que obstaculizan la velocidad y la eficiencia.
A partir de una década de investigación, científicos del MIT y de otros lugares han desarrollado un nuevo chip fotónico que supera estos obstáculos. Demostraron un procesador fotónico totalmente integrado que puede realizar todos los cálculos clave de una red neuronal profunda de forma óptica en el chip.
El dispositivo óptico pudo completar los cálculos clave para una tarea de clasificación de aprendizaje automático en menos de medio nanosegundo y al mismo tiempo logró una precisión de más del 92 por ciento, un rendimiento que está a la par con el hardware tradicional.
El chip, compuesto por módulos interconectados que forman una red neuronal óptica, se fabrica mediante procesos de fundición comerciales, lo que podría permitir la ampliación de la tecnología y su integración en la electrónica.
A largo plazo, el procesador fotónico podría conducir a un aprendizaje profundo más rápido y con mayor eficiencia energética para aplicaciones computacionalmente exigentes como lidar, investigación científica en astronomía y física de partículas o telecomunicaciones de alta velocidad.
“Hay muchos casos en los que el rendimiento del modelo no es lo único que importa, sino también la rapidez con la que se puede obtener una respuesta. Ahora que tenemos un sistema de extremo a extremo que puede ejecutar una red neuronal en óptica, en una escala de tiempo de nanosegundos, podemos comenzar a pensar en un nivel superior sobre aplicaciones y algoritmos”, dice Saumil Bandyopadhyay ’17, MEng ’18, PhD ’23, científico visitante en el Grupo de Fotónica Cuántica e IA dentro del Laboratorio de Investigación de Electrónica (RLE) y postdoctorado en NTT Research, Inc., autor principal de un artículo sobre el nuevo chip.
A Bandyopadhyay se unen en el artículo Alexander Sludds ’18, MEng ’19, PhD ’23; Doctorado en ciencias de Nicholas Harris ’17; Darío Bunandar PhD ’19; Stefan Krastanov, ex científico investigador del RLE que ahora es profesor asistente en la Universidad de Massachusetts en Amherst; Ryan Hamerly, científico visitante de RLE y científico principal de NTT Research; Matthew Streshinsky, ex líder de fotónica de silicio en Nokia y ahora cofundador y director ejecutivo de Enosemi; Michael Hochberg, presidente de Periplous, LLC; y Dirk Englund, profesor del Departamento de Ingeniería Eléctrica e Informática, investigador principal del Grupo de Fotónica Cuántica e Inteligencia Artificial y de RLE, y autor principal del artículo. La investigación aparece hoy en Fotónica de la naturaleza.
Aprendizaje automático con luz
Las redes neuronales profundas están compuestas por muchas capas interconectadas de nodos, o neuronas, que operan con datos de entrada para producir una salida. Una operación clave en una red neuronal profunda implica el uso de álgebra lineal para realizar la multiplicación de matrices, que transforma los datos a medida que pasan de una capa a otra.
Pero además de estas operaciones lineales, las redes neuronales profundas realizan operaciones no lineales que ayudan al modelo a aprender patrones más complejos. Las operaciones no lineales, como las funciones de activación, otorgan a las redes neuronales profundas el poder de resolver problemas complejos.
En 2017, el grupo de Englund, junto con investigadores del laboratorio de Marin Soljačić, profesor de física Cecil e Ida Green, demostró una red neuronal óptica en un solo chip fotónico que podía realizar la multiplicación de matrices con luz.
Pero en ese momento, el dispositivo no podía realizar operaciones no lineales en el chip. Los datos ópticos tuvieron que convertirse en señales eléctricas y enviarse a un procesador digital para realizar operaciones no lineales.
“La no linealidad en óptica es todo un desafío porque los fotones no interactúan entre sí con mucha facilidad. Eso hace que activar no linealidades ópticas consuma mucha energía, por lo que resulta complicado construir un sistema que pueda hacerlo de forma escalable”, explica Bandyopadhyay.
Superaron ese desafío diseñando dispositivos llamados unidades de función óptica no lineal (NOFU), que combinan electrónica y óptica para implementar operaciones no lineales en el chip.
Los investigadores construyeron una red neuronal óptica profunda en un chip fotónico utilizando tres capas de dispositivos que realizan operaciones lineales y no lineales.
Una red totalmente integrada
Al principio, su sistema codifica en luz los parámetros de una red neuronal profunda. Luego, una serie de divisores de haz programables, que se demostró en el artículo de 2017, realiza la multiplicación de matrices en esas entradas.
Luego, los datos pasan a NOFU programables, que implementan funciones no lineales al desviar una pequeña cantidad de luz a fotodiodos que convierten señales ópticas en corriente eléctrica. Este proceso, que elimina la necesidad de un amplificador externo, consume muy poca energía.
“Permanecemos en el dominio óptico todo el tiempo, hasta el final, cuando queremos leer la respuesta. Esto nos permite lograr una latencia ultrabaja”, afirma Bandyopadhyay.
Lograr una latencia tan baja les permitió entrenar de manera eficiente una red neuronal profunda en el chip, un proceso conocido como in situ. formación que normalmente consume una gran cantidad de energía en hardware digital.
«Esto es especialmente útil para sistemas en los que se realiza procesamiento de señales ópticas en el dominio, como navegación o telecomunicaciones, pero también en sistemas que desea aprender en tiempo real», afirma.
El sistema fotónico logró más del 96 por ciento de precisión durante las pruebas de entrenamiento y más del 92 por ciento de precisión durante la inferencia, lo que es comparable al hardware tradicional. Además, el chip realiza cálculos clave en menos de medio nanosegundo.
«Este trabajo demuestra que la informática (en esencia, la correlación de entradas y salidas) puede compilarse en nuevas arquitecturas de física lineal y no lineal que permitan una ley de escala fundamentalmente diferente de la computación frente al esfuerzo necesario», afirma Englund.
Todo el circuito se fabricó utilizando la misma infraestructura y procesos de fundición que producen los chips de computadora CMOS. Esto podría permitir que el chip se fabrique a escala, utilizando técnicas probadas que introducen muy pocos errores en el proceso de fabricación.
Ampliar su dispositivo e integrarlo con dispositivos electrónicos del mundo real, como cámaras o sistemas de telecomunicaciones, será un objetivo importante del trabajo futuro, afirma Bandyopadhyay. Además, los investigadores quieren explorar algoritmos que puedan aprovechar las ventajas de la óptica para entrenar sistemas más rápido y con mejor eficiencia energética.
Esta investigación fue financiada, en parte, por la Fundación Nacional de Ciencias de EE. UU., la Oficina de Investigación Científica de la Fuerza Aérea de EE. UU. y NTT Research.