Los modelos de aprendizaje profundo se utilizan en muchos campos, desde el diagnóstico sanitario hasta la previsión financiera. Sin embargo, estos modelos requieren un uso tan intensivo de recursos computacionales que requieren el uso de potentes servidores basados en la nube.
Esta dependencia de la computación en la nube plantea riesgos de seguridad importantes, en particular en áreas como la atención médica, donde los hospitales pueden dudar en utilizar herramientas de IA para analizar datos confidenciales de los pacientes debido a preocupaciones sobre la privacidad.
Para abordar este problema urgente, los investigadores del MIT han desarrollado un protocolo de seguridad que aprovecha las propiedades cuánticas de la luz para garantizar que los datos enviados hacia y desde un servidor en la nube permanezcan seguros durante los cálculos de aprendizaje profundo.
Al codificar datos en la luz láser utilizada en los sistemas de comunicaciones de fibra óptica, el protocolo explota los principios fundamentales de la mecánica cuántica, haciendo imposible que los atacantes copien o intercepten la información sin ser detectados.
Además, la técnica garantiza la seguridad sin comprometer la precisión de los modelos de aprendizaje profundo. En las pruebas, el investigador demostró que su protocolo podía mantener una precisión del 96 por ciento al tiempo que garantizaba medidas de seguridad sólidas.
“Los modelos de aprendizaje profundo como GPT-4 tienen capacidades sin precedentes, pero requieren recursos computacionales masivos. Nuestro protocolo permite a los usuarios aprovechar estos potentes modelos sin comprometer la privacidad de sus datos ni la naturaleza patentada de los propios modelos”, afirma Kfir Sulimany, un posdoctorado del MIT en el Laboratorio de Investigación en Electrónica (RLE) y autor principal de un artículo sobre este protocolo de seguridad.
Sulimany está acompañado en el artículo por Sri Krishna Vadlamani, un posdoctorado del MIT; Ryan Hamerly, un ex posdoctorado que ahora trabaja en NTT Research, Inc.; Prahlad Iyengar, un estudiante de posgrado en ingeniería eléctrica y ciencias de la computación (EECS); y el autor principal Dirk Englund, profesor de EECS, investigador principal del Grupo de Fotónica Cuántica e Inteligencia Artificial y de RLE. La investigación se presentó recientemente en la Conferencia Anual sobre Criptografía Cuántica.
Una vía de doble sentido para la seguridad en el aprendizaje profundo
El escenario de computación basado en la nube en el que se centraron los investigadores involucra dos partes: un cliente que tiene datos confidenciales, como imágenes médicas, y un servidor central que controla un modelo de aprendizaje profundo.
El cliente quiere utilizar el modelo de aprendizaje profundo para hacer una predicción, por ejemplo, si un paciente tiene cáncer basándose en imágenes médicas, sin revelar información sobre el paciente.
En este escenario, se deben enviar datos confidenciales para generar una predicción. Sin embargo, durante el proceso, los datos del paciente deben permanecer seguros.
Además, el servidor no quiere revelar ninguna parte del modelo propietario que una empresa como OpenAI invirtió años y millones de dólares en construir.
“Ambas partes tienen algo que quieren ocultar”, añade Vadlamani.
En la computación digital, un actor malintencionado podría copiar fácilmente los datos enviados desde el servidor o el cliente.
Por otra parte, la información cuántica no se puede copiar a la perfección. Los investigadores aprovechan esta propiedad, conocida como principio de no clonación, en su protocolo de seguridad.
Para el protocolo de los investigadores, el servidor codifica los pesos de una red neuronal profunda en un campo óptico utilizando luz láser.
Una red neuronal es un modelo de aprendizaje profundo que consta de capas de nodos interconectados, o neuronas, que realizan cálculos sobre los datos. Los pesos son los componentes del modelo que realizan las operaciones matemáticas en cada entrada, una capa a la vez. La salida de una capa se introduce en la siguiente capa hasta que la capa final genera una predicción.
El servidor transmite los pesos de la red al cliente, que realiza operaciones para obtener un resultado en función de sus datos privados. Los datos permanecen protegidos del servidor.
Al mismo tiempo, el protocolo de seguridad permite al cliente medir solo un resultado y evita que copie los pesos debido a la naturaleza cuántica de la luz.
Una vez que el cliente introduce el primer resultado en la siguiente capa, el protocolo está diseñado para cancelar la primera capa para que el cliente no pueda aprender nada más sobre el modelo.
“En lugar de medir toda la luz entrante del servidor, el cliente solo mide la luz que es necesaria para ejecutar la red neuronal profunda y envía el resultado a la siguiente capa. Luego, el cliente envía la luz residual de regreso al servidor para realizar controles de seguridad”, explica Sulimany.
Debido al teorema de no clonación, el cliente inevitablemente aplica pequeños errores al modelo mientras mide su resultado. Cuando el servidor recibe la luz residual del cliente, puede medir estos errores para determinar si se filtró alguna información. Es importante destacar que se ha demostrado que esta luz residual no revela los datos del cliente.
Un protocolo práctico
Los equipos de telecomunicaciones modernos suelen depender de fibras ópticas para transferir información debido a la necesidad de soportar un ancho de banda masivo a largas distancias. Como estos equipos ya incorporan láseres ópticos, los investigadores pueden codificar datos en luz para su protocolo de seguridad sin ningún hardware especial.
Cuando probaron su enfoque, los investigadores descubrieron que podía garantizar la seguridad del servidor y del cliente y al mismo tiempo permitir que la red neuronal profunda alcanzara una precisión del 96 por ciento.
La pequeña cantidad de información sobre el modelo que se filtra cuando el cliente realiza operaciones equivale a menos del 10 por ciento de lo que un adversario necesitaría para recuperar cualquier información oculta. En la dirección opuesta, un servidor malicioso solo podría obtener alrededor del 1 por ciento de la información que necesitaría para robar los datos del cliente.
“Puedes tener la garantía de que es seguro en ambos sentidos: del cliente al servidor y del servidor al cliente”, afirma Sulimany.
“Hace unos años, cuando desarrollamos nuestra demostración de inferencia de aprendizaje automático distribuido entre el campus principal del MIT y el Laboratorio Lincoln del MIT, se me ocurrió que podíamos hacer algo completamente nuevo para proporcionar seguridad en la capa física, basándonos en años de trabajo de criptografía cuántica que también se había demostrado en ese banco de pruebas”, dice Englund. “Sin embargo, hubo muchos desafíos teóricos profundos que se tuvieron que superar para ver si esta perspectiva de aprendizaje automático distribuido con privacidad garantizada podía hacerse realidad. Esto no fue posible hasta que Kfir se unió a nuestro equipo, ya que Kfir comprendió de manera única los componentes experimentales y teóricos para desarrollar el marco unificado que sustenta este trabajo”.
En el futuro, los investigadores quieren estudiar cómo se podría aplicar este protocolo a una técnica llamada aprendizaje federado, en la que varias partes utilizan sus datos para entrenar un modelo central de aprendizaje profundo. También se podría utilizar en operaciones cuánticas, en lugar de las operaciones clásicas que estudiaron para este trabajo, lo que podría proporcionar ventajas tanto en precisión como en seguridad.
“Este trabajo combina de forma inteligente e intrigante técnicas provenientes de campos que normalmente no se encuentran, en particular el aprendizaje profundo y la distribución de claves cuánticas. Al utilizar métodos de este último, agrega una capa de seguridad al primero, al tiempo que permite lo que parece ser una implementación realista. Esto puede ser interesante para preservar la privacidad en arquitecturas distribuidas. Estoy deseando ver cómo se comporta el protocolo bajo imperfecciones experimentales y su implementación práctica”, afirma Eleni Diamanti, directora de investigación del CNRS en la Universidad de la Sorbona en París, que no participó en este trabajo.
Este trabajo fue apoyado, en parte, por el Consejo Israelí de Educación Superior y el Programa de Liderazgo STEM de Zuckerman.