A medida que ingresamos en una nueva era en la que las tecnologías impulsadas por la inteligencia artificial pueden crear y manipular imágenes con una precisión que desdibuja la línea entre la realidad y la fabricación, el espectro del mal uso se cierne sobre nosotros. Recientemente, modelos generativos avanzados como DALL-E y Midjourney, celebrados por su impresionante precisión e interfaces fáciles de usar, han hecho que la producción de imágenes hiperrealistas sea relativamente sencilla. Con las barreras de entrada reducidas, incluso los usuarios sin experiencia pueden generar y manipular imágenes de alta calidad a partir de descripciones de texto simples, que van desde alteraciones de imágenes inocentes hasta cambios maliciosos. Las técnicas como la marca de agua plantean una solución prometedora, pero el uso indebido requiere una medida preventiva (en lugar de solo post hoc).
En la búsqueda de crear una nueva medida de este tipo, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT desarrollaron «PhotoGuard», una técnica que utiliza perturbaciones (alteraciones minúsculas en valores de píxeles invisibles para el ojo humano pero detectables por modelos informáticos) que interrumpir efectivamente la capacidad del modelo para manipular la imagen.
PhotoGuard utiliza dos métodos de «ataque» diferentes para generar estas perturbaciones. El ataque de «codificador» más sencillo apunta a la representación latente de la imagen en el modelo de IA, lo que hace que el modelo perciba la imagen como una entidad aleatoria. La «difusión» más sofisticada define una imagen objetivo y optimiza las perturbaciones para hacer que la imagen final se asemeje lo más posible al objetivo.
“Considere la posibilidad de propagación fraudulenta de eventos catastróficos falsos, como una explosión en un hito importante. Este engaño puede manipular las tendencias del mercado y el sentimiento público, pero los riesgos no se limitan a la esfera pública. Las imágenes personales pueden alterarse de manera inapropiada y usarse para chantajear, lo que resulta en implicaciones financieras significativas cuando se ejecutan a gran escala”, dice Hadi Salman, estudiante graduado en ingeniería eléctrica e informática (EECS) del MIT, afiliado de MIT CSAIL y autor principal. de un nuevo artículo sobre PhotoGuard.
“En escenarios más extremos, estos modelos podrían simular voces e imágenes para escenificar crímenes falsos, infligiendo angustia psicológica y pérdidas financieras. La naturaleza rápida de estas acciones agrava el problema. Incluso cuando finalmente se descubre el engaño, el daño, ya sea reputacional, emocional o financiero, a menudo ya ha ocurrido. Esta es una realidad para las víctimas en todos los niveles, desde las personas acosadas en la escuela hasta la manipulación en toda la sociedad”.
PhotoGuard en la práctica
Los modelos de IA ven una imagen de manera diferente a como lo hacen los humanos. Ve una imagen como un conjunto complejo de puntos de datos matemáticos que describen el color y la posición de cada píxel: esta es la representación latente de la imagen. El ataque del codificador introduce ajustes menores en esta representación matemática, lo que hace que el modelo de IA perciba la imagen como una entidad aleatoria. Como resultado, cualquier intento de manipular la imagen usando el modelo se vuelve casi imposible. Los cambios introducidos son tan pequeños que son invisibles para el ojo humano, preservando así la integridad visual de la imagen y asegurando su protección.
El segundo y decididamente más intrincado ataque de “difusión” apunta estratégicamente a todo el modelo de difusión de principio a fin. Esto implica determinar una imagen objetivo deseada y luego iniciar un proceso de optimización con la intención de alinear estrechamente la imagen generada con este objetivo preseleccionado.
Al implementarlo, el equipo creó perturbaciones dentro del espacio de entrada de la imagen original. Estas perturbaciones se utilizan luego durante la etapa de inferencia y se aplican a las imágenes, lo que ofrece una sólida defensa contra la manipulación no autorizada.
“El progreso en IA que estamos presenciando es realmente impresionante, pero permite usos beneficiosos y maliciosos de la IA por igual”, dice el profesor de EECS del MIT e investigador principal de CSAIL, Aleksander Madry, quien también es autor del artículo. “Por lo tanto, es urgente que trabajemos para identificar y mitigar estos últimos. Veo PhotoGuard como nuestra pequeña contribución a ese importante esfuerzo”.
El ataque de difusión es más intensivo desde el punto de vista computacional que su hermano más simple y requiere una memoria de GPU significativa. El equipo dice que aproximar el proceso de difusión con menos pasos mitiga el problema, lo que hace que la técnica sea más práctica.
Para ilustrar mejor el ataque, considere un proyecto de arte, por ejemplo. La imagen original es un dibujo y la imagen de destino es otro dibujo que es completamente diferente. El ataque de difusión es como hacer pequeños cambios invisibles en el primer dibujo para que, para un modelo de IA, comience a parecerse al segundo dibujo. Sin embargo, para el ojo humano, el dibujo original permanece sin cambios.
Al hacer esto, cualquier modelo de IA que intente modificar la imagen original ahora hará cambios sin darse cuenta como si tratara con la imagen de destino, protegiendo así la imagen original de la manipulación intencionada. El resultado es una imagen que permanece visualmente inalterada para los observadores humanos, pero protege contra ediciones no autorizadas por parte de modelos de IA.
En cuanto a un ejemplo real con PhotoGuard, considere una imagen con varias caras. Puede enmascarar las caras que no desea modificar y luego preguntar «dos hombres asistiendo a una boda». Tras el envío, el sistema ajustará la imagen en consecuencia, creando una representación plausible de dos hombres participando en una ceremonia de boda.
Ahora, considere proteger la imagen para que no sea editada; agregar perturbaciones a la imagen antes de cargarla puede inmunizarla contra modificaciones. En este caso, el resultado final carecerá de realismo en comparación con la imagen original no inmunizada.
Todas las manos en el mazo
Los aliados clave en la lucha contra la manipulación de imágenes son los creadores de los modelos de edición de imágenes, dice el equipo. Para que PhotoGuard sea eficaz, es necesaria una respuesta integrada de todas las partes interesadas. “Los legisladores deberían considerar implementar regulaciones que obliguen a las empresas a proteger los datos de los usuarios de tales manipulaciones. Los desarrolladores de estos modelos de IA podrían diseñar API que agreguen automáticamente perturbaciones a las imágenes de los usuarios, brindando una capa adicional de protección contra ediciones no autorizadas”, dice Salman.
A pesar de la promesa de PhotoGuard, no es una panacea. Una vez que una imagen está en línea, las personas con malas intenciones podrían intentar aplicar ingeniería inversa a las medidas de protección aplicando ruido, recortando o girando la imagen. Sin embargo, hay mucho trabajo previo de la literatura de ejemplos contradictorios que se puede utilizar aquí para implementar perturbaciones robustas que resisten las manipulaciones de imágenes comunes.
“Un enfoque colaborativo que involucre a desarrolladores de modelos, plataformas de redes sociales y legisladores presenta una sólida defensa contra la manipulación no autorizada de imágenes. Trabajar en este tema apremiante es de suma importancia hoy en día”, dice Salman. “Y aunque me complace contribuir a esta solución, se necesita mucho trabajo para que esta protección sea práctica. Las empresas que desarrollan estos modelos deben invertir en diseñar inmunizaciones sólidas contra las posibles amenazas que plantean estas herramientas de IA. A medida que avanzamos en esta nueva era de modelos generativos, luchemos por el potencial y la protección en igual medida”.
“La perspectiva de usar ataques en el aprendizaje automático para protegernos de los usos abusivos de esta tecnología es muy convincente”, dice Florian Tramèr, profesor asistente en ETH Zürich. “El documento tiene una buena idea de que los desarrolladores de modelos de IA generativa tienen fuertes incentivos para brindar tales protecciones de inmunización a sus usuarios, lo que incluso podría ser un requisito legal en el futuro. Sin embargo, diseñar protecciones de imágenes que resistan eficazmente los intentos de elusión es un problema desafiante: una vez que la empresa de IA generativa se compromete con un mecanismo de inmunización y las personas comienzan a aplicarlo a sus imágenes en línea, debemos asegurarnos de que esta protección funcione contra adversarios motivados que podrían incluso utilizar mejores modelos generativos de IA desarrollados en un futuro próximo. Diseñar protecciones tan sólidas es un problema abierto, y este documento presenta un caso convincente de que las empresas de IA generativa deberían trabajar para resolverlo”.
Salman escribió el artículo junto con los autores principales Alaa Khaddaj y Guillaume Leclerc MS ’18, así como Andrew Ilyas ’18, MEng ’18; los tres son estudiantes graduados de EECS y afiliados de MIT CSAIL. El trabajo del equipo se realizó parcialmente en el clúster de computación MIT Supercloud, con el apoyo de las subvenciones de la Fundación Nacional de Ciencias de EE. UU. y Open Philanthropy, y se basó en el trabajo respaldado por la Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU. Fue presentado en la Conferencia Internacional sobre Aprendizaje Automático este mes de julio.