Fuente: www.nist.gov – Autor: Joseph Near, David Darais, Dave Buckley, Mark Durkee. Esta publicación es parte de una serie sobre aprendizaje federado que presenta la privacidad. La serie es una colaboración entre NIST y el Centro de Ética e Innovación del Gobierno del Gobierno del Reino Unido. Obtenga más información y lea todas las publicaciones publicadas hasta la fecha en el espacio de colaboración de ingeniería de privacidad de NIST o el blog CDEI. Nuestra primera publicación de la serie introdujo el concepto de aprendizaje federado, un enfoque para capacitar a los modelos de IA en datos distribuidos compartiendo actualizaciones de modelos en lugar de datos de capacitación. A primera vista, el aprendizaje federado parece ser perfecto para la privacidad, ya que evita completamente compartir datos. Sin embargo, el trabajo reciente sobre ataques de privacidad ha demostrado que es posible extraer una sorprendente cantidad de información sobre los datos de capacitación, incluso cuando se usa el aprendizaje federado. Estas técnicas se dividen en dos categorías principales: ataques que se dirigen a las actualizaciones del modelo compartidas durante el entrenamiento y ataques que extraen datos del modelo de IA después de que haya terminado el entrenamiento. Esta publicación resume los ataques conocidos y proporciona ejemplos recientes de la literatura de investigación. El objetivo principal de los desafíos del premio de las mascotas del Reino Unido y el Reino Unido era desarrollar defensas prácticas que aumenten los marcos de aprendizaje federados para evitar estos ataques; Las publicaciones futuras de esta serie describirán estas defensas en detalle. Ataques a las actualizaciones del modelo en el aprendizaje federado, cada participante presenta actualizaciones de modelo en lugar de datos de capacitación sin procesar durante el proceso de capacitación. En nuestro ejemplo de la última publicación, en la que un consorcio de bancos quiere capacitar a un modelo de IA para detectar transacciones fraudulentas, las actualizaciones del modelo pueden consistir en actualizaciones a los parámetros del modelo (los componentes del modelo que controlan cómo se realizan sus predicciones) en lugar de datos sin procesar sobre transacciones financieras. A primera vista, las actualizaciones del modelo pueden parecer que no transmiten información sobre transacciones financieras. Figura 1: Datos extraídos de las actualizaciones del modelo por el ataque desarrollado por Hitaj et al. La fila superior contiene datos de entrenamiento originales; La fila inferior contiene datos extraídos de las actualizaciones del modelo. Crédito: Hitaj et al. Crédito: Sin embargo, NIST, investigaciones recientes han demostrado que a menudo es posible extraer datos de capacitación sin procesar de las actualizaciones del modelo. Un ejemplo temprano provino del trabajo de Hitaj et al., Que demostraron que era posible entrenar un segundo modelo de IA para reconstruir los datos de entrenamiento basados en actualizaciones del modelo. Un ejemplo de sus resultados aparece en la Figura 1: la fila superior contiene datos de entrenamiento utilizados para entrenar un modelo que reconoce dígitos escritos a mano, y la fila inferior contiene datos extraídos de las actualizaciones del modelo por su ataque. Figura 2: Datos extraídos de las actualizaciones del modelo por el ataque desarrollado por Zhu et al. Cada fila corresponde a un conjunto de datos de entrenamiento y un modelo de IA. Cada columna muestra datos extraídos de las actualizaciones del modelo durante el entrenamiento; Las columnas con valores más altos para «ITER» representan datos extraídos más adelante en el proceso de capacitación. Crédito: Zhu et al. Crédito: NIST trabaja más tarde de Zhu et al. sugiere que este tipo de ataque es posible para muchos tipos diferentes de modelos y sus actualizaciones de modelos correspondientes. La Figura 2 contiene ejemplos de cuatro modelos de IA diferentes, lo que demuestra que el ataque puede extraer aproximaciones casi perfectas de los datos de entrenamiento originales de las actualizaciones del modelo. ¡Cómo solucionarlo! Los ataques a las actualizaciones del modelo sugieren que el aprendizaje federado solo no es una solución completa para proteger la privacidad durante el proceso de capacitación. Muchas defensas contra tales ataques se centran en proteger las actualizaciones del modelo durante la capacitación, de modo que la organización que agregue las actualizaciones del modelo no tiene acceso a actualizaciones individuales. A menudo se dice que las tecnologías de mejora de la privacidad que protegen las actualizaciones del modelo durante la capacitación proporcionan privacidad de entrada: evitan que el adversario aprenda cualquier cosa sobre las entradas (es decir, las actualizaciones del modelo) al sistema. Muchos enfoques para la privacidad de insumos, incluidos los enfoques utilizados en los desafíos del premio de las mascotas del Reino Unido, los Estados Unidos, se basan en aplicaciones creativas de la criptografía. Destacará varias de estas soluciones a lo largo de esta serie de blogs. Ataques contra modelos entrenados La segunda clase importante de ataques apunta al modelo de IA entrenado después de que el entrenamiento haya terminado. El modelo es el resultado del proceso de capacitación, y a menudo consiste en parámetros del modelo que controlan las predicciones del modelo. Esta clase de ataques intenta reconstruir los datos de entrenamiento de los parámetros del modelo, sin ninguna de la información adicional disponible durante el proceso de capacitación. Esto puede sonar como un desafío más difícil, pero investigaciones recientes han demostrado que tales ataques son factibles. Figura 3: Datos de entrenamiento extraídos de un modelo de IA entrenado utilizando el ataque desarrollado por Haim et al. La parte superior de la figura (a) muestra datos extraídos; La parte inferior (b) muestra las imágenes correspondientes de los datos de entrenamiento originales. Crédito: Haim et al. Crédito: los modelos NIST AI basados en el aprendizaje profundo son particularmente susceptibles a la extracción de datos de capacitación de modelos capacitados porque las redes neuronales profundas parecen memorizar sus datos de capacitación en muchos casos. Los investigadores aún no están seguros de por qué ocurre esta memorización, o si es estrictamente necesario capacitar a modelos de IA efectivos. Sin embargo, desde una perspectiva de privacidad, este tipo de memorización es un problema importante. Trabajo reciente de Haim et al. demostró la viabilidad de extraer datos de entrenamiento de un modelo de IA capacitado para reconocer objetos en las imágenes; Aparece un ejemplo en la Figura 3. Figura 4: Datos de entrenamiento extraídos de un modelo de difusión utilizando el ataque desarrollado por Carlini et al. Los modelos de difusión están diseñados para generar imágenes; Un ejemplo popular es el Dall-E de Openai. Crédito: Carlini et al. Crédito: NIST Figura 5: Datos de entrenamiento extraídos de un modelo de lenguaje grande (LLM) utilizando el ataque desarrollado por Carlini et al. Este ejemplo es de GPT-2, el predecesor de ChatGPT. Crédito: Carlini et al. Crédito: NIST El desafío de los datos de capacitación memorizados parece ser aún peor para modelos más grandes y más complejos, incluidos los modelos de lenguaje grandes (LLM) populares (LLM) como los modelos de generación de imágenes y ChatGPT como Dall-E. La Figura 4 muestra un ejemplo de extracción de datos de entrenamiento de un modelo de generación de imágenes utilizando un ataque desarrollado por Carlini et al.; La Figura 5 muestra un ejemplo de extracción de datos de entrenamiento de un modelo de lenguaje grande utilizando un ataque de Carlini et al. ¡Cómo solucionarlo! Los ataques a modelos entrenados muestran que los modelos entrenados son vulnerables, incluso cuando el proceso de entrenamiento está completamente protegido. Las defensas contra tales ataques se centran en controlar el contenido de información del modelo capacitado en sí, para evitar que revele demasiado sobre los datos de entrenamiento. A menudo se dice que las tecnologías de mejora de la privacidad que protegen el modelo capacitado proporcionan privacidad del resultado: evitan que el adversario aprenda cualquier cosa sobre los datos de capacitación de las salidas del sistema (es decir, el modelo capacitado). El enfoque más completo para garantizar la privacidad del resultado se llama privacidad diferencial, y es el tema de una serie de blogs NIST anterior y nuevos borradores. Muchas de las soluciones desarrolladas en los desafíos del premio de las mascotas del Reino Unido, el premio de las mascotas, aprovechan la privacidad diferencial para defenderse de los ataques contra el modelo entrenado, que destacaremos más adelante en esta serie de blogs. Como siempre, esperamos saber de usted con cualquier pregunta y retroalimentación. Por favor contáctenos en las mascotas [at] cdei.gov.uk (mascotas[at]CDEI[dot]gobierno[dot]Reino Unido) o privacidad [at] nist.gov (privacyeng[at]nist[dot]Gobierno). A continuación en nuestra próxima publicación, presentaremos uno de los temas clave para el aprendizaje federado: la distribución de los datos entre las entidades participantes. URL de publicación original: https://www.nist.gov/blogs/cybersecurity-insights/privacy-attacks-federated-learning