Nuestra primera publicación de la serie presentó el concepto de aprendizaje federado: un enfoque para entrenar modelos de IA con datos distribuidos compartiendo actualizaciones del modelo en lugar de datos de entrenamiento. A primera vista, el aprendizaje federado parece encajar perfectamente con la privacidad, ya que evita por completo compartir datos. Sin embargo, trabajos recientes sobre ataques a la privacidad han demostrado que es posible extraer una cantidad sorprendente de información sobre los datos de entrenamiento, incluso cuando se utiliza el aprendizaje federado. Estas técnicas se dividen en dos categorías principales: ataques dirigidos a las actualizaciones del modelo compartidas durante el entrenamiento y ataques que extraen datos del modelo de IA una vez finalizado el entrenamiento. Esta publicación resume los ataques conocidos y proporciona ejemplos recientes de la literatura de investigación. El objetivo principal de los Desafíos del Premio PET del Reino Unido y EE. UU. fue desarrollar defensas prácticas que aumenten los marcos de aprendizaje federados para prevenir estos ataques; Las publicaciones futuras de esta serie describirán estas defensas en detalle. Ataques a las actualizaciones de modelos En el aprendizaje federado, cada participante envía actualizaciones de modelos en lugar de datos de capacitación sin procesar durante el proceso de capacitación. En nuestro ejemplo de la última publicación, en el que un consorcio de bancos quiere entrenar un modelo de IA para detectar transacciones fraudulentas, las actualizaciones del modelo pueden consistir en actualizaciones de los parámetros del modelo (los componentes del modelo que controlan cómo se hacen sus predicciones). en lugar de datos brutos sobre transacciones financieras. A primera vista, puede parecer que las actualizaciones del modelo no transmiten información sobre transacciones financieras. Figura 1: Datos extraídos de las actualizaciones del modelo por el ataque desarrollado por Hitaj et al. La fila superior contiene datos de entrenamiento originales; la fila inferior contiene datos extraídos de las actualizaciones del modelo. Crédito: Hitaj et al. Crédito: NIST Sin embargo, investigaciones recientes han demostrado que a menudo es posible extraer datos de entrenamiento sin procesar de las actualizaciones del modelo. Un ejemplo temprano provino del trabajo de Hitaj et al., quienes demostraron que era posible entrenar un segundo modelo de IA para reconstruir datos de entrenamiento basados ​​en actualizaciones del modelo. Un ejemplo de sus resultados aparece en la Figura 1: la fila superior contiene datos de entrenamiento utilizados para entrenar un modelo que reconoce dígitos escritos a mano, y la fila inferior contiene datos extraídos de las actualizaciones del modelo mediante su ataque. Figura 2: Datos extraídos de las actualizaciones del modelo mediante el ataque desarrollado por Zhu et al. Cada fila corresponde a un conjunto de datos de entrenamiento y un modelo de IA diferentes. Cada columna muestra datos extraídos de las actualizaciones del modelo durante el entrenamiento; las columnas con valores más altos para «Iters» representan datos extraídos más adelante en el proceso de capacitación. Crédito: Zhu et al. Crédito: NIST Trabajo posterior de Zhu et al. sugiere que este tipo de ataque es posible para muchos tipos diferentes de modelos y sus correspondientes actualizaciones de modelo. La Figura 2 contiene ejemplos de cuatro modelos de IA diferentes, que muestran que el ataque puede extraer aproximaciones casi perfectas de los datos de entrenamiento originales a partir de las actualizaciones del modelo. ¡Como arreglarlo! Los ataques a las actualizaciones de modelos sugieren que el aprendizaje federado por sí solo no es una solución completa para proteger la privacidad durante el proceso de formación. Muchas defensas contra este tipo de ataques se centran en proteger las actualizaciones del modelo durante el entrenamiento, de modo que la organización que agrega las actualizaciones del modelo no tenga acceso a las actualizaciones individuales. A menudo se dice que las tecnologías de mejora de la privacidad que protegen las actualizaciones del modelo durante el entrenamiento brindan privacidad de entrada: evitan que el adversario aprenda algo sobre las entradas (es decir, las actualizaciones del modelo) del sistema. Muchos enfoques para la privacidad de las entradas, incluidos los utilizados en los concursos de premios PET del Reino Unido y Estados Unidos, se basan en aplicaciones creativas de la criptografía. Destacaremos varias de estas soluciones a lo largo de esta serie de blogs. Ataques a modelos entrenados La segunda clase principal de ataques tiene como objetivo el modelo de IA entrenado una vez finalizado el entrenamiento. El modelo es el resultado del proceso de entrenamiento y, a menudo, consta de parámetros del modelo que controlan las predicciones del modelo. Esta clase de ataques intenta reconstruir los datos de entrenamiento a partir de los parámetros del modelo, sin ninguna información adicional disponible durante el proceso de entrenamiento. Esto puede parecer un desafío más difícil, pero investigaciones recientes han demostrado que tales ataques son factibles. Figura 3: Datos de entrenamiento extraídos de un modelo de IA entrenado utilizando el ataque desarrollado por Haim et al. La parte superior de la figura (a) muestra los datos extraídos; la parte inferior (b) muestra las imágenes correspondientes de los datos de entrenamiento originales. Crédito: Haim et al. Crédito: Los modelos de IA del NIST basados ​​en el aprendizaje profundo son particularmente susceptibles a la extracción de datos de entrenamiento de modelos entrenados porque las redes neuronales profundas parecen memorizar sus datos de entrenamiento en muchos casos. Los investigadores aún no están seguros de por qué ocurre esta memorización o si es estrictamente necesario entrenar modelos de IA eficaces. Sin embargo, desde una perspectiva de privacidad, este tipo de memorización es un problema importante. Un trabajo reciente de Haim et al. demostró la viabilidad de extraer datos de entrenamiento de un modelo de IA entrenado para reconocer objetos en imágenes; en la Figura 3 aparece un ejemplo. Figura 4: Datos de entrenamiento extraídos de un modelo de difusión utilizando el ataque desarrollado por Carlini et al. Los modelos de difusión están diseñados para generar imágenes; un ejemplo popular es DALL-E de OpenAI. Crédito: Carlini et al. Crédito: NIST Figura 5: Datos de entrenamiento extraídos de un modelo de lenguaje grande (LLM) utilizando el ataque desarrollado por Carlini et al. Este ejemplo es de GPT-2, el predecesor de ChatGPT. Crédito: Carlini et al. Crédito: NIST El desafío de memorizar datos de entrenamiento parece ser aún peor para modelos más grandes y complejos, incluidos los populares modelos de lenguaje grande (LLM) como ChatGPT y modelos de generación de imágenes como DALL-E. La Figura 4 muestra un ejemplo de extracción de datos de entrenamiento de un modelo de generación de imágenes utilizando un ataque desarrollado por Carlini et al.; La Figura 5 muestra un ejemplo de extracción de datos de entrenamiento de un modelo de lenguaje grande mediante un ataque de Carlini et al. ¡Como arreglarlo! Los ataques a modelos entrenados muestran que los modelos entrenados son vulnerables, incluso cuando el proceso de entrenamiento está completamente protegido. Las defensas contra este tipo de ataques se centran en controlar el contenido de información del propio modelo entrenado, para evitar que revele demasiado sobre los datos de entrenamiento. A menudo se dice que las tecnologías que mejoran la privacidad que protegen el modelo entrenado brindan privacidad de salida: evitan que el adversario aprenda algo sobre los datos de entrenamiento a partir de las salidas del sistema (es decir, el modelo entrenado). El enfoque más completo para garantizar la privacidad de la salida se llama privacidad diferencial y es el tema de una serie de blogs anteriores del NIST y de un nuevo borrador de directrices. Muchas de las soluciones desarrolladas en los desafíos del premio PET del Reino Unido y EE. UU. aprovechan la privacidad diferencial para defenderse de ataques al modelo entrenado, que destacaremos más adelante en esta serie de blogs. Como siempre, esperamos saber de usted con cualquier pregunta y comentario. Por favor contáctenos en mascotas [at] cdei.gov.uk (mascotas[at]cdei[dot]gobierno[dot]Reino Unido) o privacidad [at] nist.gov (privacyeng[at]nist[dot]gobierno). Próximamente En nuestra próxima publicación, presentaremos uno de los temas clave para el aprendizaje federado: la distribución de los datos entre las entidades participantes.

Source link