Esta publicación es parte de una serie sobre aprendizaje federado que presenta la privacidad. La serie es una colaboración entre NIST y la Unidad de Adopción de Tecnología Responsable del Gobierno del Reino Unido (RTA), anteriormente conocida como Centro de Ética e Innovación de Datos. Obtenga más información y lea todas las publicaciones publicadas hasta la fecha en el espacio de colaboración de ingeniería de privacidad de NIST o el blog de RTA. Las últimas dos publicaciones de nuestra serie cubrieron técnicas para la privacidad de entrada en el aprendizaje federado que preservan la privacidad en el contexto de datos divididos horizontal y verticalmente. Para construir un sistema de aprendizaje federado de preservación de la privacidad, estas técnicas deben combinarse con un enfoque para la privacidad de la salida, que limita cuánto se puede aprender sobre las personas en los datos de capacitación después de que el modelo haya sido capacitado. Como se describe en la segunda parte de nuestra publicación sobre ataques de privacidad en el aprendizaje federado, los modelos capacitados pueden filtrar información significativa sobre sus datos de entrenamiento de entrenamiento, incluido imágenes completas completas. privacidad. La privacidad diferencial es un marco de privacidad formal que se puede aplicar en muchos contextos; Vea la serie de blogs de NIST sobre este tema para obtener más detalles, y especialmente la publicación sobre aprendizaje automático diferencialmente privado. Las técnicas para el aprendizaje automático diferencialmente privado agregan ruido aleatorio al modelo durante el entrenamiento para defenderse de los ataques de privacidad. El ruido aleatorio evita que el modelo memorice los detalles de los datos de capacitación, asegurando que los datos de entrenamiento no puedan extraerse más tarde del modelo. Por ejemplo, Carlini et al. demostró que los datos de capacitación confidenciales como los números de Seguro Social podrían extraerse de modelos de idiomas capacitados, y que la capacitación con privacidad diferencial evitó con éxito este ataque. La privacidad diferencial para la capacitación centralizada de aprendizaje federado que presenta la privacidad, donde los datos de capacitación se recopilan en un servidor central, el servidor puede realizar la capacitación y agregar ruido para la privacidad diferencial de todos modos. En el aprendizaje federado de preservación de la privacidad, puede ser más difícil determinar quién debe agregar el ruido y cómo deben agregarlo. Fedavg con privacidad diferencial, para el aprendizaje federado de preservación de la privacidad en datos divididos horizontalmente. Las modificaciones al enfoque FedAVG se destacan en rojo. Estas modificaciones agregan ruido aleatorio a cada actualización, de modo que las muestras de ruido agregadas sean suficientes para garantizar la privacidad diferencial para el modelo global capacitado. Crédito: NIST para el aprendizaje federado de preservación de la privacidad en datos divididos horizontalmente, Kairouz et al. Presente una variante del enfoque FedAVG descrito en nuestro cuarto puesto. En este enfoque, visualizado, cada participante realiza capacitación local, luego agrega una pequeña cantidad de ruido aleatorio a su actualización de modelo antes de agregarla con las actualizaciones de otros participantes. Si cada participante agrega correctamente el ruido a su actualización, entonces el nuevo modelo agregado contendrá un ruido suficiente para garantizar la privacidad diferencial. Esta técnica proporciona privacidad de salida, incluso en el caso de un agregador malicioso. El equipo de Scarlet Pets utilizó una variante de este enfoque en su solución ganadora para los desafíos del premio de las mascotas del Reino Unido y el Reino Unido. En el caso de los datos divididos verticalmente, garantizar la privacidad diferencial puede ser complicada. El ruido requerido para la privacidad diferencial no se puede agregar antes de la alineación de la entidad, ya que evitará que los atributos de datos coincidan correctamente. En cambio, el ruido debe agregarse después de la alineación de la entidad, ya sea por un participante de confianza o mediante técnicas como el cifrado homomórfico o el cálculo multipartidista. Modelos altamente precisos diferencialmente privados El ruido aleatorio requerido para la privacidad diferencial puede afectar la precisión del modelo. Más ruido generalmente conduce a una mejor privacidad, pero peor precisión. Esta compensación entre precisión y privacidad a menudo se llama la compensación de la utilización de la privacidad. Para algunos tipos de modelos de aprendizaje automático, incluidos modelos de regresión lineal, modelos de regresión logística y árboles de decisión, esta compensación es fácil de navegar; el enfoque descrito anteriormente a menudo funciona para capacitar modelos altamente precisos con privacidad diferencial. En los desafíos del premio de Pets del Reino Unido-US, tanto los equipos de PPMLHUSKIES como Pets Scarlet utilizaron técnicas similares para capacitar a modelos altamente precisos con privacidad diferencial. Para las redes neuronales y el aprendizaje profundo, el tamaño del modelo en sí hace que la capacitación con privacidad diferencial sea más difícil: los modelos más grandes requieren más ruido para lograr la privacidad, lo que puede reducir significativamente la precisión. Si bien este tipo de modelos no formaban parte de los desafíos del premio de las mascotas del Reino Unido, los Estados Unidos, son cada vez más importantes en todas las aplicaciones de IA generativa, incluidos los modelos de idiomas grandes. Los resultados recientes han demostrado que los modelos previamente entrenados en datos disponibles públicamente (sin privacidad diferencial) y luego ajustados con privacidad diferencial pueden lograr una precisión mucho mayor que los modelos capacitados solo con privacidad diferencial. Por ejemplo, Li et al. Demuestre que los modelos de lenguaje previamente capacitados pueden ajustarse con privacidad diferencial y lograr casi la misma precisión que los modelos entrenados sin privacidad diferencial. Estos resultados sugieren que para los dominios donde los datos disponibles públicamente pueden usarse para la capacitación previa, incluidos los modelos de reconocimiento de idiomas e imágenes, es factible el aprendizaje federado que presenta la privacidad que logra la privacidad como la utilidad. Este enfoque no ofrece ninguna protección de la privacidad para los datos públicos utilizados durante la capacitación previa, por lo que es importante garantizar que el uso de estos datos respeta la privacidad relevante y los derechos de propiedad intelectual (las consideraciones legales y éticas en torno a esto están fuera del alcance de esta serie de blogs). A continuación, en nuestra próxima publicación, discutiremos la implementación cuando desplegaremos el aprendizaje federado por privacidad en el mundo real en el mundo real.