En esta publicación, hablamos con el Dr. Xiaowei Huang y el Dr. Yi Dong (Universidad de Liverpool), el Dr. Mat Weldon (Oficina de Estadísticas Nacionales (ONS) del Reino Unido (RU)) y el Dr. Michael Fenton (Trūata), ganadores de los Premios de Tecnologías de Mejora de la Privacidad (PET) del Reino Unido y los EE. UU. Analizamos los desafíos de implementación del aprendizaje federado que preserva la privacidad (PPFL), específicamente, las áreas de modelado de amenazas e implementaciones en el mundo real. Modelado de amenazas En la investigación sobre el aprendizaje federado que preserva la privacidad (PPFL), las protecciones de un sistema PPFL generalmente están codificadas en un modelo de amenazas que define contra qué tipos de atacantes puede defenderse el sistema. Algunos sistemas asumen que los atacantes espiarán a escondidas el funcionamiento del sistema, pero no podrán afectar su funcionamiento (un atacante llamado honesto pero curioso), mientras que otros asumen que los atacantes pueden modificar o romper el funcionamiento del sistema (un atacante activo o completamente malicioso). Por lo general, es más fácil defenderse de los atacantes más débiles que de los más fuertes. Lamentablemente, sigue siendo un desafío determinar si un modelo de amenaza es realista. En el mundo real, ¿los atacantes serán honestos pero curiosos o completamente maliciosos? ¿O algo intermedio? A menudo es muy difícil decirlo con seguridad, y tomar la decisión incorrecta puede resultar en la implementación de un sistema que no esté lo suficientemente bien defendido. Además, puede ser difícil incluso comparar diferentes modelos de amenaza para determinar su fortaleza relativa. Autores: ¿Qué suposiciones hacen los diseñadores de sistemas sobre las capacidades de los atacantes al diseñar un modelo de amenaza? Dr. Xiaowei Huang y Dr. Yi Dong, Universidad de Liverpool: Dependiendo de las suposiciones, los diferentes modelos de amenaza le otorgan al atacante diferentes capacidades. Por ejemplo, un atacante puede espiar las comunicaciones entre agentes y usar las observaciones para descubrir los secretos (por ejemplo, reconstruir el modelo global). Otro atacante puede manipular las etiquetas de un conjunto de datos local para inducir predicciones erróneas. Un agente local también puede ser un atacante, en el sentido de que puede inyectar puertas traseras en el modelo global o robar el modelo global sin contribuir. Un atacante del agente central puede manipular la actualización del modelo para evitar que el modelo global converja. Autores: ¿Cuáles son los desafíos en la definición y comparación de modelos de amenaza para el aprendizaje federado que preserva la privacidad? Dr. Xiaowei Huang y Dr. Yi Dong, Universidad de Liverpool: Incluso para un ataque bien discutido como el ataque de envenenamiento, debido a su naturaleza distribuida y restricciones de privacidad, puede haber diferentes modelos de amenaza (por ejemplo, atacantes ruidosos, observacionales o bizantinos). Para permitir un estudio riguroso, un modelo de amenaza debe estar bien articulado. Sin embargo, aún falta un modelo formal que pueda describir diferentes suposiciones. Este estado del arte ha dificultado la comparación entre métodos (ya sea de aprendizaje o de defensa). La brecha entre la teoría y la realidad La investigación sobre el aprendizaje federado que preserva la privacidad a menudo hace suposiciones simplificadoras que no son razonables en implementaciones del mundo real. Estas brechas entre la teoría y la práctica siguen siendo una barrera para el desarrollo de sistemas PPFL implementables, y la mayoría de los sistemas existentes han llenado estas brechas con soluciones personalizadas. Además de limitar el potencial de los sistemas PPFL para ser adoptables a una escala más amplia, este enfoque también significa que es difícil garantizar que los sistemas PPFL implementados sean confiables y estén libres de errores. Este desafío se ve agravado por la necesidad de que los sistemas PPFL del mundo real se integren con la infraestructura de datos existente, un requisito que también puede conducir a importantes problemas de seguridad y privacidad. Varios participantes en los desafíos del premio PETs del Reino Unido y los EE. UU. destacaron problemas relacionados con esto. Autores: ¿Qué brechas importantes aún existen entre la teoría y la práctica del aprendizaje federado que preserva la privacidad? Dr. Xiaowei Huang y Dr. Yi Dong, Universidad de Liverpool: El aprendizaje federado (FL) actual o PPFL se centra en el desarrollo algorítmico, al abstraer algunos entornos del mundo real en los que se ejecutará el algoritmo FL o PPFL. Por ejemplo, puede que no considere los casos en los que algunos o todos los agentes locales no tienen suficientes poderes computacionales o memoria para realizar un entrenamiento e inferencia a gran escala, y puede que no considere el entorno abierto en el que hay espías o atacantes que pueden comprometer las propiedades de seguridad o privacidad de los algoritmos. Dr. Mat Weldon, Oficina de Estadísticas Nacionales del Reino Unido (ONS), Campus de Ciencia de Datos: El problema con las soluciones de aprendizaje federado actuales, altamente personalizadas, es que hay tantas partes móviles, y cada parte móvil necesita ser probada de forma independiente para detectar amenazas para cada nueva solución. Es más fácil diseñar una nueva arquitectura de aprendizaje federado que ponerla en marcha en equipo. La disciplina se encuentra actualmente en un estado muy fluido: cada nueva solución es personalizada y está adaptada a un problema de ingeniería particular. Esto dificulta lograr economías de escala. Predigo que en los próximos años veremos surgir protocolos que cristalicen patrones comunes, de la misma manera que surgieron los protocolos criptográficos y cristalizaron el comercio web. Dr. Michael Fenton, Trūata: En la mayoría de las soluciones que hemos observado, fallas pequeñas pero críticas en el diseño general del sistema pueden llevar a violaciones de la privacidad. Estas fallas suelen surgir porque los diseñadores de soluciones a menudo buscan modernizar las soluciones o sistemas heredados existentes para agregar elementos que preserven la privacidad como una medida de ahorro de tiempo y costos. El resultado neto es que el sistema general queda mal optimizado para la protección de la privacidad, ya que en muchos casos una solución óptima puede requerir comenzar desde cero, lo que puede resultar prohibitivamente costoso desde una perspectiva de desarrollo. La privacidad por diseño significa incorporar protecciones de privacidad en un sistema en papel y en la práctica (es decir, tanto diseñar un sistema para preservar la privacidad desde cero como probar todo el sistema para garantizar que esas protecciones de privacidad tengan el efecto deseado). Afrontar el desafío Los desafíos descritos en esta publicación están asociados con la etapa inicial de desarrollo de los sistemas PPFL, una situación que muchos de los que trabajan en esta área esperan que mejore con el tiempo. A medida que las organizaciones comienzan a construir e implementar sistemas PPFL, estamos aprendiendo más sobre los procesos para el modelado de amenazas. Por ejemplo, es importante articular cuidadosamente los riesgos de seguridad y privacidad más importantes del contexto de implementación y garantizar que el modelo de amenazas incluya todas las capacidades del atacante asociadas con estos riesgos. El creciente interés en las implementaciones prácticas también está impulsando el desarrollo de herramientas de software flexibles. Los marcos de software de código abierto como Flower, PySyft, FATE y TensorFlow Federated se están volviendo rápidamente más maduros y capaces, y los esfuerzos colaborativos como el Laboratorio PET de la ONU, el Servicio Nacional de Datos Seguros y desafíos como el Desafío del Premio PET del Reino Unido y los EE. UU. continúan generando conciencia sobre la necesidad de estas tecnologías. Próximamente Las soluciones para el aprendizaje federado que preserva la privacidad combinan sistemas distribuidos con técnicas de privacidad complejas, lo que da como resultado desafíos de escalabilidad únicos. En nuestra próxima publicación, analizaremos estos desafíos y algunas de las ideas emergentes para abordarlos.