Esta publicación es parte de una serie sobre aprendizaje federado que presenta la privacidad. La serie es una colaboración entre NIST y la Unidad de Adopción de Tecnología Responsable del Gobierno del Reino Unido (RTA), anteriormente conocida como Centro de Ética e Innovación de Datos. Obtenga más información y lea todas las publicaciones publicadas hasta la fecha en el espacio de colaboración de ingeniería de privacidad de NIST o el blog de RTA. Introducción En esta publicación, hablamos con el Dr. Xiaowei Huang y el Dr. Yi Dong (Universidad de Liverpool), el Dr. Mat Weldon (Oficina de Estadísticas Nacionales (ONS) del Reino Unido) y Sikha Pentyala (Universidad de Washington Tacoma), que fueron ganadores en los desafíos del premio del Reino Unido. Discutimos desafíos y soluciones de escalabilidad en el aprendizaje federado de preservación de la privacidad (PPFL). El aprendizaje federado tradicional permite escalar a conjuntos de datos de capacitación extremadamente grandes aprovechando la potencia informática distribuida; Agregar técnicas de preservación de la privacidad puede introducir nuevos desafíos de escalabilidad específicos para PPFL. Desaltos de escalar el desafío importante de escalar sistemas PPFL a grandes conjuntos de datos y muchos clientes provienen de los desafíos computacionales de la criptografía utilizada para implementar las defensas de PPFL. Las técnicas como el cifrado totalmente homomórfico (FHE) y el cálculo multipartidista (MPC) pueden proteger los cálculos sensibles, pero a menudo introducen gastos generales de rendimiento significativos. Además, los sistemas prácticos de PPFL a menudo necesitan trabajar con clientes heterogéneos que tengan diferentes datos y habilidades computacionales. Los desafíos del premio del Reino Unido-Estados Unidos fueron diseñados no solo para probar si las soluciones ofrecían un fuerte nivel de privacidad, sino también para establecer si podían lograr un rendimiento práctico en aplicaciones del mundo real a escala. Le preguntamos a algunos de los ganadores sobre los desafíos de escalabilidad que tuvieron que abordar, y sobre cómo la forma en que se distribuyen los datos impacta las soluciones. Autores: cómo la distribución de los datos afecta la capacidad de los sistemas PPFL para ampliar? Sikha Pentyala, el equipo PPMLHUSKIES: Una de las gapas más grandes es desarrollar técnicas de defensa generales para FL con FL con la distribución de datos arbitrarios. Esto incluye datos que se distribuyen horizontalmente, como datos en diferentes hospitales que tienen sus propios pacientes, así como datos que se distribuyen verticalmente, como en escenarios donde los datos de un paciente se distribuyen en múltiples entidades (hospitales, empresas, laboratorios, etc.). Si bien la literatura actual se centra principalmente en los escenarios de distribución horizontal, se ha centrado menos enfoque en distribuciones verticales o arbitrarias. Las soluciones basadas en la criptografía, como el cálculo seguro multipartidista y el cifrado homomórfico, funcionan para particiones arbitrarias, pero incurren en costos computacionales significativos. Desarrollar algoritmos, protocolos y herramientas más eficientes capaces de manejar conjuntos de datos a gran escala y modelos complejos es crucial para aplicaciones prácticas con particiones arbitrarias. Autores: cómo las diferencias entre los clientes impactan el desempeño de los sistemas PPFL? Sikha Pentyala, el equipo PPMLHUSKIES: FL en una configuración transversal heterogénea puede aportar una versión de Ingeniería Modelo adicional. Los algoritmos de muestreo de selección del cliente requerirían acceso a las configuraciones de dispositivos, lo que hace que el logro de un muestreo privado y justo de los clientes desafiantes. Desaltos de escalar las discusiones de abajo con los equipos ganadores de los desafíos de premios de las mascotas del Reino Unido y EE. UU. También resaltaron un segundo desafío de agregar tecnologías de previsión de privacidad a los sistemas de aprendizaje federados: los sistemas PPFL a menudo tienen mejores resultados cuando tienen acceso a más datos. Autores: ¿Existen desafíos adicionales en el contexto de la implementación de sistemas PPFL en conjuntos de datos o federaciones más pequeñas? Mat Weldon, ONS: el aprendizaje federado tiene un desafío de escalabilidad inversa: hay métodos que funcionan lo suficientemente bien en grandes fragmentos de datos, que no escalan bien a datos más pequeños. La privacidad diferencial es uno de ello, un área activa de investigación es cómo lograr la privacidad diferencial ‘local’ de rendimiento a nivel de un solo registro. Actualmente, el método de privacidad de salida dominante para el aprendizaje automático es un descenso de gradiente estocástico diferencial (DP-SGD). Sin embargo, DP-SGD es muy ineficiente, en el sentido de que difumina las actualizaciones del modelo (gradientes) tanto que se necesitan grandes cantidades de datos para lograr un nivel satisfactorio de rendimiento. Dr. Xiaowei Huang y Dr. Yi Dong, Universidad de Liverpool: En nuestros experimentos FL anteriores, observamos una compensación entre el número de clientes y la precisión final de los modelos capacitados. Esta compensación varía según el modelo de capacitación y el conjunto de datos utilizado. No es un caso sencillo donde aumentar el número de participantes siempre conduce a mejores resultados, ni reducirlos necesariamente mejora los resultados. Parece haber un punto óptimo en términos del número de partes involucradas en el proceso de capacitación, que maximiza la precisión de la capacitación. Sin embargo, no es fácil encontrar un punto tan óptimo. Desaltos de la coordinación de datos y la calidad de los datos Definalmente, un desafío específico de PPFL es el hecho de que ningún participante único tiene acceso a todos los datos, por lo que no es posible realizar una evaluación global de la calidad y las propiedades de los datos. Por ejemplo, algunos participantes pueden contribuir con datos de baja calidad al proceso de capacitación o pueden usar un formato de datos diferente al de los otros participantes. Dado que los sistemas PPFL están diseñados para proteger los datos, no es fácil descubrir este tipo de problemas antes de que comience la capacitación. Autores: ¿Hay desafíos de calidad y coordinación de datos específicos de los sistemas PPFL? Xiaowei Huang y el Dr. Yi Dong, Universidad de Liverpool: El segundo desafío es la detección precisa de los posibles atacantes. Debido a la naturaleza amigable con la privacidad de PPFL y la información limitada disponible sobre los datos de los usuarios debido al aprendizaje federado, distinguir entre ataques maliciosos y malas actualizaciones se vuelve difícil. Es difícil identificar y comprender al usuario detrás de los datos, lo que dificulta excluir eficientemente a los posibles atacantes del proceso de aprendizaje. Mat Weldon, ONS: en el aprendizaje federado, la necesidad de privacidad conduce a desafíos de calidad de datos en torno a la alineación de especificaciones y definiciones de datos. Si la arquitectura de aprendizaje federado se diseñara al mismo tiempo que la recopilación de datos, este no sería un problema. Pero en la mayoría de los casos, los datos habrán sido recopilados por diferentes propietarios, posiblemente a diferentes especificaciones. En estas aplicaciones, el mayor obstáculo para la calidad de los datos será alinear las especificaciones y definiciones de datos en un entorno de parada, sin poder solucionar problemas manualmente los problemas. Para las aplicaciones de aprendizaje federadas verticales, como la detección de fraude financiera, los problemas de alineación de datos como este tendrán un impacto especialmente grande en la precisión de la precisión de la precisión de la récord, lo que hace que la récord de la privacidad de los datos de los registros de los datos de los datos es más importante. En los desafíos del premio de las mascotas del Reino Unido, los Estados Unidos destacaron los desarrollos recientes en la investigación de PPFL que pueden ayudar a abordar los tres desafíos descritos anteriormente. Por ejemplo, para abordar los desafíos de escalabilidad de PPML en los datos publicados verticalmente, la solución Scarlet Pets combinó un filtro de floración con criptografía ligera para la agregación (como se describe en nuestra publicación anterior) para producir un sistema que escalaba a muchos clientes en el contexto de datos distribuidos verticalmente. En el contexto de datos distribuidos horizontalmente, implementaciones como Google han demostrado la viabilidad de las técnicas actuales en miles de dispositivos. Para abordar el desafío de la precisión del modelo bajo PPFL, la investigación continua en el campo de la privacidad diferencial es investigar métodos para reducir el impacto del ruido en los modelos entrenados. Por ejemplo, la capacitación previa en los datos públicos ahora es común en el aprendizaje automático centralizado, aunque no se utilizó en los desafíos del premio de las mascotas del Reino Unido y el Reino Unido; Los futuros sistemas PPFL probablemente pueden mejorar la precisión significativamente al aprovechar esta idea. Para abordar el desafío de la coordinación de datos, las investigaciones recientes han comenzado a explorar enfoques para la validación segura de entrada y la valoración de datos. Estas técnicas pueden ayudar a garantizar que todos los participantes proporcionen datos con el formato correcto y la calidad suficiente para ayudar a mejorar el modelo capacitado, sin revelar los datos. Los ejemplos incluyen criptografía para la validación de insumos y nuevas defensas para proteger contra los participantes bizantinos (que pueden realizar acciones maliciosas arbitrarias en cualquier punto). A continuación … nuestra próxima publicación se centrará en los desafíos prácticos asociados con toda la tubería de datos requerida para implementar una solución PPFL.
Deja una respuesta