Esta publicación es parte de una serie sobre aprendizaje federado que preserva la privacidad. La serie es una colaboración entre el NIST y la Unidad de Adopción de Tecnología Responsable (RTA) del gobierno del Reino Unido, anteriormente conocida como Centro de Ética e Innovación de Datos. Obtenga más información y lea todas las publicaciones publicadas hasta la fecha en el Espacio de colaboración de ingeniería de privacidad del NIST o en el blog de RTA. IntroducciónEn esta publicación, hablamos con el Dr. Xiaowei Huang y el Dr. Yi Dong (Universidad de Liverpool), el Dr. Mat Weldon (Oficina de Estadísticas Nacionales (ONS) del Reino Unido) y Sikha Pentyala (Universidad de Washington Tacoma), quienes fueron los ganadores. en los desafíos del premio PETs Reino Unido-EE. UU. Discutimos los desafíos y soluciones de escalabilidad en el aprendizaje federado que preserva la privacidad (PPFL). El aprendizaje federado tradicional permite escalar a conjuntos de datos de entrenamiento extremadamente grandes aprovechando la potencia informática distribuida; Agregar técnicas de preservación de la privacidad puede introducir nuevos desafíos de escalabilidad específicos de PPFL. Desafíos de la ampliación de escala Un desafío importante de escalar los sistemas PPFL a grandes conjuntos de datos y muchos clientes proviene de los desafíos computacionales de la criptografía utilizada para implementar las defensas de PPFL. Técnicas como el cifrado totalmente homomórfico (FHE) y la computación multipartita (MPC) pueden proteger los cálculos confidenciales, pero a menudo introducen una sobrecarga de rendimiento significativa. Además, los sistemas PPFL prácticos a menudo necesitan trabajar con clientes heterogéneos que tienen diferentes datos y capacidades computacionales. Los Prize Challenges del Reino Unido y EE. UU. se diseñaron no solo para probar si las soluciones ofrecían un alto nivel de privacidad, sino también para establecer si podían lograr un rendimiento que fuera práctico en aplicaciones del mundo real a escala. Preguntamos a algunos de los ganadores sobre los desafíos de escalabilidad que tuvieron que abordar y sobre cómo la forma en que se distribuyen los datos afecta las soluciones. Autores: ¿Cómo afecta la distribución de datos a la capacidad de ampliación de los sistemas PPFL? Sikha Pentyala, equipo PPMLHuskies: Una de las mayores lagunas es el desarrollo de técnicas generales de defensa para FL con escenarios de distribución de datos arbitrarios. Esto incluye datos distribuidos horizontalmente, como datos de diferentes hospitales, cada uno de los cuales tiene sus propios pacientes, así como datos distribuidos verticalmente, como en escenarios en los que los datos de un paciente se distribuyen entre varias entidades (hospitales, empresas, laboratorios, etc.). .). Si bien la literatura actual se centra principalmente en escenarios de distribución horizontal, se ha prestado menos atención a distribuciones verticales o arbitrarias. Las soluciones basadas en criptografía, como la computación multipartita segura y el cifrado homomórfico, funcionan para particiones arbitrarias pero incurren en costos computacionales significativos. Desarrollar algoritmos, protocolos y herramientas más eficientes capaces de manejar conjuntos de datos a gran escala y modelos complejos es crucial para aplicaciones prácticas con particiones arbitrarias. Autores: ¿Cómo afectan las diferencias entre clientes el rendimiento de los sistemas PPFL? Sikha Pentyala, equipo PPMLHuskies: FL en un La configuración heterogénea entre dispositivos puede traer desafíos de ingeniería adicionales, en términos de control de versiones y sincronización del modelo. Los algoritmos de muestreo de selección de clientes requerirían acceso a las configuraciones de los dispositivos, lo que dificulta lograr un muestreo privado y justo de los clientes. Los desafíos de la reducción de escala Nuestras conversaciones con los equipos ganadores de los desafíos de premios PET del Reino Unido y EE. UU. también destacaron un segundo desafío: agregar tecnologías que preserven la privacidad. a los sistemas de aprendizaje federados: los sistemas PPFL a menudo funcionan mejor cuando tienen acceso a más datos. Autores: ¿Existen desafíos adicionales en el contexto de la implementación de sistemas PPFL en federaciones o conjuntos de datos más pequeños?Dr. Mat Weldon, ONS: El aprendizaje federado tiene un desafío de escalabilidad inversa: hay métodos que funcionan bastante bien en grandes cantidades de datos, que no se escalan bien a datos más pequeños. La privacidad diferencial es un ejemplo de ello. Un área activa de investigación es cómo lograr una privacidad diferencial «local» eficaz al nivel de un solo registro. Actualmente, el método de privacidad de salida dominante para el aprendizaje automático es el Descenso de gradiente estocástico diferencialmente privado (DP-SGD). Sin embargo, DP-SGD es muy ineficiente, en el sentido de que desdibuja tanto las actualizaciones del modelo (gradientes) que se necesitan cantidades muy grandes de datos para lograr un nivel satisfactorio de rendimiento. Dr. Xiaowei Huang y Dr. Yi Dong, Universidad de Liverpool: En nuestros experimentos FL anteriores, observamos un equilibrio entre la cantidad de clientes y la precisión final de los modelos entrenados. Esta compensación varía según el modelo que se entrena y el conjunto de datos utilizado. No es un caso sencillo en el que aumentar el número de participantes siempre conduzca a mejores resultados, ni reducirlos necesariamente mejora los resultados. Parece haber un punto óptimo en términos del número de partes involucradas en el proceso de capacitación, que maximiza la precisión del entrenamiento. Sin embargo, no es fácil encontrar un punto óptimo. Desafíos de la coordinación y calidad de los datos Finalmente, un desafío específico de PPFL es el hecho de que ningún participante tiene acceso a todos los datos, por lo que no es posible realizar una evaluación global. Evaluación de la calidad y propiedades de los datos. Por ejemplo, algunos participantes pueden aportar datos de baja calidad al proceso de capacitación o pueden utilizar un formato de datos diferente al de los demás participantes. Dado que los sistemas PPFL están diseñados para proteger los datos, no es fácil descubrir este tipo de problemas antes de que comience la capacitación. Autores: ¿Existen desafíos de coordinación y calidad de los datos específicos de los sistemas PPFL? Dr. Xiaowei Huang y Dr. Yi Dong, Universidad de Liverpool: El segundo desafío es la detección precisa de posibles atacantes. Debido a la naturaleza respetuosa con la privacidad de PPFL y la información limitada disponible sobre los datos de los usuarios debido al aprendizaje federado, resulta difícil distinguir entre ataques maliciosos y actualizaciones deficientes. Es un desafío identificar y comprender al usuario detrás de los datos, lo que dificulta excluir de manera eficiente a posibles atacantes del proceso de aprendizaje. Mat Weldon, ONS: En el aprendizaje federado, la necesidad de privacidad genera desafíos en la calidad de los datos en torno a la alineación de las especificaciones y definiciones de los datos. Si la arquitectura de aprendizaje federado se diseñara al mismo tiempo que la recopilación de datos, esto no sería un problema. Pero en la mayoría de los casos los datos habrán sido recopilados por diferentes propietarios, posiblemente con especificaciones diferentes. En estas aplicaciones, el mayor obstáculo para la calidad de los datos será alinear las especificaciones y definiciones de datos sin poder solucionar los problemas manualmente. Para aplicaciones de aprendizaje federado vertical, como la detección de fraude financiero, los problemas de alineación de especificaciones de datos, como Esto tendrá un impacto especialmente grande en la precisión de la comparación de registros, lo que hará que los métodos robustos de vinculación de registros para preservar la privacidad (PPRL) sean aún más importantes. Enfrentando el desafío Las soluciones ganadoras en los desafíos del premio PET del Reino Unido y EE. UU. destacaron los desarrollos recientes en la investigación de PPFL que pueden ayudar para abordar los tres desafíos descritos anteriormente. Por ejemplo, para abordar los desafíos de escalabilidad de PPML en datos particionados verticalmente, la solución Scarlet Pets combinó un filtro Bloom con criptografía liviana para la agregación (como se describe en nuestra publicación anterior) para producir un sistema que se escala a muchos clientes en el contexto de datos distribuidos verticalmente. En el contexto de datos distribuidos horizontalmente, implementaciones como la de Google han demostrado la viabilidad de las técnicas actuales en miles de dispositivos. Para abordar el desafío de la precisión del modelo bajo PPFL, la investigación en curso en el campo de la privacidad diferencial está investigando métodos para reducir el impacto de ruido en modelos entrenados. Por ejemplo, la capacitación previa sobre datos públicos ahora es común en el aprendizaje automático centralizado, aunque no se utilizó en los desafíos de premios PET del Reino Unido y EE. UU.; Es probable que los futuros sistemas PPFL puedan mejorar significativamente la precisión aprovechando esta idea. Para abordar el desafío de la coordinación de datos, investigaciones recientes han comenzado a explorar enfoques para la validación segura de las entradas y la valoración de los datos. Estas técnicas pueden ayudar a garantizar que todos los participantes proporcionen datos con el formato correcto y la calidad suficiente para ayudar a mejorar el modelo entrenado, sin revelar los datos. Los ejemplos incluyen criptografía para la validación de entradas y nuevas defensas para proteger contra participantes bizantinos (que pueden realizar acciones maliciosas arbitrarias en cualquier momento). Próximamente… Nuestra próxima publicación se centrará en los desafíos prácticos asociados con todo el proceso de datos requerido para implementar una solución PPFL.