Esta publicación es la primera de una serie sobre aprendizaje federado que preserva la privacidad. La serie es una colaboración entre CDEI y NIST. Los avances en el aprendizaje automático y la inteligencia artificial, impulsados ​​por la disponibilidad de datos a gran escala y la computación de alto rendimiento, han tenido un impacto significativo en todo el mundo en las últimas dos décadas. Las técnicas de aprendizaje automático dan forma a la información que vemos en línea, influyen en las decisiones comerciales críticas y ayudan al descubrimiento científico, que está impulsando avances en la atención médica, la modelización climática y más. Modelos de entrenamiento: aprendizaje convencional versus federado La forma estándar de entrenar modelos de aprendizaje automático es recopile los datos de entrenamiento de forma centralizada, en un servidor o en un centro de datos, donde se pueden utilizar para entrenar el modelo. Un modelo es lo que obtenemos del resultado del entrenamiento sobre los datos; Una vez entrenado, un modelo se utiliza para predicciones o generar contenido nuevo. Por ejemplo, un consorcio de bancos podría querer entrenar un modelo para detectar transacciones fraudulentas; para hacerlo, necesitarán recopilar datos de transacciones de muchos bancos diferentes en un servidor central, como se muestra en la Figura 1(a). Figura 1: Comparación del aprendizaje centralizado y federado. En el aprendizaje centralizado (a), los participantes envían datos a un agregador central, que entrena el modelo. En el aprendizaje federado (b), los participantes envían actualizaciones del modelo; En el aprendizaje federado, los datos nunca abandonan la organización del participante. Crédito: NIST Sin embargo, la recopilación de datos financieros confidenciales plantea serias preocupaciones sobre la privacidad. Si el servidor central se ve comprometido o su propietario no es confiable, los datos pueden filtrarse o utilizarse para otros fines. Es posible que ni siquiera sea posible compartir información confidencial, como datos financieros, debido a regulaciones de privacidad u otras restricciones legales. Aparte de las preocupaciones de seguridad y privacidad, en algunos casos los datos pueden plantear problemas de propiedad intelectual. Debido a estos desafíos, muchas organizaciones simplemente deciden no compartir datos. Como resultado, es imposible construir modelos útiles, como el detector de fraude de nuestro ejemplo. Esta serie de blogs se centra en el aprendizaje federado, un enfoque que aborda el desafío de privacidad fundamental del aprendizaje automático tradicional al evitar la recopilación centralizada de datos de capacitación. En el aprendizaje federado, el servidor central envía una copia del modelo parcialmente entrenado a cada organización participante y recopila actualizaciones del modelo en lugar de datos, como se muestra en la Figura 1(b). Cada organización construye la actualización de su modelo entrenando el modelo localmente con sus propios datos confidenciales, que nunca abandonan la organización. Las actualizaciones del modelo resultantes se pueden agregar y ensamblar para construir un modelo mejorado. Este proceso se repite hasta que se entrena el modelo. Ejemplos de uso exitoso del aprendizaje federado incluyen Gboard, Speech y Messages de Google, y la personalización de noticias y el reconocimiento de voz de Apple. Sin embargo, actualmente existen ejemplos limitados de aprendizaje federado que se utiliza para permitir la colaboración entre diferentes organizaciones sin compartir datos directamente; una configuración de este tipo tiene el potencial de desbloquear nuevos casos de uso que podrían proporcionar importantes beneficios sociales y económicos. Desafíos de privacidad en el aprendizaje federado Aunque el aprendizaje federado ayuda a abordar el desafío de privacidad de la recopilación centralizada de datos, en la última década, los investigadores han descubierto nuevos tipos de ataques a la privacidad que pueden recuperar datos confidenciales de capacitación incluso cuando se utiliza el aprendizaje federado. Ataques a las actualizaciones del modelo: las actualizaciones del modelo están determinadas por los datos de entrenamiento. En algunos casos, es posible recuperar información sobre los datos de entrenamiento a partir de las actualizaciones del modelo utilizadas en el aprendizaje federado. Ataques a modelos entrenados: el modelo entrenado final también refleja los datos de entrenamiento. En algunos casos, es posible inferir información sobre los datos de entrenamiento del modelo entrenado, independientemente de si se utilizó o no el aprendizaje federado para entrenarlo. Desarrollando soluciones: los desafíos del premio PETS entre el Reino Unido y los EE. UU. Anunciados en la Cumbre inaugural para la Democracia en diciembre de 2021, los desafíos del premio PETS entre el Reino Unido y los EE. UU. fueron un esfuerzo de colaboración entre los gobiernos del Reino Unido y los EE. UU. para impulsar la innovación en el aprendizaje federado que preserva la privacidad (PPFL). Los concursantes podrían abordar dos casos de uso de alto impacto: combatir los delitos financieros y responder a emergencias de salud pública. En ambos casos, a los concursantes se les asignó la tarea de entrenar un clasificador de aprendizaje automático en un conjunto de datos federados, al tiempo que ofrecían garantías de privacidad de extremo a extremo. Los equipos ganadores fueron seleccionados por un panel independiente de expertos en PET del mundo académico, la industria y el sector público, teniendo en cuenta las métricas cuantitativas de la plataforma de evaluación, los resultados del equipo rojo y el código y los informes escritos presentados por los equipos. Las soluciones ganadoras se anunciaron en la segunda Cumbre por la Democracia en marzo de 2023; Puedes ver el vídeo del anuncio aquí, que también proporciona una animación realmente útil de la configuración del desafío. Puede obtener más información sobre los desafíos en los sitios web del NIST y del Reino Unido. Próximamente en esta serie de blogs A lo largo de esta serie, planeamos presentar técnicas para PPFL junto con las lecciones aprendidas en los desafíos de los premios PET. Los resultados del desafío demostraron la creciente practicidad de algunas técnicas PPFL; en algunos casos, estas técnicas ya se están incorporando a productos comerciales. Los resultados también destacaron áreas donde las técnicas existentes aún no son prácticas y se necesita más investigación. Durante los próximos meses, publicaremos una serie de blogs para brindar orientación práctica para explorar en la práctica el aprendizaje federado que preserva la privacidad. La serie contará con autores invitados de organizaciones involucradas en los desafíos de premios entre el Reino Unido y EE. UU. y otros destacados expertos en el campo. Los temas incluirán: Modelos de amenazas a la privacidad en el aprendizaje federado Soluciones desarrolladas durante los desafíos del premio Recursos para comenzar con el aprendizaje federado Finalmente, queremos que esta serie de blogs y nuestro resto de trabajos en este espacio contribuyan significativamente a hacer que la IA sea más segura y justa, al tiempo que protegemos importantes valores compartidos como la privacidad y la autonomía. A través de la Declaración del Atlántico, los gobiernos de EE. UU. y el Reino Unido han reafirmado su compromiso con el desarrollo de una IA segura y responsable, incluida una mayor colaboración en tecnologías que mejoran la privacidad. Si cree que puede ayudarnos en esta ambición, queremos saber de usted. Por favor póngase en contacto a través de mascotas. [at] cdei.gov.uk (mascotas[at]cdei[dot]gobierno[dot]Reino Unido) o PrivacyEng [at] nist.gov (PrivacidadEsp[at]nist[dot]gobierno).

Source link