El problema de la publicación anterior de nuestra serie discutió técnicas para proporcionar privacidad de entrada en los sistemas PPFL donde los datos se dividen horizontalmente. Este blog se centrará en las técnicas para proporcionar privacidad de entrada cuando los datos se dividen verticalmente. Como se describe en nuestra tercera publicación, la partición vertical es donde los datos de capacitación se dividen entre las partes de modo que cada parte posee diferentes columnas de los datos. A diferencia de los datos divididos horizontalmente, el entrenamiento de un modelo en datos divididos verticalmente es más desafiante, ya que generalmente no es posible entrenar modelos separados en diferentes columnas de los datos (pero superponiendo las filas) y luego componerlos después. En cuenta, necesitamos métodos para poder entrenar en los datos colectivos mientras protegen la privacidad de esos datos. Un paso crítico requerido para esto es la alineación de la entidad que presenta la privacidad: coincidir los registros correspondientes (por ejemplo, registros que hacen referencia a la misma persona) en diferentes conjuntos de datos. Las partes pueden usar el resultado de la alineación de la entidad para entrenar un modelo de manera similar a cómo lo harían en un escenario de partición horizontal. Hacer coincidir los registros correspondientes sin revelar los registros en sí mismos es una tarea desafiante. En el resto de este blog, discutimos dos métodos para la alineación de la entidad que presenta la privacidad: la intersección del conjunto privado y los filtros de floración. El resultado de un proceso PSI revela información a los participantes solo para filas de datos que coinciden con una clave común. Esto se ilustra en la Figura 1. Por ejemplo, un proyecto de investigación piloto dirigido por investigadores de la Universidad de Georgetown aplicó PSI para vincular los datos del Departamento de Educación de los Estados Unidos con datos del sistema nacional de datos de préstamos estudiantiles para calcular las estadísticas de ayuda financiera sin revelar los números de seguridad social de los estudiantes. El resultado de llevar a cabo un conjunto privado de intersección entre dos particiones de datos que comparten un campo de identificación común. Crédito: NIST algunos enfoques de PSI revelan solo el número de filas coincidentes, mientras que otras revelan más información (por ejemplo, el contenido de las filas coincidentes, como en el ejemplo en la Figura 1). Los sistemas PPFL a menudo dependen del contenido de las filas coincidentes y, por lo tanto, deben usar enfoques de PSI «con fugas». También hay algunas compensaciones a considerar entre la fortaleza de una técnica PSI en la protección de los datos contra su rendimiento cuando se aplican en escenarios de aprendizaje federado en grandes conjuntos de datos, como los de los desafíos de premios de las mascotas del Reino Unido. Dado que los filtros de Bloom son probabilísticos, a veces cometen errores (falsos positivos). En el contexto de PPFL, los filtros de Bloom también pueden proporcionar beneficios de privacidad. Específicamente, los falsos positivos proporcionan una especie de protección de privacidad de entrada automáticamente. Algunos sistemas PPFL utilizan filtros Bloom para facilitar la minería de características de preservación de la privacidad, un proceso que determina qué atributos de los datos a usar al construir el modelo. Este fue el enfoque utilizado por Scarlet-Pets, un equipo ganador del lado estadounidense de los desafíos del premio de las mascotas del Reino Unido. Su solución se muestra en la Figura 2. Arquitectura de la solución de Scarlet-Pets para la pista de delitos financieros de los desafíos del premio de las mascotas del Reino Unido, aprovechando los filtros de Bloom para la minería de características que preservan la privacidad. Crédito: NIST En el primer paso, la minería de características se lleva a cabo localmente en cada banco para crear filtros de floración locales que contienen cuentas que se consideran potencialmente sospechosas según los datos a nivel de cuenta. Estos filtros locales se agregan en un filtro de floración global, que se utiliza para aumentar los datos de la transacción de la red de pago. Dado que los filtros Bloom se representan como cadenas de bits, se pueden agregar utilizando las técnicas descritas en nuestro cuarto puesto. Finalmente, la red de pago agrega un campo binario adicional «BF» a los datos de la transacción, que es 1 si la cuenta de envío o recepción de la transacción está presente en el filtro de floración global y 0 de lo contrario. Esto completa el paso de alineación de la entidad, y un clasificador (diferencialmente privado) puede ser capacitado en estos datos aumentados. El uso de filtros Bloom ayuda a proteger la privacidad de la entrada, ya que no hay datos directos entre las diferentes partes; Solo se revela información sobre la presencia potencial o ausencia de una característica específica, no el contenido real de los datos en sí. Sin embargo, aún puede ser posible que los datos confidenciales se filtraran a través de un filtro de floración. En el ejemplo anterior, el Filtro Global Bloom se comparte con la red de pago. Dependiendo de la precisión del filtro y cómo se ha construido, puede ser posible que la red de pago aprenda información sobre los datos bancarios que no deberían. Como mínimo, en esta configuración, la red de pago puede saber que para las transacciones donde BF = 1 existe una alta probabilidad de que uno de los bancos haya marcado la cuenta de envío o recepción (o ambas) como sospechoso. En el mundo real, es necesario tomar una decisión de política entre los bancos y la red de pagos para determinar si dicha fuga de datos sería permisible. El rendimiento de equilibrio con las técnicas de filtración descritas en esta publicación proporciona métodos eficientes para realizar la alineación de entidades con la privacidad de entrada en PPFL, pero ambas filtran información sobre los datos privados involucrados. En el caso de PSI, el sistema puede filtrar información sobre el número o incluso el contenido de las filas coincidentes; En el caso de los filtros Bloom, el sistema filtrará (ruidoso) información sobre el estado coincidente de cada fila. Es posible colocar técnicas adicionales en la parte superior para eliminar esta fuga, como el cálculo seguro multipartidista, el cifrado totalmente homomórfico o los enclavos seguros, pero como se discutió en nuestra cuarta publicación, estas técnicas a menudo tienen un costo de rendimiento significativo. En algunos casos, la fuga adicional plantea poco riesgo de privacidad, y puede ser aceptable usar PSI o un filtro de floración como parte del sistema. En otros casos, la fuga plantea grandes riesgos de privacidad y requiere el uso de técnicas adicionales. Equilibrar el riesgo de privacidad de la fuga de información contra el costo de rendimiento de prevenir esas fugas sigue siendo un desafío significativo en el aprendizaje federado vertical.
Deja una respuesta