El problema La publicación anterior de nuestra serie analizó técnicas para proporcionar privacidad de entrada en sistemas PPFL donde los datos están divididos horizontalmente. Este blog se centrará en técnicas para proporcionar privacidad de entrada cuando los datos se dividen verticalmente. Como se describe en nuestra tercera publicación, la partición vertical es donde los datos de entrenamiento se dividen entre las partes de modo que cada parte tenga diferentes columnas de datos. A diferencia de los datos divididos horizontalmente, entrenar un modelo con datos divididos verticalmente es más desafiante ya que generalmente no es posible entrenar modelos separados en diferentes columnas de datos (pero filas superpuestas) y luego componerlos. En cambio, necesitamos métodos para poder entrenar sobre los datos colectivos protegiendo al mismo tiempo la privacidad de esos datos. Un paso crítico necesario para esto es la alineación de entidades para preservar la privacidad: hacer coincidir los registros correspondientes (por ejemplo, registros que hacen referencia a la misma persona) en diferentes conjuntos de datos. Las partes pueden usar el resultado de la alineación de entidades para entrenar un modelo de manera similar a como lo harían en un escenario de partición horizontal. Cotejar los registros correspondientes sin revelar los registros en sí es una tarea desafiante. En el resto de este blog, analizamos dos métodos para la alineación de entidades que preservan la privacidad: intersección de conjuntos privados y filtros Bloom. Intersección de conjuntos privados Una intersección de conjuntos privados (PSI) es una técnica de privacidad de entrada que permite la vinculación de datos entre partes. El resultado de un proceso PSI revela información a los participantes solo para filas de datos que coinciden en una clave común. Esto se ilustra en la Figura 1. Por ejemplo, un proyecto de investigación piloto dirigido por investigadores de la Universidad de Georgetown aplicó PSI para vincular datos del Departamento de Educación de EE. UU. con datos del Sistema Nacional de Datos de Préstamos Estudiantiles para calcular estadísticas de ayuda financiera sin revelar los números de seguridad social de los estudiantes. . Resultado de realizar una intersección de conjunto privado entre dos particiones de datos que comparten un campo de identificación común. Crédito: NIST Algunos enfoques de PSI revelan sólo el número de filas coincidentes, mientras que otros revelan más información (por ejemplo, el contenido de las filas coincidentes, como en el ejemplo de la Figura 1). Los sistemas PPFL a menudo dependen del contenido de las filas coincidentes y, por lo tanto, deben utilizar enfoques de PSI con “fugas”. También hay que considerar algunas compensaciones entre la solidez de una técnica de PSI en la protección de datos y su rendimiento cuando se aplica en escenarios de aprendizaje federado en grandes conjuntos de datos, como los de los desafíos de premios PET del Reino Unido y EE. UU.. Filtros BloomUn segundo enfoque para la entidad La alineación consiste en construir un filtro Bloom, una estructura de datos probabilística que utiliza una colección de funciones hash para permitir el almacenamiento y la búsqueda eficiente de elementos. Dado que los filtros Bloom son probabilísticos, a veces cometen errores (falsos positivos). En el contexto de PPFL, los filtros Bloom también pueden proporcionar beneficios de privacidad. Específicamente, los falsos positivos proporcionan automáticamente una especie de protección de la privacidad de la entrada. Algunos sistemas PPFL utilizan filtros Bloom para facilitar la extracción de características que preservan la privacidad, un proceso que determina qué atributos de los datos usar al construir el modelo. Este fue el enfoque utilizado por Scarlet-PETs, un equipo ganador del lado estadounidense de los PETs Prize Challenges Reino Unido-EE.UU. Su solución se muestra en la Figura 2. Arquitectura de la solución Scarlet-PET para la pista de delitos financieros de los desafíos de premios PET del Reino Unido y EE. UU., aprovechando los filtros Bloom para la minería de funciones que preservan la privacidad. Crédito: NIST En el primer paso, la extracción de características se lleva a cabo localmente en cada banco para crear filtros Bloom locales que contengan cuentas que se consideran potencialmente sospechosas según los datos a nivel de cuenta. Estos filtros locales se agregan en un filtro Bloom global, que se utiliza para aumentar los datos de transacciones de la red de pagos. Dado que los filtros Bloom se representan como cadenas de bits, se pueden agregar utilizando las técnicas descritas en nuestra cuarta publicación. Finalmente, la red de pago agrega un campo binario adicional «BF» a los datos de la transacción, que es 1 si la cuenta emisora ​​o receptora de la transacción está presente en el filtro Bloom global, y 0 en caso contrario. Esto completa el paso de alineación de la entidad y luego se puede entrenar un clasificador (diferencialmente privado) con estos datos aumentados. El uso de filtros Bloom ayuda a proteger la privacidad de la entrada, ya que no hay intercambio directo de datos entre las diferentes partes; sólo se revela información sobre la posible presencia o ausencia de una característica específica, no el contenido real de los datos en sí. Sin embargo, aún es posible que se filtren datos confidenciales a través de un filtro Bloom. En el ejemplo anterior, el filtro Bloom global se comparte con la red de pago. Dependiendo de la precisión del filtro y de cómo se haya construido, es posible que la red de pagos obtenga cierta información sobre los datos bancarios que no debería. Como mínimo, en esta configuración la red de pagos puede aprender que para transacciones en las que BF = 1 existe una alta probabilidad de que uno de los bancos haya marcado la cuenta emisora ​​o receptora (o ambas) como sospechosas. En el mundo real, sería necesario tomar una decisión política entre los bancos y la red de pagos para determinar si dicha fuga de datos sería permisible. Equilibrar el rendimiento con la fuga Las técnicas descritas en esta publicación proporcionan métodos eficientes para realizar la alineación de la entidad con la privacidad de entrada en PPFL, pero ambos filtran información sobre los datos privados involucrados. En el caso de PSI, el sistema puede filtrar información sobre el número o incluso el contenido de las filas coincidentes; en el caso de los filtros Bloom, el sistema filtrará información (ruidosa) sobre el estado coincidente de cada fila. Es posible superponer técnicas adicionales para eliminar esta fuga, como computación multipartita segura, cifrado totalmente homomórfico o enclaves seguros, pero como se analiza en nuestra cuarta publicación, estas técnicas a menudo conllevan un costo de rendimiento significativo. Los diseñadores de sistemas deben tener cuidado Considere la filtración de estas técnicas como parte del modelo de amenaza del sistema: la descripción de los atacantes contra los que se supone que debe defenderse el sistema. En algunos casos, la fuga adicional representa poco riesgo para la privacidad y puede ser aceptable usar PSI o un filtro Bloom como parte del sistema. En otros casos, la filtración plantea importantes riesgos para la privacidad y requiere el uso de técnicas adicionales. Equilibrar el riesgo de privacidad de la fuga de información con el costo de rendimiento de prevenir esas filtraciones sigue siendo un desafío importante en el aprendizaje federado vertical. A continuación, en nuestra próxima publicación, centraremos nuestra atención en la privacidad de la salida y discutiremos enfoques que pueden evitar que un adversario retroceda. diseñar cualquier cosa sobre los datos de entrenamiento de un modelo entrenado.