Esta publicación es parte de una serie sobre aprendizaje federado que preserva la privacidad. La serie es una colaboración entre el NIST y la Unidad de Adopción de Tecnología Responsable (RTA) del gobierno del Reino Unido, anteriormente conocida como Centro de Ética e Innovación de Datos. Obtenga más información y lea todas las publicaciones publicadas hasta la fecha en el Espacio de colaboración de ingeniería de privacidad del NIST o en el blog de RTA. Nuestra primera publicación de la serie presentó el concepto de aprendizaje federado y describió en qué se diferencia del aprendizaje centralizado tradicional: en el aprendizaje federado, los datos se distribuyen entre las organizaciones participantes y comparten actualizaciones del modelo (en lugar de datos sin procesar). ¿Utilizamos para construir sistemas de aprendizaje federados que preservan la privacidad? Resulta que depende en gran medida de cómo se distribuyen los datos. Esta publicación define y explica las diferentes formas en que se pueden distribuir o dividir los datos entre los participantes en sistemas de aprendizaje federados. Las publicaciones futuras de la serie describirán técnicas específicas aplicables en cada situación. Los esquemas de partición de datos describen cómo se distribuyen los datos entre las organizaciones participantes, en comparación con el esquema centralizado en el que una parte posee todos los datos. En un esquema de partición horizontal, las filas de los datos se distribuyen entre los participantes. En un esquema de partición vertical, las columnas de los datos se distribuyen entre los participantes. También son posibles combinaciones de los dos; llegaremos a ellas al final de esta publicación. Partición horizontal Considere nuestro escenario de ejemplo de la primera publicación de esta serie: un consorcio de bancos quiere entrenar un modelo para detectar transacciones fraudulentas. Este es un ejemplo de partición horizontal: cada banco mantiene datos de transacciones completos (es decir, que contienen todas las columnas relevantes) de sus clientes, y son las filas de datos las que difieren entre los bancos. Figura 1: Datos divididos horizontalmente. Las particiones dividen las filas de datos, pero no las columnas. Cada partición contiene filas distintas, pero el mismo conjunto de columnas. Tenga en cuenta que los valores de los datos mostrados son ficticios. Crédito: NIST El término partición horizontal proviene del hecho de que la versión centralizada del escenario se puede transformar en la versión distribuida dibujando líneas horizontales para indicar las diferentes particiones, como se muestra en el ejemplo de la Figura 1. En general, es más fácil construir sistemas de aprendizaje federados que preserven la privacidad para datos divididos horizontalmente que construir sistemas similares para datos divididos verticalmente. Esto es cierto porque cuando los datos se dividen horizontalmente, cada partición se puede ver como un conjunto de datos completo (es decir, no faltan columnas), lo que significa que cada participante puede entrenar un modelo localmente sin consultar a otros participantes. Se pueden componer algunos tipos de modelos. después de su capacitación, lo que conduce directamente a un enfoque simple pero elegante para el aprendizaje federado de datos divididos horizontalmente: primero, cada participante entrena un modelo localmente con sus propios datos; luego, los modelos entrenados se componen para formar un modelo final más efectivo. Discutiremos los enfoques que siguen esta estructura en la siguiente publicación de la serie. El seguimiento de la salud pública de los desafíos del premio de mascotas de EE. UU. y el Reino Unido fue un ejemplo de datos divididos horizontalmente. En esta vía, los datos sobre los individuos de una población generada sintéticamente se distribuyeron en varios distritos sanitarios. Cada distrito contenía información sobre cada individuo, como sus atributos demográficos, contactos sociales y estado de infección. Luego se utilizó el aprendizaje federado para preservar la privacidad a través de estas particiones horizontales para entrenar modelos para predecir el riesgo futuro de infección de un individuo. Partición vertical Considere un escenario alternativo que involucre a un solo banco (que todavía conserva los datos de las transacciones de los clientes) y una agencia de informes crediticios que posee calificaciones crediticias. . Es posible que las dos organizaciones deseen entrenar un modelo que aproveche tanto los datos de las transacciones como el puntaje crediticio de un solo cliente. Este es un ejemplo de partición vertical: las dos organizaciones mantienen diferentes tipos de datos sobre los mismos individuos; en este caso, son las columnas de datos las que difieren entre los participantes. Figura 2: Datos divididos verticalmente. Las particiones dividen las columnas de los datos, pero no las filas. Cada partición contiene el mismo conjunto de filas, pero un conjunto distinto de columnas. Tenga en cuenta que los valores de los datos mostrados son ficticios. Crédito: NIST Esta vez, transformar la versión centralizada del escenario en la versión distribuida implica dibujar líneas verticales para indicar las diferentes particiones, como se muestra en el ejemplo de la Figura 2. Los sistemas de aprendizaje federados que preservan la privacidad para datos divididos verticalmente son especialmente desafiantes. principalmente debido a la necesidad de vincular puntos de datos de diferentes particiones sobre el mismo individuo o entidad durante el entrenamiento. A diferencia del aprendizaje federado con partición horizontal, generalmente no es posible entrenar modelos separados en diferentes columnas de datos (sino filas superpuestas) y luego componerlos. Como resultado, los sistemas para el aprendizaje federado que preserva la privacidad con datos con partición vertical generalmente son más complejo y desafiante de construir. Analizaremos técnicas para construir dichos sistemas más adelante en la serie. Combinación de particiones verticales y horizontales En la práctica, el aprendizaje federado a menudo implicará datos de entrenamiento distribuidos en una combinación de particiones verticales y horizontales. Esta fue una característica de la pista de delitos financieros de los desafíos del premio PET de EE. UU. y el Reino Unido. El objetivo de esta pista era entrenar un modelo de detección de anomalías utilizando un conjunto de datos sintéticos que represente datos de transacciones de una red de pagos global, enriquecido con metadatos de cuentas sintéticas (por ejemplo, puntuaciones de crédito) en poder de los bancos. Los metadatos de la cuenta se dividieron horizontalmente, y cada banco asociado almacenó los mismos campos de metadatos (es decir, las mismas columnas) para cada una de sus cuentas registradas. Figura 3: Partición combinada. Los metadatos de las cuentas en poder de los bancos (la puntuación crediticia de cada cuenta) se dividen horizontalmente y los datos de transacciones en poder de la red de pagos se dividen verticalmente. Tenga en cuenta que los valores de los datos mostrados son ficticios. Crédito: NIST Cada transacción realizada por la red de pagos solo puede enriquecerse con metadatos de la cuenta vinculando una ID de cuenta adecuada. Los bancos no tienen acceso a los datos de las transacciones en poder de la red de pagos, lo que significa que la vinculación de datos debe realizarse de forma segura y privada. Además, la partición horizontal de los metadatos de la cuenta significa que se necesita un método eficiente para determinar qué banco asociado es relevante para vincular una cuenta en particular. Este ejemplo muestra que los escenarios que involucran una partición tanto horizontal como vertical conllevan complejidades adicionales. En este contexto, entrenar un modelo que pueda detectar el fraude con alta precisión y al mismo tiempo garantizar la privacidad es especialmente desafiante. Las publicaciones futuras de esta serie describirán estos desafíos y explorarán algunas de las técnicas utilizadas para resolverlos en los desafíos de los premios PET de EE. UU. y el Reino Unido. Próximamente En nuestra próxima publicación, comenzaremos a explorar enfoques prácticos para proteger la privacidad en las diferentes particiones. escenarios descritos anteriormente, comenzando con una inmersión profunda en los enfoques de privacidad de entrada para datos divididos horizontalmente.

Source link