Introducción En esta publicación, hablamos con el Dr. Xiaowei Huang y el Dr. Yi Dong (Universidad de Liverpool) y Sikha Pentyala (Universidad de Washington Tacoma), que fueron ganadores en los desafíos del premio de las mascotas del Reino Unido. Discutimos los desafíos de la tubería de datos del mundo real asociados con el aprendizaje federado de preservación de la privacidad (PPFL) y exploramos las próximas soluciones. A diferencia del aprendizaje centralizado o federado tradicional, las soluciones PPFL evitan que la organización capacite al modelo que analice los datos de capacitación. Esto significa que es imposible para esa organización evaluar la calidad de los datos de capacitación, o incluso saber si tiene el formato correcto. Este problema puede conducir a varios desafíos importantes en las implementaciones de PPFL. Desafíos de preprocesamiento y consistencia en el aprendizaje automático centralizado, los problemas de calidad de los datos de capacitación a menudo se manejan en un paso de preprocesamiento antes de la capacitación. Las soluciones de investigación para PPFL tienden a ignorar este paso y centrarse solo en la capacitación. Los desafíos del premio de las mascotas del Reino Unido involucraban datos realistas, pero aseguraron que los conjuntos de datos fueran limpios, consistentes y listos para usar para la capacitación. Preguntamos a algunos de los ganadores sobre los desafíos asociados que podrían surgir en implementaciones reales, donde se podría violar esta suposición de datos limpios. Autores: ¿PPFL introduce nuevos desafíos asociados con el formato de datos y la calidad? Sin embargo, la capacitación del modelo es solo una pequeña parte del flujo de trabajo de aprendizaje automático. En la práctica, los científicos de datos pasan mucho tiempo en la preparación y la limpieza de datos, manejando valores faltantes, construcción y selección de características, etc. La investigación sobre cómo llevar a cabo estos pasos cruciales en un entorno federado, donde un científico de datos en un sitio (cliente) no puede echar un vistazo a los datos en otro sitio es muy limitado. Métodos de preprocesamiento de datos inconsistentes en diferentes agentes locales. Estas son fuentes de problemas potenciales que pueden conducir a fallas inesperadas en la implementación. La confiabilidad participante y la calidad de los datos son un desafío adicional asociado con la calidad de los datos en PPFL es que es difícil detectar cuando algo sale mal. En algunos despliegues, es posible que algunos de los participantes puedan presentar datos de mala calidad o diseñados de maliciosa para reducir intencionalmente la calidad del modelo capacitado, y las protecciones de privacidad proporcionadas por PPFL los sistemas PPFL pueden dificultar estas acciones, ya que no hay una diferencia de participantes honestas y que no hay una gran cantidad de participantes. datos de baja calidad. Le preguntamos a algunos de los ganadores del desafío del Premio del Reino Unido-EE. UU. Sobre estos temas. Autores: ¿Cómo complican los sistemas PPFL la detección de participantes maliciosos y datos de baja calidad? [One] El desafío es la detección precisa de los posibles atacantes. Debido a la naturaleza amigable con la privacidad de PPFL y la información limitada disponible sobre los datos de los usuarios debido al aprendizaje federado, distinguir entre ataques maliciosos y malas actualizaciones se vuelve difícil. Es difícil identificar y comprender al usuario detrás de los datos, lo que dificulta excluir eficientemente a los posibles atacantes del proceso de aprendizaje.[Another] El desafío gira en torno a la falta de medios efectivos para evaluar la confiabilidad de los usuarios, ya que no hay un punto de referencia para la comparación. La mayoría de los escenarios en PPFL involucran a los usuarios con conjuntos de datos no idénticos y distribuidos independientemente. Dado que los usuarios desconocen la distribución general de los datos sin procesar, el modelo global está significativamente influenciado por los variados datos aportados por diferentes usuarios. Esta variación puede conducir a la divergencia o dificultad para converger hacia un óptimo global. Además, sin conocer la respuesta correcta, los servidores centrales o los sistemas de aprendizaje federados son fácilmente engañados por ataques específicos que alimentan la información engañosa, potencialmente sesgando el modelo global en una dirección incorrecta. Los desafíos de los desafíos descritos en esta publicación fueron excluidos en su mayoría de los desafíos de premios del Reino Unido. Los datos se distribuyeron de manera idéntica e independiente entre los participantes, siguieron un formato previamente acordado y no incluyeron datos inválidos o envenenados. Algunas soluciones fueron sólidas contra ciertos tipos de comportamiento malicioso por parte de los participantes, pero los desafíos no requirieron que las soluciones fueran sólidas para las fallas bizantinas, situaciones en las que uno o más participantes pueden desviarse arbitrariamente de la protocolo (por ejemplo, eliminando la información de comunicación o la información de comunicación o al finalizar a otra parte, o al presentar datos envenenados). Como se mencionó en la última publicación, las técnicas seguras de validación de entrada pueden ayudar a prevenir el envenenamiento por datos. El trabajo existente sobre las defensas de envenenamiento de datos (en el aprendizaje federado no privado) se está adaptando a las defensas para el aprendizaje federado que presenta la privacidad, como Fltrust y Eiffel. Estas técnicas pueden ayudar a garantizar que los datos aportados por los participantes estén en el formato correcto y ayuden, en lugar de daños, el proceso de capacitación del modelo, sin requerir acceso directo a los datos en sí. Gran parte de esta investigación aún no se implementa en bibliotecas prácticas para PPFL, pero podemos esperar que estos resultados pasen de la investigación a la práctica en los próximos años.