Analyse de flux: traitement rapide et préservation de la vie privée

Auteurs
Prof. Michael Böhlen et Prof. Abraham Bernstein
Université de Zurich

Entretien avec les responsables du projet PNR 75.

Quel était l’objectif de votre projet «Analyse des flux de données respectant la confidentialité pour les non-informaticiens»?

L’objectif de notre projet était de développer un système d’analyse à l’échelle du pétaoctet permettant à des scientifiques non-informaticien.ne.s d’effectuer une analyse à haute performance des flux de données. Notre solution facilite les opérations statistiques avancées en temps réel et assure la confidentialité des données. Pour évaluer la robustesse et la fonctionnalité du système, nous avons reproduit le pipeline de traitement du radiotélescope australien «Square Kilometer Array Pathfinder», qui génère jusqu’à 2,5 gigaoctets par seconde de données brutes. Pour évaluer le respect de la confidentialité, nous avons analysé les habitudes télévisuelles de quelque trois millions de personnes.

Quels résultats ont été obtenus?

Premièrement, de nouveaux algorithmes ont été développés pour pouvoir utiliser la transformation de Fourier afin de traiter de manière incrémentielle des flux de données rapidement et dans des volumes importants. Le premier algorithme, dénommé Single Point Incremental Fourier Transform (SPIFT), utilise des facteurs Twiddle pour réduire la complexité du traitement d’une nouvelle observation dans le flux de données. SPIFT propose des décalages circulaires pour réduire la complexité d’un nombre quadratique à un nombre linéaire de multiplications. Le second algorithme, dénommé Multi Point Incremental Fourier Transform (MPIFT), traite des piles d’observations.

Deuxièmement, des langages déclaratifs de haut niveau ont été développés avec des extensions fonctionnelles pour les opérations d’algèbre linéaire. Concrètement, nous avons étendu intelligemment l’algèbre relationnelle ou SQL à des opérations de l’algèbre linéaire et conçu un système intégrant l’extension fonctionnelle au cœur de la mémoire organisée en colonnes MonetDB.

Troisièmement, nous avons développé SihlQL, un langage d’interrogation inspiré de SPARQL pour l’interrogation des flux de données RDF dans le respect de la protection des données. L’idée de départ était de proposer un paramètre probabiliste facile à comprendre pour les systèmes basés sur la protection différentielle des données et de permettre aux spécialistes du domaine d’indiquer facilement le niveau souhaité de protection des données. Un compilateur a ensuite été développé à partir de SihlQL pour transformer les requêtes en workflows Apache Flink. Le système obtenu, SihlMill, a été publié en tant que projet open source et implémente des algorithmes de l’état de la technique respectant la vie privée, ainsi que de nouveaux mécanismes qui étendent l’expressivité de SihlQL.

Quels sont les principaux messages du projeten des Projekts?

Insight #1. Dans les domaines où les exigences algorithmiques sont bien comprises, la technologie du Big Data est largement accessible au public.

Cela aboutit à deux messages importants: premièrement, comme l’accès à la technologie n’est pas le facteur concurrentiel le plus important (en raison de sa disponibilité en open source), la Suisse doit garantir un nombre suffisant de travailleuses et de travailleurs qualifié.e.s capables d’utiliser la technologie démocratisée du Big Data. Autrement, elle sera de plus en plus distancée. Deuxièmement, la Suisse doit examiner s’il existe des domaines critiques dans lesquels les algorithmes correspondants n’existent pas encore, et trouver des moyens de favoriser leur développement.

Insight #2. Les techniques de protection de la vie privée dans le traitement des données sont disponibles, mais nécessitent une compréhension appropriée de leur fonctionnement et de leurs paramètres.

C’est pourquoi la Suisse doit veiller à ce que les utilisatrices et utilisateurs du Big Data connaissent les différentes techniques de protection de la vie privée. De plus, les personnes utilisant ces techniques doivent être sensibilisées aux pièges liés à la signification des paramètres et être équipées d’outils appropriés pour déterminer des valeurs de paramètres appropriées. Alternativement (ou en plus), la Suisse devrait investir dans le développement de techniques de protection de la vie privée avec des mesures plus intuitives.

Insight #3. Des techniques de traitement des données respectueuses de la vie privée sont disponibles, mais requièrent une certaine sensibilité pour trouver le juste équilibre entre le respect de la vie privée et la qualité des résultats.

Il est essentiel de développer en Suisse une culture dans laquelle le «prix» de la protection des données est compris et accepté (par rapport aux efforts investis dans le développement, l’implémentation et la maintenance du système, ainsi qu’à l’impact potentiel sur la qualité des réponses). Un débat public est nécessaire sur la protection de la vie privée par rapport à la qualité des résultats et à la simplicité du traitement, ainsi que sur les compromis associés.

Quelles sont les implications scientifiques selon vous?

Implication scientifique #1: La Suisse doit déterminer dans quels domaines critiques des algorithmes spécialisés, qui n’existent pas encore, sont nécessaires et trouver les moyens de les développer.

Arguments d’appui: Nous avons constaté que les infrastructures open source pour le traitement du Big Data sont facilement accessibles avec des paramètres par défaut appropriés pour de nombreuses applications (ce qui nous a incités à abandonner une phase d’enquête du projet). De plus, il semble que des algorithmes accessibles au public soient aussi disponibles pour de nombreux domaines. Toutefois, comme le montre notre étude dans le domaine de la radioastronomie, certains domaines requièrent encore une quantité énorme de codage manuel, et des algorithmes efficaces doivent encore être développés. Il s’agit donc d’identifier ces lacunes scientifiques et de les combler grâce à la recherche afin de réduire les obstacles à l’utilisation du Big Data.

Implication scientifique #2: Davantage de recherches doivent être menées sur des techniques faciles à utiliser pour préserver la vie privée.

Arguments d’appui: Ces dernières années, un certain nombre de concepts de traitement des données respectueux de la vie privée ont été publiés (y compris notre SihlQL). Il est donc probable que la simple intégration des techniques de protection de la vie privée en soit facilitée. Toutefois, la compréhension de leurs paramétrages n’est pas devenue plus simple pour autant. L’un des principaux paramètres de la vie privée différentielle (c’est-à-dire 𝜀) est difficile à saisir de manière intuitive. Comme pour la disponibilité des infrastructures de Big Data, nous sommes donc d’avis qu’il faut rechercher des solutions de développement clés en main pour la protection de la vie privée, qui soient suffisamment simples à utiliser pour favoriser leur adoption.

Quelles sont les recommandations de votre projet?

Implication politique #1: La Suisse doit garantir un nombre suffisant de travailleuses et de travailleurs qualifiés capables d’utiliser la technologie démocratisée du Big Data.

Arguments d’appui: Comme déjà mentionné, nous avons constaté que l’infrastructure open source pour le traitement du Big Data est suffisante pour de nombreuses applications. Il semble donc que l’accès à la technologie ne soit pas le facteur concurrentiel le plus important, mais plutôt l’accès aux personnes qui peuvent utiliser la technologie.

Implication politique #2: Un débat public est nécessaire sur les compromis à faire lors de l’utilisation des techniques de protection de la vie privée.

Arguments d’appui: Les techniques de protection de la vie privée sont disponibles (même si difficiles à paramétrer, comme mentionné ci-dessus), mais les gens doivent comprendre les compromis liés à l’utilisation de ces techniques. Même en utilisant des techniques avec des paramètres compréhensibles, il est difficile de savoir comment fixer des objectifs appropriés. Une probabilité de 5% de fuites d’informations constitue-t-elle un risque acceptable? Le risque est-il acceptable si l’état civil ou l’état d’infection au VIH d’une personne est divulgué? Qu’en est-il de l’état d’infection au Covid pendant une pandémie (ou en période «normale»)? Ces questions ne sont pas principalement de nature technique, mais nécessitent un débat de société. Comme l’ont montré les discussions sur le traitement des données de santé pendant la pandémie, la Suisse a besoin d’un débat actif sur ces questions.

A propos du projet

Liens supplémentaires