Datenstromanalytik mit Tools zur schnellen und Datenschutz-gerechten Verarbeitung

Autoren
Prof. Michael Böhlen und Prof. Abraham Bernstein
Universität Zürich

Gespräch mit den Projektleitern des NFP75-Projekts.

Was war das Ziel Ihres Projekts «Datenschutzgerechte Datenstromanalytik für Nicht-Informatiker»?

Ziel unseres Projekts ist es, ein Analysesystem im Petabyte-Bereich aufzubauen, das es auch Nicht-Informatikerinnen und -Informatikern ermöglicht, Hochleistungsdatenströme zu untersuchen. Unsere Lösung unterstützt fortgeschrittene statistische Operationen in Echtzeit und gewährleistet den Datenschutz. Um die Robustheit und Funktionalität des Systems zu bewerten, haben wir die Verarbeitungspipeline für das australische Radioteleskop Square Kilometer Array Pathfinder nachgebildet, das bis zu 2,5 Gigabyte pro Sekunde an Rohdaten erzeugt. Um die Wahrung der Privatsphäre zu bewerten, haben wir die Fernsehgewohnheiten von rund 3 Millionen Personen analysiert.

Was waren die Resultate?

Zunächst haben wir neue Algorithmen entwickelt, die es ermöglichen, die Fourier-Transformation zur inkrementellen Verarbeitung von Datenströmen mit hoher Geschwindigkeit und grossem Volumen zu nutzen. Der erste Algorithmus, die Single Point Incremental Fourier Transform (SPIFT), nutzt Twiddle-Faktoren, um die Komplexität der Verarbeitung einer einzelnen neuen Beobachtung im Datenstrom zu reduzieren. SPIFT schlägt zirkuläre Verschiebungen vor, um die Komplexität von einer quadratischen auf eine lineare Anzahl von Multiplikationen zu reduzieren. Der zweite Algorithmus, MPIFT (Multi Point Incremental Fourier Transform), verarbeitet Stapel von Beobachtungen.

Zweitens haben wir deklarative Hochsprachen mit funktionalen Erweiterungen für lineare Algebra-Operationen erweitert. Konkret haben wir die relationale Algebra bzw. SQL auf elegante Weise um lineare Algebra-Operationen erweitert und ein System entwickelt, das die funktionale Erweiterung in den Kern des MonetDB-Spaltenspeichers integriert.

Drittens haben wir SihlQL entwickelt, eine von SPARQL inspirierte Abfragesprache für die datenschutzgerechte Abfrage von RDF-Datenströmen. Der Ausgangspunkt war, einen leicht verständlichen probabilistischen Parameter für Systeme vorzuschlagen, die auf differentiellem Datenschutz beruhen und es Domänenfachleuten ermöglichen, das gewünschte Mass an Datenschutz einfach anzugeben. Ausgehend von SihlQL haben wir dann ein Compiler entwickelt, der die Abfragen in Apache Flink-Workflows umwandelt. Das resultierende System, SihlMill, wurde als Open-Source-Projekt veröffentlicht und implementiert datenschutzfreundliche Algorithmen aus dem Stand der Technik sowie neue Mechanismen, die die Ausdruckskraft von SihlQL erweitern.

Was sind die Hauptaussagen des Projekts?

Insight #1. In Bereichen, in denen die algorithmischen Anforderungen gut verstanden werden, ist die Big-Data-Technologie weitgehend öffentlich zugänglich.

Dies führt zu zwei wichtigen Botschaften: Erstens muss die Schweiz, da der Zugang zur Technologie nicht der wichtigste Wettbewerbsfaktor ist (aufgrund ihrer Open-Source-Verfügbarkeit), ein ausreichendes Angebot an qualifizierten Arbeitskräften sicherstellen, welche die demokratisierte Big-Data-Technologie nutzen können. Andernfalls wird sie wahrscheinlich zurückfallen. Zweitens muss die Schweiz untersuchen, ob es kritische Bereiche gibt, in denen die entsprechenden Algorithmen noch nicht existieren, und Mittel finden, um Anreize für deren Entwicklung zu schaffen.

Insight #2. Techniken zum Schutz der Privatsphäre bei der Datenverarbeitung sind verfügbar, erfordern aber ein angemessenes Verständnis ihrer Funktionsweise und Parameter.

Deshalb muss die Schweiz dafür sorgen, dass die Nutzenden von Big Data die verschiedenen Techniken zur Wahrung der Privatsphäre kennen. Darüber hinaus müssen die Personen, die diese Techniken anwenden, für die Fallstricke der Bedeutung der Parameter sensibilisiert und mit den entsprechenden Werkzeugen ausgestattet werden, um angemessene Parameterwerte zu bestimmen. Alternativ (oder zusätzlich) sollte die Schweiz in die Entwicklung von Techniken zur Wahrung der Privatsphäre mit intuitiveren Metriken investieren.

Insight #3. Techniken zur datenschutzgerechten Datenverarbeitung sind verfügbar, erfordern aber eine Sensibilität für die Abwägung zwischen der Wahrung der Privatsphäre und der Qualität der Ergebnisse.

In der Schweiz muss eine Kultur entwickelt werden, in welcher der «Preis» des Datenschutzes (in Bezug auf den Aufwand bei der Systementwicklung, -implementierung und -wartung sowie die möglichen Auswirkungen auf die Qualität der Antworten) verstanden und akzeptiert wird. Zu diesem Zweck ist eine öffentliche Debatte über den Schutz der Privatsphäre gegenüber der Ergebnisqualität und der Einfachheit der Verarbeitung sowie über die damit verbundenen Kompromisse erforderlich.

Welche wissenschaftlichen Implikationen sehen Sie?

Wissenschaftliche Implikation #1: Die Schweiz muss untersuchen, in welchen kritischen Bereichen spezialisierte Algorithmen benötigt werden, die noch nicht existieren, und die Mittel finden, um sie zu entwickeln.

Unterstützende Argumente: Wir haben festgestellt, dass Open-Source-Infrastrukturen für die Verarbeitung von Big Data mit geeigneten Standardeinstellungen für viele Anwendungen leicht verfügbar sind (was uns dazu veranlasste, einen Untersuchungspfad des Projekts aufzugeben). Ausserdem scheint es, dass für viele Bereiche auch öffentlich zugängliche Algorithmen verfügbar sind. Wie unsere Untersuchung im Bereich der Radioastronomie zeigt, erfordern einige Bereiche jedoch immer noch eine enorme Menge an manueller Codierung, und effiziente Algorithmen müssen erst noch entwickelt werden. Es gilt also, diese wissenschaftlichen Lücken zu identifizieren und durch Forschung zu schliessen, um die Hürde für die Nutzung von Big Data zu senken.

Wissenschaftliche Implikation #2: Wir brauchen mehr Forschung zu einfach handhabbaren Techniken zur Wahrung der Privatsphäre.

Unterstützende Argumente: In den letzten Jahren wurde eine Reihe von datenschutzfreundlichen Datenverarbeitungskonzepten veröffentlicht (darunter auch unser SihlQL). Daher ist es wahrscheinlich, dass die blosse Einbeziehung von Techniken zur Wahrung der Privatsphäre einfacher wird. Das Verständnis ihrer Parametereinstellungen ist jedoch nicht einfacher geworden. Einer der zentralen Parameter der differenziellen Privatsphäre (d. h. 𝜀) ist intuitiv schwer zu erfassen. Ähnlich wie bei der Verfügbarkeit von Big-Data-Infrastrukturen sind wir daher der Ansicht, dass schlüsselfertige Entwicklungslösungen zur Wahrung der Privatsphäre erforscht werden müssen, die einfach genug zu bedienen sind, um die Akzeptanz zu fördern.

Welche Empfehlungen hat Ihr Projekt?

Politische Implikation #1: Die Schweiz muss ein ausreichendes Angebot an qualifizierten Arbeitskräften sicherstellen, welche die demokratisierte Big-Data-Technologie nutzen können.

Unterstützende Argumente: Wie bereits erwähnt, haben wir festgestellt, dass die Open-Source-Infrastruktur für die Verarbeitung von Big Data für viele Anwendungen ausreicht. Folglich scheint es, dass der Zugang zur Technologie nicht der wichtigste Wettbewerbsfaktor ist. Vielmehr ist es der Zugang zu Menschen, welche die Technologie nutzen können.

Politische Implikation #2: Es muss eine öffentliche Debatte über die Kompromisse geführt werden, die beim Einsatz von Techniken zur Wahrung der Privatsphäre eingegangen werden müssen.

Unterstützende Argumente: Techniken zur Wahrung der Privatsphäre sind zwar verfügbar (wenn auch, wie oben erwähnt, schwer einzustellen), aber die Menschen müssen die Kompromisse verstehen, die mit dem Einsatz dieser Techniken verbunden sind. Selbst bei der Verwendung von Techniken mit verständlichen Parametern ist immer noch unklar, wie man angemessene Ziele festlegen kann. Ist eine Wahrscheinlichkeit von 5 Prozent, dass Informationen durchsickern, ein akzeptables Risiko? Ist es ein akzeptables Risiko, wenn der Familienstand oder der HIV-Infektionsstatus einer Person durchsickert? Was ist mit dem Covid-Infektionsstatus während einer Pandemie (oder in «normalen» Zeiten)? Diese Fragen sind nicht in erster Linie technischer Natur, sondern erfordern eine gesellschaftliche Diskussion. Wie die Diskussionen über die Verarbeitung von Gesundheitsdaten während der Pandemie zeigten, braucht die Schweiz eine aktive Debatte über diese Fragen.

Zum Projekt

Weiterführende Links