Big Data Monitoring

Datenströme: Überwachung in Echtzeit

Autoren
Prof. Dmitriy Traytel und Prof. David Basin
Universität Kopenhagen, Dänemark, und ETH Zürich

Gespräch mit den Projektleitern des NFP75-Projekts «Automatisiertes Monitoring grosser Datenmengen».

Was war das Ziel Ihres Projekts?

Regeln sind fester Bestandteil unserer gesellschaftlichen Realität und unserer Geschäftswelten. In vielen Bereichen sind die Regeln so präzise, dass skalierbare und effiziente Überwachungsalgorithmen verwendet werden können, um entweder die Einhaltung der Regeln nachzuweisen oder Situationen zu ermitteln, in denen die Regeln verletzt werden.

Das Ziel des Projekts war es, Algorithmen zu entwickeln, die eingehende Daten kontinuierlich auf Regelverstösse überprüfen. Je komplexer die Regel ist, desto grösser wird die Herausforderung, sie anhand enormer Datenmengen effizient zu überprüfen. Die Ausdrucksstärke der Eingabesprache beeinflusst die mögliche Komplexität der Regeln und damit die Effizienz des Überwachungsalgorithmus. Unser Ziel war es, effiziente Überwachungsalgorithmen für sehr ausdrucksstarke und damit praktisch nutzbare Eingabesprachen zu finden.

Resultate?

Die Effizienz von Überwachungsalgorithmen kann erheblich verbessert werden, wenn man alternative Betriebsarten für Überwachungsgeräte in Betracht zieht. Dies ist besonders relevant für Datenströme mit Millionen von Ereignissen, die pro Sekunde am Monitor ankommen. Unser Projekt zeigt, wie solche Hochgeschwindigkeitsdatenströme algorithmisch verarbeitet werden können.

Die Skalierbarkeit solcher Algorithmen kann durch Black-Box-Datenparallelisierung erheblich verbessert werden. Black Box bedeutet hier, dass man bestehende Überwachungsalgorithmen nicht verändern muss. Stattdessen zeigt unser Projekt, wie man die Skalierbarkeit verbessern kann, indem man den Eingangsereignisstrom auf verschiedene (identische) Instanzen des Monitors aufteilt, ohne die Korrektheit des Monitors zu beeinträchtigen. Ein konkretes Beispiel: Durch die Verwendung von 16 Monitorinstanzen konnten wir die Anzahl der Ereignisse, die wir in Echtzeit verarbeiten können, um den Faktor 10 erhöhen.

Welche wissenschaftlichen Implikationen sehen Sie?

Formale Methoden werden oft als unpraktisch abgetan, weil sie «nicht skalierbar» sind. Diese «Ausrede» ist nicht mehr gültig: Die Laufzeitüberprüfung ist eine leichtgewichtige formale Methode, die skalierbar ist, wie unser Projekt gezeigt hat.

Welche Empfehlungen hat Ihr Projekt?

In Bereichen, in denen Richtlinien hinreichend präzise formuliert und die zu überwachenden Ereignisse von IT-Systemen beobachtet oder protokolliert werden können, ist es möglich, machbar und auch wünschenswert, fehleranfällige, von Menschen durchgeführte Prüfungs- und Compliance-Prozesse durch computergestützte Prozesse zu ersetzen.

Big Data ist ein sehr vager Begriff. Können Sie uns erklären, was Big Data für Sie bedeutet?

Der Begriff Big Data sollte immer im Zusammenhang mit dem jeweiligen algorithmischen Problem gesehen werden. Einige Probleme sind algorithmisch einfach. So lässt sich beispielsweise das Auffinden häufiger Elemente in Datenströmen sehr effizient bewerkstelligen. Daher konzentriert sich die Big-Data-Forschung in diesem Bereich auf Szenarien, in denen man nicht einmal jedes Element untersuchen kann und daher auf ungefähre Zählungen zurückgreift.

Im Gegensatz dazu ist das Überwachungsproblem, das wir untersuchen, vergleichsweise schwierig. Es erfordert die Korrelation verschiedener Elemente im Ereignisstrom und deren mögliche Speicherung. Die Speichernutzung des Monitors beeinflusst auch die Datenmengen, die ein Monitor in Echtzeit verarbeiten kann.

Unter diesem Gesichtspunkt bedeutet Big Data, dass ein Dateninput vorliegt, der die bekannten Algorithmen für ein bestimmtes Problem überfordert. Dies ist eine eher pessimistische Definition, da jeder Algorithmus irgendwann überfordert sein kann. Es gibt also keine «Lösung» für dieses Big-Data-Problem. Was wir tun können, ist die Grenzen zu verschieben, indem wir bessere Algorithmen entwickeln oder die Datenverarbeitung parallelisieren. Genau dadurch hat unser Projekt dazu beigetragen, die Bedeutung von Big Data für das Problem der Überwachung zu verändern.

Zum Projekt

Weiterführende Links