Flux de données: monitoring en temps réel

Auteurs
Prof. Dmitriy Traytel et Prof. David Basin
Université de Copenhague, Danemark, et ETH Zurich

Home > Des infrastructures du big data plus efficaces > Flux de données: monitoring en temps réel

2. June 2022

Entretien avec les responsables du projet PNR 75 «Monitoring automatisé de grandes quantités de données».

Quel était l’objectif de votre projet?

Les règles font partie intégrante de notre réalité sociale et du monde des affaires. Dans de nombreux domaines, les règles sont suffisamment précises pour permettre l’utilisation d’algorithmes de contrôle évolutifs et efficaces visant à démontrer leur respect ou à identifier les situations dans lesquelles elles sont enfreintes.

L’objectif du projet était de développer des algorithmes qui contrôlent en continu des données entrantes pour vérifier si elles contreviennent à des règles prédéfinies. Plus elles sont complexes, plus le contrôle de quantités énormes de données devient difficile. L’expressivité du langage d’entrée influence la complexité réglementaire éventuelle et donc l’efficacité de l’algorithme de contrôle. Notre objectif était de trouver des algorithmes de contrôle efficaces pour des langues d’entrée très expressives et pouvant donc s’utiliser dans la pratique.

Quels résultats ont été obtenus?

Il est possible d’améliorer sensiblement l’efficacité des algorithmes de contrôle si l’on envisage d’autres modes de fonctionnement pour les dispositifs de vérification. Cela est particulièrement pertinent pour les flux de données à grande vitesse, avec des millions d’événements qui arrivent sur le moniteur à chaque seconde. Notre projet démontre de quelle manière de tels flux de données peuvent être traités de façon algorithmique.

L’évolutivité de ces algorithmes peut être considérablement améliorée par la parallélisation des données en mode Black Box. «Black Box» signifie qu’il n’est pas nécessaire de modifier les algorithmes de contrôle existants. Notre projet démontre plutôt comment améliorer l’évolutivité en répartissant le flux d’événements d’entrée entre différentes instances (identiques) du moniteur, sans compromettre l’exactitude de celui-ci. À titre d’exemple concret, l’utilisation de 16 instances de moniteur nous a permis de multiplier par 10 le nombre d’événements que nous pouvons traiter en temps réel.

Votre projet a-t-il des implications scientifiques?

Les méthodes formelles sont souvent considérées comme peu pratiques du fait qu’elles ne sont «pas évolutives». Mais cette «excuse» n’est plus valable: la vérification d’exécution est une méthode formelle légère qui peut être adaptée, comme l’a démontré notre projet.

Votre projet propose-t-il des recommandations?

Dans les domaines où les directives peuvent être formulées de manière suffisamment précise et où les événements à contrôler peuvent être observés ou consignés par des systèmes informatiques, il est possible, faisable et même souhaitable de remplacer les processus d’audit et de conformité, effectués par l’homme et sujets aux erreurs, par des processus informatisés.

La notion de «Big Data» est très vague. Pouvez-vous nous expliquer ce qu’elle signifie pour vous?

La notion de «Big Data» doit toujours être considérée en rapport avec le problème algorithmique concerné. Certains problèmes sont simples d’un point de vue algorithmique. Par exemple, la recherche d’éléments fréquents dans des flux de données peut être effectuée de manière très efficace. C’est pourquoi la recherche sur le Big Data dans ce domaine se concentre sur des scénarios dans lesquels l’impossibilité d’examiner chaque élément implique d’avoir recours à des comptages approximatifs.

En revanche, le problème de contrôle que nous étudions est relativement complexe. Il implique de mettre en corrélation différents éléments dans le flux d’événements et éventuellement de les stocker. L’utilisation de la mémoire du moniteur influence également les quantités de données qu’un moniteur peut traiter en temps réel.

De ce point de vue, la notion de Big Data implique qu’une entrée de données dépasse les algorithmes connus pour un problème spécifique. Il s’agit d’une définition plutôt pessimiste, car n’importe quel algorithme peut être dépassé à un moment donné. Il n’existe donc pas de «solution» à ce problème de Big Data. Ce que nous pouvons faire, c’est repousser les limites en développant de meilleurs algorithmes ou en parallélisant le traitement des données. C’est précisément en cela que notre projet a contribué à modifier l’importance du Big Data pour le problème du contrôle.