Coresets: du big data avec moins de données

Auteur
Prof. Andreas Krause
ETH Zurich

Entretien avec le responsable du projet PNR 75.

Quel était l’objectif de votre projet «Scaling up by scaling down»?

Nous avons développé de nouveaux algorithmes pour l’analyse efficace de grands ensembles de données. L’objectif était de regrouper ou de compresser les données de façon à ce que les données compressées permettent de former des modèles d’apprentissage automatique avec une perte de précision minimale. Comme ces données sont beaucoup plus petites que les données originales, les «coresets» résultant de la compression peuvent être traités avec un niveau élevé de robustesse et de précision.

Quels résultats ont été obtenus?

L’un des principaux résultats du projet est la construction de nouveaux coresets qui sont compatibles avec les modèles de réseaux neuronaux profonds modernes. L’idée centrale est d’optimiser les pondérations associées aux différents points de données de façon à ce qu’un modèle formé d’après les données pondérées maximise la précision de prédiction de l’ensemble de données complet. Au lieu d’un simple sous-échantillonnage uniforme des données, qui ne permet pas de saisir correctement les cas marginaux et les événements rares, nos coresets optimisés synthétisent systématiquement et échantillonnent de manière adaptative l’ensemble des données. Nos approches permettent d’apprendre des modèles complexes en ligne, même sur des flux de données non stationnaires (c’est-à-dire où la distribution sous-jacente des exemples évolue au fil du temps, par exemple en raison des tendances saisonnières). Elles fournissent également des moyens très efficaces pour l’apprentissage semi-supervisé actif. En d’autres termes, ces méthodes sont capables de déterminer, à partir d’un grand ensemble de données non étiquetées, un petit sous-ensemble de points à étiqueter de façon à optimiser la précision prédictive lors de la propagation des informations d’étiquetage à l’aide des techniques modernes d’apprentissage profond semi-supervisé.

Quels sont les principaux messages du projet?

  • Les coresets offrent un mécanisme efficace pour synthétiser et compresser de vastes ensembles de données dans le but de former des modèles d’apprentissage automatique précis. Au lieu de simplement sous-échantillonner les données de manière uniforme, avec le risque de passer à côté de cas marginaux importants, les coresets synthétisent systématiquement l’ensemble des données.
  • Les stratégies d’échantillonnage adaptatif inspirées des coresets peuvent être utilisées efficacement pour accélérer la formation des modèles d’apprentissage automatique.
  • Nos nouveaux coresets à deux niveaux permettent de compresser les données et d’adopter des approches efficaces pour gérer les flux de données non stationnaires et réduire les coûts d’étiquetage, même pour les modèles complexes d’apprentissage profond.

Quelles sont les implications scientifiques selon vous?

D’une part, il y a des implications pour les projets de sciences des données appliquées: les coresets constituent une opportunité précieuse pour l’analyse de données évolutive, même pour les modèles d’apprentissage automatique modernes tels que les réseaux neuronaux. Ils sont particulièrement prometteurs pour des tâches telles que l’apprentissage actif (où l’efficacité de l’étiquetage joue un rôle central), ainsi que pour l’apprentissage sur des flux de données. Le résumé systématique qu’offrent les coresets peut servir d’approche naturelle pour traiter les déséquilibres de données, identifier les cas marginaux, etc.

D’autre part, il y a aussi des implications pour la recherche dans le domaine de l’apprentissage automatique: en particulier, les constructions de coresets à deux niveaux ouvrent de nouvelles perspectives pour la poursuite des recherches algorithmiques et d’autres extensions algorithmiques, par exemple dans le contexte de l’apprentissage automatique. Nos approches d’échantillonnage adaptatif ont déjà donné lieu à des travaux de suivi dans l’apprentissage hostile au risque des modèles de réseaux neuronaux profonds.

La notion de «Big Data» est très vague. Pouvez-vous nous expliquer ce qu’elle signifie pour vous?

Ce projet s’est penché sur un aspect central de l’analyse du Big Data, à savoir comment synthétiser de grands ensembles de données d’une manière suffisante pour former des modèles d’apprentissage automatique performants. En utilisant l’idée des coresets, il est possible de parvenir à une réduction substantielle des données avec une perte de précision minimale. La sélection optimisée surpasse largement les approches plus simples, telles que le sous-échantillonnage aléatoire uniforme des données.

A propos du projet

Liens supplémentaires