Coresets: Big Data mit weniger Daten

Autor
Prof. Andreas Krause
ETH Zürich

Gespräch mit dem Projektleiter des NFP75-Projekts.

Was war das Ziel Ihres Projekts «Scaling up by scaling down»?

Wir haben neue Algorithmen für die effiziente Analyse grosser Datensätze entwickelt. Ziel war es, die Daten so zusammenzufassen oder zu komprimieren, dass mit den komprimierten Daten maschinelle Lernmodelle mit minimalem Genauigkeitsverlust trainiert werden können. Da sie wesentlich kleiner sind als die Originaldaten, können die bei der Komprimierung entstehenden sogenannten Coresets mit einem hohen Mass an Robustheit und Genauigkeit verarbeitet werden.

Was waren die Resultate?

Ein zentrales Ergebnis unseres Projekts sind neuartige Coreset-Konstruktionen, die mit modernen tiefen neuronalen Netzwerkmodellen kompatibel sind. Die zentrale Idee besteht darin, die mit den verschiedenen Datenpunkten verbundenen Gewichte so zu optimieren, dass ein auf den gewichteten Daten trainiertes Modell die Vorhersagegenauigkeit für den gesamten Datensatz maximiert. Unsere optimierten Coresets fassen den Datensatz systematisch zusammen und nehmen adaptiv Stichproben, anstatt die Daten einfach nur einheitlich zu unterproben, wodurch Randfälle und seltene Ereignisse nicht richtig erfasst werden können. Unsere Ansätze ermöglichen das Online-Training komplexer Modelle, selbst bei nicht-stationären Datenströmen (d. h., wenn sich die zugrunde liegende Verteilung der eintreffenden Beispiele im Laufe der Zeit ändert, z. B. aufgrund saisonaler Trends). Sie bieten auch hocheffektive Mittel für aktives, halbüberwachtes Lernen. D.h., unsere Methoden sind in der Lage, aus einem grossen Satz an unmarkierten Daten eine kleine Teilmenge von Punkten zu bestimmen, die mit Labels zu markieren sind, sodass die Vorhersagegenauigkeit maximiert wird, wenn die Informationen der Labels mit modernen halbüberwachten Deep-Learning-Techniken weitergegeben werden.

Was sind die Hauptaussagen des Projekts?

  • Coresets bieten einen wirksamen Mechanismus für die Zusammenfassung und Komprimierung umfangreicher Datensätze zum Zwecke des Trainings präziser Modelle für maschinelles Lernen. Anstatt die Daten einfach einheitlich zu unterproben, wodurch die Gefahr besteht, dass wichtige Randfälle übersehen werden, fassen Coresets den Datensatz systematisch zusammen.
  • Adaptive Sampling-Strategien, die von Coresets inspiriert sind, können effektiv eingesetzt werden, um das Training von Modellen für maschinelles Lernen zu beschleunigen.
  • Unsere neuartigen zweistufigen Coresets ermöglichen eine Datenkomprimierung sowie effektive Ansätze für den Umgang mit instationären Datenströmen und die Reduzierung der Kosten für die Markierung mit Lables, selbst für komplexe Deep-Learning-Modelle.

Welche wissenschaftlichen Implikationen sehen Sie?

Einerseits sehen wir Implikationen für angewandte datenwissenschaftliche Projekte: Hier stellen Coresets eine wertvolle Möglichkeit für eine skalierbare Datenanalyse dar, selbst für moderne maschinelle Lernmodelle wie neuronale Netze. Sie sind besonders vielversprechend für Aufgaben wie aktives Lernen (bei dem die Effizienz der Markierung mit Labels eine zentrale Rolle spielt) sowie für das Lernen auf Datenströmen. Die systematische Zusammenfassung, die Coresets bieten, kann einen natürlichen Ansatz für den Umgang mit Datenungleichgewichten, die Identifizierung von Randfällen usw. darstellen.

Anderseits gibt es auch Implikationen auf die Forschung im Bereich des maschinellen Lernens: Insbesondere die zweistufigen Coreset-Konstruktionen eröffnen zahlreiche Möglichkeiten für weiterführende algorithmische Forschung und weitere algorithmische Erweiterungen, z.B. im Kontext des automatischen maschinellen Lernens. Unsere adaptiven Sampling-Ansätze haben bereits zu natürlichen Folgearbeiten beim risikoaversen Lernen von tiefen neuronalen Netzmodellen geführt.

Big Data ist ein sehr vager Begriff. Können Sie uns erklären, was Big Data für Sie bedeutet?

Dieses Projekt hat sich mit einem zentralen Aspekt der Big-Data-Analytik befasst, nämlich mit der Frage, wie grosse Datensätze so zusammengefasst werden können, dass sie für das Training leistungsstarker maschineller Lernmodelle ausreichen. Mithilfe der Idee der Coresets ist es möglich, eine erhebliche Datenreduzierung bei minimalem Genauigkeitsverlust zu erreichen. Die optimierte Auswahl übertrifft einfachere Ansätze, z. B. die gleichmässige zufällige Unterauswahl der Daten, bei weitem.

Zum Projekt

Weiterführende Links