Modelle maschinellen Lernens: Robustheit und Verallgemeinerung

Autor
Prof. Volkan Cevher
EPFL

Gespräch mit dem Projektleiter des NFP75-Projekts.

Was war das Ziel Ihres Projekts?

Wir haben drei miteinander verknüpfte Forschungsbereiche untersucht: (1) einen exakten, skalierbaren Rahmen für Prognosen mit neuronalen Netzen und Langevin-Dynamik, (2) einen flexiblen, robusten Entscheidungsrahmen durch selbstverstärkendes Lernen sowie (3) die Verallgemeinerung und Zertifizierung von neuronalen Netzen

Resultate?

Wir haben einen Optimierungsrahmen zur Schätzung der Lipschitz-Konstante neuronaler Netze entwickelt, der für Verallgemeinerung und Verifizierung entscheidend ist. Der Ansatz basiert auf der Suche nach einem Polynomzertifikat über Krivine-Zertifikate und Lasserre-Hierarchien. Ausserdem hat das Team die Regulierung von neuronalen Netzen mithilfe der 1-Path-Norm untersucht und Berechnungstools zur Schaffung numerischer Lösungen entwickelt. Zudem konnten neue Tools zur Quantifizierung der Lerngeneralisierung hergeleitet werden.

Wir haben Probleme im Bereich maschinelles Lernen betrachtet, bei denen eine Lehrperson Beispiele zur Beschleunigung des Lernens bereitstellte, welche die Vielfalt der Schülerinnen und Schüler hinsichtlich ihrer Lernfortschritte berücksichtigten. Wir haben dieses Problem auch auf den Bereich des inversen selbstverstärkenden Lernens ausgedehnt, wobei wir festgestellt haben, dass der Lernfortschritt drastisch beschleunigt werden kann.

Schliesslich haben wir einen neuen Rahmen für gemischte Nash-Gleichgewichte für ein robustes selbstverstärkendes Lernen entwickelt. Der Kerngedanke besteht dabei darin, eine gehobene Version des Problems des robusten selbstverstärkenden Lernens zu betrachten und dann die entwickelte Langevin-Dynamik zu verwenden, um Lösungsverteilungen zu nutzen. Dieser Ansatz verstärkt nicht nur die Robustheit, sondern auch die Verallgemeinerung im Allgemeinen.

Was sind die Hauptaussagen des Projekts?

  • Angesichts von Big Data und neuronalen Netzwerkmodellen stehen Algorithmen vor grösseren Herausforderungen als der Skalierbarkeit, um nachweislich korrekte, unvoreingenommene und faire maschinelle Lernmodelle zu entwickeln.
  • Wir brauchen einheitliche Optimierungs- und Darstellungsgrundlagen dafür, wie wir Funktionen über nichtlineare Darstellungen wie neuronale Netze erfassen, wie wir unsere Lernziele aufstellen, die unsere grundlegenden Ziele bestimmen, und wie wir diese Ziele optimieren, um numerische Lösungen auf skalierbare Weise zu erhalten.
  • Echte Fortschritte im Bereich des maschinellen Lernens erfordern koordinierte Anstrengungen auf der Grundlage theoretischer und algorithmischer Grundlagen, die für ein gegebenes statistisches Risiko die konkurrierenden Rollen von Daten- und Darstellungsgrösse, Rechenleistung und Robustheit ausgleichen.

Welche wissenschaftlichen Implikationen sehen Sie?

Dank neuronaler Netze, schnellerer Berechnungen und riesiger Datensätze steht das maschinelle Lernen unter steigendem Druck, automatisierte Lösungen für noch schwierigere Aufgaben in der realen Welt zu liefern, welche die menschliche Leistung übertreffen und aufgrund der potenziell enormen technologischen und gesellschaftlichen Vorteile immer schnellere Reaktionszeiten ermöglichen. Es überrascht nicht, dass die Lernformulierungen für neuronale Netze trotz ihrer Skalierbarkeit eine grundlegende Herausforderung für die Backend-Lernalgorithmen darstellen, insbesondere aufgrund der Existenz von Fallen in der nicht-konvexen Optimierungslandschaft, z. B. Sattelpunkten, die verhindern können, dass Algorithmen «gute» Lösungen erhalten.

Unsere Forschung hat gezeigt, dass das Dogma der nicht-konvexen Optimierung falsch ist, indem wir belegen konnten, dass skalierbare stochastische Optimierungsalgorithmen Fallen vermeiden und schnell lokal optimale Lösungen finden können. In Verbindung mit den Fortschritten im Bereich des Repräsentationslernens, z. B. bei überparametrisierten neuronalen Netzen, können solche lokalen Lösungen global optimal sein. Leider haben wir auch bewiesen, dass die zentralen Min-Max-Optimierungsprobleme beim maschinellen Lernen, z. B. generative adversarische Netze und verteilungsrobustes maschinelles Lernen, falsche Attraktoren enthalten, die keine stationären Punkte der ursprünglichen Lernformulierung enthalten. Die Algorithmen sind in der Tat einer grösseren Herausforderung ausgesetzt, zu der auch unvermeidliche Konvergenzfehler gehören, was die Stagnation ihrer Fortschritte trotz der beeindruckenden früheren Demonstrationen erklärt.

Welche Empfehlungen hat Ihr Projekt?

Wir brauchen in der Schweiz eine gemeinsame technische Arbeitsgruppe für die Theorie des maschinellen Lernens und für Optimierungsalgorithmen, wenn wir uns in Zukunft zunehmend auf die automatisierte Entscheidungsfindung auf der Grundlage von Big Data verlassen wollen. Wir brauchen neue Theorien und Methoden für eine zuverlässige und nachhaltige Art der Zertifizierung von Entscheidungen, um sicherzustellen, dass sie unvoreingenommen und fair sind. Dies erfordert ein umfassendes Fachwissen darüber, wie wir Daten generieren, wie wir unsere Lernformeln und Modelle aufstellen und wie wir diese Formeln optimieren.

Zum Projekt

Weiterführende Links