Aufnahme der Sonne während einer Eruption (Quelle: SDO/AIA)

Sonneneruptionen: geomagnetische Stürme vorhersagen

Autoren
Prof. Svyatoslav Voloshynovskiy, Prof. Samuel Krucker und Prof. Martin Melchior
Université de Genève und Fachhochschule Nordwestschweiz

Gespräch mit den Projektleitern des NFP75-Projekts.

Was war das Ziel des Projekts?

Die Sonnenaktivität hat einen ständigen Einfluss auf das geomagnetische Feld, das die Erdoberfläche und die erdnahe Weltraumumgebung umfasst. So kann der Fernfunkverkehr gestört oder unterbrochen werden, die Satellitenelektronik kann beschädigt oder zerstört werden, transpolare Flugrouten müssen wegen erhöhter Strahlungsdosen und Kommunikationsproblemen umgeleitet werden, die Ozonschicht kann für mehrere Monate geschwächt werden, und die Stromnetze können für mehrere Stunden gestört oder ganz unterbrochen werden.

Ziel dieses Projekts war es, ein besseres Verständnis der Physik der Sonne zu erlangen und Methoden zur Vorhersage von Sonneneruptionen zu entwickeln. Wir nutzten das riesige Datenarchiv von IRIS (Interface Region Imaging Spectrograph), dem neuesten Sonnensatelliten der NASA, und wollten Algorithmen für maschinelles Lernen entwickeln, um die Daten nach räumlichen und zeitlichen Mustern auszuwerten. Für dieses Projekt standen uns 30 TB an Spektral- und Bilddaten zur Verfügung, die noch nicht vollständig mit Methoden des maschinellen Lernens untersucht worden waren, und auch nicht in diesem grossen Umfang.

Was waren die Ergebnisse des Projekts «Automatische Analyse von Sonneneruptionen»?

Entsprechend dem Hauptziel des Projekts, die den Sonneneruptionen zugrundeliegende Physik zu erforschen und Fähigkeiten zu ihrer Vorhersage zu entwickeln, haben wir eine Reihe von Methoden entwickelt, um dieses Ziel zu erreichen. Die entwickelten Methoden wurden auf die realen Daten der IRIS-Mission der NASA angewandt. Die wichtigsten Ergebnisse wurden in 7 Publikationen veröffentlicht und auf 11 internationalen Konferenzen und Workshops vorgestellt.

Im Rahmen dieser Studie haben wir uns mit den folgenden Hauptforschungsfragen beschäftigt: (1) Identifizierung typischer Mg-II-Flare-Spektren mit Hilfe von maschinellem Lernen, (2) Erforschung der gegenseitigen Information zwischen IRIS-Spektrallinien, (3) Echtzeit-Vorhersage von Flare-Spektren auf der Grundlage der Unterscheidung zwischen flackernden und nicht flackernden Spektren aktiver Regionen, (4) Erkennung von Sonneneruptionen in IRIS-Daten mit Hilfe von DCT-Tensor-Net, (5) Untersuchung der Klassifizierung der Sonnenaktivität auf der Grundlage komprimierter Mg-II-Spektren und (6) Klassifizierung von Informationsengpässen in extrem verteilten Systemen. Erste Ergebnisse deuten darauf hin, dass IRIS-Spektraldaten eine nützliche Bereicherung des magnetischen Standarddatensatzes darstellen könnten, da es uns gelungen ist, eine Sonneneruption eine halbe Stunde vor ihrem Auftreten vorherzusagen. Die Gemeinschaft ist von diesen Ergebnissen begeistert und weitere Forschungen sind im Gange.

Was sind die Hauptaussagen des Projekts?

  • Die Projekte im Bereich Big Data sollten multidisziplinär sein und Fachleute aus dem Bereich, aus dem die Big Data stammen, sowie aus den Bereichen maschinelles Lernen und Hochleistungsrechnen einbeziehen.
  • Angesichts des Mangels an Labels bei Big-Data-Anwendungen sollten Fachleute des Bereichs die Ergebnisse sorgfältig validieren, die von den entwickelten maschinellen Lernwerkzeugen erzielt wurden.
  • Eine neue Generation von Techniken des maschinellen Lernens, die auf unüberwachtem oder halbüberwachtem Lernen basieren, sollte weiterentwickelt und beherrscht werden.

Welche Implikationen sehen Sie?

Die wichtigsten Implikationen für Praxis und Wissenschaft sind:

  • Wir haben gezeigt, dass hochauflösende Spektraldaten aus dem ultravioletten Bereich ein hohes Potenzial für ein tieferes Verständnis und eine mögliche Vorhersage von Sonneneruptionen und der Sonnenaktivität im Allgemeinen bieten.
  • Das Vorhandensein von Daten mit Labels ist bei vielen Big-Data-Anwendungen höchst unwahrscheinlich. Eine wichtige Implikation des Projekts ist die Entwicklung von unüberwachten maschinellen Lernwerkzeugen für die automatische Datenclusterung und die Analyse statistischer Beziehungen. Wir glauben, dass diese Techniken sowohl für die Wissenschaft als auch für die Praxis von grosser Bedeutung sind.
  • Eine weitere Implikation ist die Möglichkeit, die zuverlässige Klassifizierung komplexer physikalischer Phänomene auf speziell entwickelten komprimierten Daten durchzuführen, was zu einer erheblichen Vereinfachung des Trainingsaufwands und der Anforderungen an die Computerinfrastruktur führt. Darüber hinaus könnte eine solche Komprimierung direkt auf Datensensoren und Datenerfassungsgeräte verlagert werden, was zusätzlich die Kommunikationslast in Big-Data-Anwendungen drastisch reduzieren würde. Schlussendlich könnten die entwickelten Techniken von grossem Interesse für datenschutzfreundliche Anwendungen sein, bei denen die nützlichen Attribute in den komprimierten Darstellungen kodiert werden können, während die datenschutzrelevanten Attribute komprimiert und entfernt werden.

Wir sind überzeugt, dass die wissenschaftlichen Erkenntnisse und technischen Ergebnisse dieses Projekts für viele interdisziplinäre Projekte, die sich ähnlichen Herausforderungen im Zusammenhang mit Big Data stellen, von grossem Interesse sein könnten.

Big Data ist ein sehr vager Begriff. Können Sie uns erklären, was Big Data für Sie bedeutet?

Wir sehen drei Hauptdimensionen, die dieses Projekt zu Big Data machen. Erstens das grosse Datenvolumen: Unsere Projektdaten umfassen mehrere Dutzend TB, eine Menge, die eine besondere Speicherung und einige Anstrengungen erfordert, um sie von einem Ort zum anderen zu bewegen. Zweitens die grosse Dimensionalität: Die Spektren in unseren Daten werden durch mehrere hundert Bins dargestellt, die jeweils durch eine eigene Dimension repräsentiert werden. Drittens in der Anzahl der Stichproben: Obwohl unsere Daten nur eine begrenzte Anzahl von Beobachtungen enthalten, umfassen sie dennoch einige Milliarden einzelner Spektren – die Objekte, die für die meisten unserer Studien von Interesse sind. Was schlussendlich die Anzahl der Modalitäten angeht, so werden unsere Daten sowohl durch Zeitreihen von Spektrallinien als auch durch zweidimensionale Bilder dargestellt, die dieselben Phänomene beschreiben. Daher sind die in unserem Projekt verwendeten Daten ein typisches Beispiel für ein Big-Data-Szenario in wissenschaftlichen Anwendungen.

Zum Projekt

Weiterführende Links