Aufnahme der Sonne während einer Eruption (Quelle: SDO/AIA)

Éruptions solaires: prédiction de tempêtes géomagnétiques

Auteurs
Prof. Svyatoslav Voloshynovskiy, Prof. Samuel Krucker et Prof. Martin Melchior
Université de Genève et FHNW

Entretien avec les responsables du projet PNR 75.

Quel était l’objectif du projet?

L’activité solaire exerce une influence constante sur le champ géomagnétique qui englobe la surface terrestre et l’environnement spatial proche de la Terre. Les communications radio longue distance peuvent être perturbées voire interrompues, l’électronique des satellites peut être endommagée voire détruite, les lignes aériennes transpolaires doivent être détournées en raison d’une augmentation des doses de rayonnement et des problèmes de communication, la couche d’ozone peut être affaiblie pendant plusieurs mois, et les réseaux électriques peuvent être perturbés voire totalement interrompus pendant plusieurs heures.

L’objectif de ce projet était de mieux comprendre la physique du Soleil et de développer des méthodes de prédiction des éruptions solaires. Nous avons exploité l’énorme archive de données d’IRIS (Interface Region Imaging Spectrograph), le dernier satellite solaire de la NASA, car nous voulions développer des algorithmes d’apprentissage automatique permettant d’évaluer les données selon des schémas spatiaux et temporels. Pour ce projet, nous disposions de 30 To de données spectrales et d’images qui n’avaient pas encore été entièrement analysées à l’aide de méthodes d’apprentissage automatique, et pas à cette échelle.

Quels ont été les résultats du projet «Analyse automatique des éruptions solaires»?

Conformément à l’objectif principal du projet, à savoir l’étude de la physique sous-jacente des éruptions solaires et le développement de capacités pour les prédire, nous avons mis au point une série de méthodes pour atteindre cet objectif. Les méthodes développées ont été appliquées aux données réelles de la mission IRIS de la NASA. Les principaux résultats ont été publiés dans 7 publications et présentés lors de 11 conférences et ateliers internationaux.

Dans cette étude, nous avons abordé les principales questions de recherche suivantes: (1) identifier les spectres d’éruption typiques Mg-II à l’aide de l’apprentissage automatique, (2) explorer les informations mutuelles entre les lignes spectrales d’IRIS, (3) prédire des éruptions en temps réel d’après la distinction entre les spectres d’éruption et de non-éruption des régions actives, (4) détecter les éruptions solaires dans les données IRIS à l’aide d’un réseau tensoriel DCT, (5) examiner la classification de l’activité solaire basée sur des spectres Mg-II compressés et (6) classer les goulots d’étranglement d’information dans des systèmes extrêmement répartis.

Les premiers résultats indiquent que les données spectrales IRIS pourraient constituer un enrichissement utile du jeu de données magnétiques standard, car nous sommes parvenus à prédire une éruption solaire une demi-heure avant qu’elle ne se produise. La communauté est enthousiasmée par ces résultats et d’autres recherches sont en cours.

Quels sont les principaux messages du projet?

  • Les projets relatifs au Big Data doivent être multidisciplinaires et impliquer des experts du domaine dont est issu le Big Data, ainsi que des spécialistes de l’apprentissage automatique et du calcul haute performance.
  • Compte tenu du manque d’étiquettes dans les applications de Big Data, les experts du domaine doivent soigneusement valider les résultats obtenus à l’aide des outils d’apprentissage automatique développés.
  • Une nouvelle génération de techniques d’apprentissage automatique, basées sur l’apprentissage non supervisé ou semi-supervisé, doit être conçue et maîtrisée.

Quelles sont les implications selon vous?

Les principales implications pour la pratique et la science sont les suivantes:

  • Nous avons démontré que les données spectrales à haute résolution dans la plage de l’ultraviolet offrent un potentiel élevé pour mieux comprendre et éventuellement prédire des éruptions solaires et l’activité solaire en général.
  • La présence de données étiquetées est hautement improbable dans de nombreuses applications du Big Data. Une implication importante du projet est le développement d’outils d’apprentissage automatique non supervisés pour le regroupement automatique des données et l’analyse des relations statistiques. Nous pensons que ces techniques sont d’une grande importance tant pour la science que pour la pratique.
  • Une autre implication est la possibilité d’effectuer une classification fiable de phénomènes physiques complexes sur des données compressées spécialement conçues à cet effet, ce qui réduit considérablement l’effort d’apprentissage et les exigences en matière d’infrastructure informatique. De plus, une telle compression pourrait être transférée directement aux capteurs de données et aux dispositifs de collecte de données, ce qui réduirait fortement la charge de communication dans les applications du Big Data. Enfin, les techniques développées pourraient être d’une grande utilité pour les applications respectueuses de la vie privée, dans lesquelles les attributs utiles peuvent être encodés dans les représentations compressées, tandis que les attributs pertinents pour la protection des données sont compressés et supprimés.

Nous sommes convaincus que les connaissances scientifiques et les résultats techniques de ce projet pourraient être d’une grande utilité pour de nombreux projets interdisciplinaires qui font face à des défis similaires liés au Big Data.

Le concept de Big Data est très flou. Pouvez-vous nous expliquer ce qu’il signifie pour vous?

Selon nous, trois dimensions principales qualifient ce projet de «Big Data». Premièrement, le gros volume de données: les données de notre projet représentent plusieurs dizaines de To, un volume qui requiert un stockage spécifique et des efforts pour le déplacer d’un endroit à l’autre. Deuxièmement, la grande dimensionnalité: les spectres dans nos données sont représentés par plusieurs centaines de compartiments, qui sont chacun représentés par une dimension propre. Troisièmement, le nombre d’échantillons: bien que nos données ne contiennent qu’un nombre limité d’observations, elles comprennent quelques milliards de spectres individuels – les objets sur lesquels porte la plupart de nos études. Enfin, s’agissant du nombre de modalités, nos données sont représentées à la fois par des séries chronologiques de lignes spectrales et par des images bidimensionnelles qui décrivent les mêmes phénomènes. Les données utilisées dans notre projet sont donc un exemple typique de scénario Big Data dans les applications scientifiques.

A propos du projet

Liens supplémentaires