Was bringt Big Data den Klima-Wissenschaften?

Autoren
Benedikt Knüsel und Marius Zumwald
ETH Zürich

Klimawissenschaftlerinnen erstellen langfristige Berechnungen zur Entwicklung des Klimas in der Zukunft. Dafür verwenden sie Modelle, denen das aktuelle wissenschaftliche Verständnis des Klimasystems zugrunde liegt. Im Gegensatz hierzu sind Vorhersagen mit Hilfe von Big Data weitgehend «theoriefrei». Ein Vergleich der beiden Ansätze zeigt, unter welchen Voraussetzungen und in welcher Form Big-Data-Elemente wissenschaftlicher Erkenntnis dienlich sein können.

Beim Begriff «Big Data» denkt man weniger an Wissenschaft als vielmehr an grosse Internet-Konzerne. Beispielsweise verwenden Online-Versandhäuser Daten über ihre Kundschaft, um ihnen massgeschneiderte Kaufempfehlungen abzugeben. Hierzu wird das Nutzungsverhalten der Kundinnen mittels maschinellen Lernens ausgewertet, um Zusammenhänge zwischen Präferenzen für unterschiedliche Produkte zu ermitteln: Wer eben eine Bohrmaschine gekauft hat, hat vielleicht auch Interesse an Schrauben. Solche Vorhersagesysteme erhalten laufend Feedback, weil neue Kundinnen ein angebotenes Produkt kaufen (oder eben nicht), was neue Vorhersagen verfeinern kann. Diese Evaluation ist nicht nur nötig, weil neue Produkte erscheinen und neue Kundinnen generiert werden, sondern auch, weil sich das Nutzungsverhalten und die Präferenzen der Kundschaft ändern können. Bei typischen Big-Data-Prognosen trägt die konstante Evaluation also entscheidend zur Qualität bei.

Projektionen in den Klimawissenschaften

Eine fortlaufende Evaluation von Vorhersagen ist in vielen wissenschaftlichen Anwendungen nicht möglich oder erstrebenswert. Einerseits läuft der wissenschaftliche Forschungsprozess meist über repräsentative Stichproben und nicht über konstante Datenströme. Andererseits interessieren sich Wissenschaftlerinnen oft für Zeithorizonte, die diese Form der Evaluation nicht zulassen. So berechnet die Klimawissenschaft typischerweise die Entwicklung des Klimas über mehrere Jahrzehnte bis Jahrhunderte. Dazu kommt, dass wissenschaftliche Fehlprognosen weitreichende Folgen haben können, sofern gesellschaftliche Entscheide von gewisser Tragweite auf sie gestützt werden. Auf Versuch-und-Irrtum basierende Modelle lassen sich daher nicht im selben Ausmass einsetzen. Das Vertrauen in die Qualität klimawissenschaftlicher Projektionen rührt nicht nur daher, dass frühere Prognosen korrekt waren, wie im Falle von Big Data, sondern entspringt ganz wesentlich auch der Tatsache, dass die Modelle auf wissenschaftlichen Theorien aufgebaut sind.

Big Data in den Wissenschaften

Elemente dessen, was man gemeinhin mit Big Data assoziiert, lassen sich dennoch in wissenschaftlicher Forschung finden. So gibt es in den Klimawissenschaften Studien, die Resultate aus Google-Suchen verwenden, um die Verletzlichkeit von europäischen Städten gegenüber Hitzewellen abzuschätzen [1]. Andere Studien verwenden Twitter-Daten, um die verheerendsten Auswirkungen von Stürmen zu lokalisieren [2],[3]. In beiden Fällen würden sich dieselben Abschätzungen auch mit klassischen wissenschaftlichen Erhebungen durchführen lassen. Big Data erlaubt jedoch, Daten mit deutlich weniger Aufwand zu erheben. In anderen Fällen haben Wissenschaftlerinnen klassische klimatologische Daten verwendet und mittels maschinellen Lernens ausgewertet. Dank dieses Ansatzes haben Forscherinnen beispielsweise Echtzeitvorhersagen von Föhnereignissen erstellt [4] oder abgeschätzt, wie die globale Verteilung von Spurenelementen in Böden in einem wärmeren Klima aussehen könnte [5]. In diesen Beispielen bedeutet Big Data gegenüber klassischen wissenschaftlichen Methoden nicht nur einen Effizienzgewinn, sondern erlaubt auch Aussagen über noch ungenügend verstandene Phänomene. Denn Machine-Learning-Algorithmen können auch verwendet werden, wenn man ungefähr weiss, welche Variablen ein Phänomen beeinflussen (also z.B. Druckunterschiede zwischen Stationen auf der Alpensüd- und -nordseite, die für Föhn wichtig sind), ohne genau zu verstehen, wie die Zusammenhänge aussehen. In dieser Hinsicht kann Machine Learning Prozess-basierten Modellen für spezifische Anwendungen sogar überlegen sein.

Der Schlüssel heisst Hintergrundwissen

Weil es Forscherinnen in der Regel also nicht möglich ist, ihre Prognosen ständig an neuen Daten zu prüfen, müssen sie Begründungen liefern, weshalb die von ihnen postulierten Zusammenhänge über die betrachteten Zeiträume konstant sind. So scheint es aus grundlegenden physikalischen Überlegungen naheliegend, dass der Zusammenhang von Föhnereignissen und Druckunterschieden hinreichend konstant ist. Beim Zusammenhang von Schäden aus Naturkatastrophen und Social-Media-Daten hingegen scheint diese Annahme unzulässig, da sich das Nutzungsverhalten sozialer Medien – ähnlich zu Online-Versandhäusern – ändern kann. Entscheidend ist aber, dass die Gründe, die Wissenschaftlerinnen für die Konstanz der Zusammenhänge angeben müssen, nur auf ihrem Hintergrundwissen des untersuchten Systems beruhen können. Bei Empfehlungen im Online-Shopping kann dies weitgehend auf die Daten ausgelagert werden, da die Vorhersagen ständig getestet werden können.

Big Data-Elemente erlauben es Forscherinnen also, Analysen effizienter durchzuführen und Modelle zu erstellen, auch wenn sie das untersuchte Phänomen nur schlecht verstehen. Während der Einsatz reiner Big-Data-Prognosen, wie man sie vom Online-Shopping kennt, für den wissenschaftlichen Prozess in den meisten Fällen keine dominante Rolle spielen wird, ist davon auszugehen, dass einzelne Big-Data-Elemente durchaus an Wichtigkeit gewinnen werden.

Literatur

[1] Tapia, C. et al. Profiling urban vulnerabilities to climate change: An indicator-based vulnerability assessment for European cities. Ecolog Indic 78, 142–155 (2017).
[2] Kryvasheyeu, Y. et al. Rapid assessment of disaster damage using social media activity. Sci Adv 2, e1500779–e1500779 (2016).
[3] Shelton, T., Poorthuis, A., Graham, M. & Zook, M. Mapping the data shadows of Hurricane Sandy: Uncovering the sociospatial dimensions of ‘big data’. Geoforum 52, 167–179 (2014).
[4] Sprenger, M., Schemm, S., Oechslin, R. & Jenkner, J. Nowcasting Foehn Wind Events Using the AdaBoost Machine Learning Algorithm. Weather Forecast 32, 1079–1099 (2017).
[5] Jones, G. D. et al. Selenium deficiency risk predicted to increase under future climate change. PNAS 114, 2848–2853 (2017).

Zum Projekt

Weiterführende Links