Evidenzbasierte Politik: Kausalität aus Daten entdecken

Autor
Prof. Michael Lechner
Universität St. Gallen

Gespräch mit dem Projektleiter des NFP75-Projekts.

Was war das Ziel Ihres Projekts «Ökonomische Wirkungsanalyse mit Big Data»?

Die mikroökonometrische Forschung hat in den letzten Jahren grosse Fortschritte bei der Entwicklung von methodischen Instrumenten zur Beantwortung von Kausalfragen gemacht. Diese Methoden, z.B. zur Bewertung wirtschaftspolitischer Massnahmen, werden erfolgreich eingesetzt. Leider sind diese Instrumente für die Analyse komplexer Datenmengen weitgehend ungeeignet und nutzen die neuesten Fortschritte im maschinellen Lernen nicht.

Ziel unseres Projekts «Ökonomische Wirkungsanalyse mit Big Data» war es, die mikroökonometrischen Methoden der Kausalanalyse (Wirkungsmessung) und die statistischen Prognosemodelle des maschinellen Lernens zu kombinieren, um grosse Datensätze auf robuste Weise nutzen zu können und so die Wirkungsanalyse von Entscheidungen von wirtschaftspolitischen und privatwirtschaftlichen Akteuren wesentlich zu verbessern.

Was sind die Resultate?

Im ersten Teil unseres Projekts «Ökonomische Wirkungsanalyse mit Big Data» haben wir bestehende Methoden des kausalen maschinellen Lernens mit Hilfe von Simulationsmethoden evaluiert und anschliessend diese Methoden erweitert und neue entwickelt.

Das Hauptziel der meisten dieser Erweiterungen und Neuentwicklungen, die auf doppeltem maschinellem Lernen sowie auf «Causal Forests» beruhen, bestand darin, eine einheitliche Reihe von Methoden zu erhalten, die eine kohärente Schätzung relevanter Kausalparameter auf verschiedenen Aggregationsebenen sowie die Durchführung einer optimalen Politikanalyse ermöglichen. Letztere basiert auf der Zuteilung der «Politik» oder Massnahme zu einer bestimmten Population, um eine Zielfunktion zu maximieren, z. B. die Gewinne eines Unternehmens oder das Sozialwesen.

In Ihrem Projekt wurden die neuen Methoden zur Untersuchung von Anwendungen eingesetzt?

Die neuen Methoden wurden auf mehrere ökonomische Fragestellungen angewandt, wobei sich eine Frage als besonders ergiebig erwies, nämlich die Bewertung aktiver arbeitsmarktpolitischer Massnahmen. Der Plan bestand darin, kausale maschinelle Lernmethoden auf die IZA-Evaluierungsdaten anzuwenden, die 17’400 Beobachtungen umfassen. Dies ist die Mindestanzahl an Beobachtungen, die für die interessierenden Methoden erforderlich ist. Während des Projekts erhielten wir dann aber Zugang zu viel interessanteren, d. h. grösseren Datensätzen, die zu drei Veröffentlichungen führten:

Knaus, Lechner & Strittmatter (2021a, Journal of Human Resources) kann als die Pilotstudie betrachtet werden. Sie markiert die erste Anwendung von kausalem maschinellem Lernen für die Forschungsgruppe, aber auch die erste veröffentlichte Studie, die kausale maschinelle Lernmethoden im Bereich der wirtschaftspolitischen Evaluierung einsetzt (33 Zitate auf Google Scholar bis zum 6. Mai 2021). Die Arbeit verwendet einen Datensatz von etwa 85’000 Arbeitssuchenden in der Schweiz und belegt, dass die meisten von ihnen nicht von einem Trainingsprogramm zur Arbeitssuche profitieren. Dies steht im Einklang mit der bisherigen Literatur zu dieser Art von Programmen und ist als Lock-in-Effekt bekannt, der besagt, dass Arbeitssuchende während der Teilnahme an solchen Programmen ihre Bemühungen bei der Arbeitssuche verringern. Unter Verwendung bereits existierender (zum Zeitpunkt der Abfassung des Papers) kausaler maschineller Lernmethoden zeigt das Paper jedoch, dass die Effekte recht heterogen sind und dass eine kleine Untergruppe von diesem Programm profitiert. Diese Erkenntnisse können genutzt werden, um die Ausrichtung der Ausbildungsprogramme zu verbessern.

In Knaus, Lechner & Strittmatter (2021b, The Econometrics Journal) haben wir die Leistungsfähigkeit verschiedener kausaler maschineller Lernverfahren für die Analyse von Effektheterogenität untersucht. Während diese Arbeit einen wichtigen Beitrag zur Literatur im Allgemeinen darstellte, war sie für das Projekt besonders wichtig, weil sie die Erkenntnisse der Forschungsgruppe über die Mängel in der Literatur schärfte, welche die methodischen Erweiterungen motivierten und die nachfolgenden Analysen informierten.

Cockx, Lechner & Bollens (2020) verwenden einen Datensatz von etwa 70’000 Arbeitssuchenden in Flandern und untersuchen die Beschäftigungseffekte von drei verschiedenen Ausbildungsprogrammen. Sie belegen, dass Ausbildungsprogramme in Flandern überwiegend positive langfristige Auswirkungen auf die Beschäftigung haben. Die neuen Methoden zeigen jedoch, dass die grössten Vorteile für Neueinwanderer zu beobachten sind. Das Paper nutzt diese Erkenntnisse, um datengestützte politische Empfehlungen zu geben, welche die Wirksamkeit der aktiven Arbeitsmarktpolitik in Flandern erheblich verbessern könnten. Goller et al. (2021) verwenden wie die letztgenannte Arbeit den modifizierten «Causal Forest», eine Methode, die im Rahmen unseres Projekts vorgeschlagen wurde. Allerdings wird hier ein deutscher Datensatz von etwa 300’000 Langzeitarbeitslosen verwendet. Auch hier zeigt sich, dass die grösstenteils positiven Auswirkungen der Schulungsprogramme von den Merkmalen der Langzeitarbeitslosen abhängen. Die Analyse zeigt, dass der derzeitige Mechanismus der Zuweisung von Personen zu Trainingsprogrammen nicht die beste Lösung darstellt. Daher schliesst das Paper mit verschiedenen datengestützten Vorschlägen.

Andere Anwendungen?

Das Projekt untersuchte auch die folgenden Anwendungen: Welche Auswirkungen haben Umweltvorschriften auf die Angebotspreise von Gebrauchtwagen? Gibt es «Begünstigung» bei Fussballschiedsrichterinnen und -schiedsrichtern für Team aus der gleichen Schweizer Sprachregion? Darüber hinaus wurden im Rahmen des NFP75-Projekts verschiedene neue Anwendungen durchgeführt, welche die neuen Methoden des kausalen maschinellen Lernens nutzen. Dabei ging es um die Auswirkungen von Musik auf die Entwicklung von Kindern, um die Auswirkungen von Sportlichkeit auf den Erfolg bei Online-Dating-Plattformen, um die Auswirkungen von Nachrichten über Gewinnmeldungen auf Börsenindikatoren sowie um Fragen zum sogenannten «Ressourcenfluch» in Entwicklungsländern.

Was sind die Hauptaussagen des Projekts?

  • Gut konzipierte Methoden des maschinellen Lernens können die Nützlichkeit empirischer Studien für die Entscheidungsfindung erheblich verbessern. Das blosse Ersetzen von Vorhersagekomponenten etablierter Kalkulatoren durch Methoden des maschinellen Lernens kann deren Nützlichkeit jedoch sogar verringern.
  • Das Aufdecken von Heterogenität durch kausales maschinelles Lernen kann zu sehr wertvollen Erkenntnissen für Entscheidungsträgerinnen und Entscheidungsträger im privaten und öffentlichen Sektor führen.
  • Der Einsatz der neuen Methoden ist einfach und sollte in der empirischen Arbeit zur Routine werden.

Welche wissenschaftlichen Implikationen sehen Sie?

Das Forschungsprojekt dokumentiert und erhöht den Mehrwert der jüngsten Literatur zum kausalen maschinellen Lernen für die empirische Forschung, die sich mit kausalen Schlussfolgerungen in den Wirtschaftswissenschaften und darüber hinaus befasst. In vielerlei Hinsicht ermöglichte dieses Projekt, die angewandte Literatur in die Konzepte des kausalen maschinellen Lernens einzuführen und die Möglichkeiten dieser Methoden zur Schätzung von Standard- und neuen Parametern von Interesse aufzuzeigen. Die methodologischen Arbeiten haben die Menge der verfügbaren Methoden und das Wissen über ihre Leistungsfähigkeit erweitert. Die Anwendungen liefern Entwürfe für künftige Studien, in denen verwandte Forschungsfragen gestellt werden.

Die Methoden des kausalen maschinellen Lernens erhöhen die Transparenz des Forschungsprozesses, indem sie so viel wie möglich an datengesteuerte Methoden delegieren und den Forschenden die Hände bei der bewussten oder unbewussten Suche nach angenehmen Ergebnissen binden (reduziert die Datenschnüffelei). Ausserdem ermöglichen sie es, aus denselben Daten detailliertere Ergebnisse zu gewinnen. Diese Kombination wird die Art und Weise, wie und was wir in der empirischen Forschung aus Daten lernen, in den nächsten Jahren verbessern, da diese Methoden ihren Weg in immer mehr Anwendungen finden. Die Papers dieses Projekts könnten als Beschleuniger dieses Prozesses dienen.

Welche Empfehlungen hat Ihr Projekt?

Die Empfehlungen für die Politik sind zweifacher Art.

Erstens veranschaulicht das Projekt auf einer hohen Ebene das grosse Potenzial für die Integration des maschinellen Lernens zur Verbesserung der empirischen Forschung in vielen verschiedenen Bereichen. Dieses Potenzial sollte in jeder politisch relevanten Anwendung genutzt werden.

Zweitens zeigen die Ergebnisse der Bewertungen der aktiven Arbeitsmarktpolitik auf praktischer Ebene eindeutig, dass die Wirksamkeit des Einsatzes in mindestens drei Ländern verbessert werden kann. Der Einsatz datengestützter Politikgestaltung scheint also ein grosses Potenzial zur Verbesserung der Entscheidungsfindung zu haben. Dieses Projekt konzentrierte sich hauptsächlich auf die flexible Schätzung von durchschnittlichen und heterogenen Effekten, die als Zwischenschritt zur datengestützten Politikgestaltung angesehen werden kann. Diese Richtung wird nun in einem Folgeprojekt unter dem Titel «Chancen und Risiken datengetriebener Arbeitsmarktpolitik» fortgesetzt, das Teil des NFP 77 ist. Das NFP75 kann somit als Sprungbrett für ein besseres Verständnis der datengetriebenen Politikgestaltung betrachtet werden.

Zum Projekt

Weiterführende Links