Politique basée sur les faits: démontrer les causalités dans les données

Auteur
Prof. Michael Lechner
Université de Saint-Gall

Entretien avec le responsable du projet PNR 75.

Quel était l’objectif de votre projet «Analyse d’impact économique au moyen du Big Data»?

Ces dernières années, la recherche micro-économétrique a fait de gros progrès dans le développement des outils méthodologiques pour répondre aux questions causales. Ces méthodes s’appliquent déjà avec succès, par exemple pour l’évaluation de mesures de politique économique. Ces méthodes sont malheureusement inappropriées pour analyser des volumes de données complexes et n’exploitent pas les dernières avancées en matière d’apprentissage automatique.

L’objectif de notre projet «Analyse d’impact économique au moyen du Big Data» était de combiner les méthodes microéconométriques de l’analyse de causalité (évaluation de l’impact) avec les modèles de prévision statistiques de l’apprentissage automatique afin de pouvoir exploiter les vastes jeux de données de façon solide et d’améliorer de manière significative l’analyse de l’impact des décisions prises par les acteurs de la politique économique et du secteur privé.

Quels résultats ont été obtenus?

Dans la première partie de notre projet «Analyse d’impact économique au moyen du Big Data», nous avons évalué les méthodes existantes d’apprentissage automatique causal à l’aide de méthodes de simulation, après quoi nous avons étendu ces méthodes et en avons développé de nouvelles.

La plupart de ces extensions et nouveaux développements basés sur le double apprentissage automatique, ainsi que sur les «Causal Forests», ont pour objectif principal d’obtenir un ensemble cohérent de méthodes permettant d’estimer de manière cohérente les paramètres de causalité pertinents à différents niveau d’agrégation, ainsi que d’effectuer une analyse de politique optimale. Cette dernière est basée sur l’attribution de la «politique» ou d’une mesure à une certaine population en vue de maximiser une fonction d’objectif, comme les bénéfices d’une entreprise ou l’action sociale.

Votre projet a-t-il utilisé les nouvelles méthodes pour étudier les applications?

Les nouvelles méthodes ont été appliquées à plusieurs questions économiques, dont l’une s’est avérée particulièrement productive, à savoir l’évaluation des mesures actives du marché de travail. Le plan consistait à appliquer des méthodes d’apprentissage automatique causal aux données d’évaluation de la CI, qui comprennent 17 400 observations. Il s’agit du minimum d’observations requis pour les méthodes d’intérêt. Mais au cours du projet, nous avons eu accès à des ensembles de données beaucoup plus intéressants, c’est-à-dire plus importants, qui ont donné lieu à trois publications:

L’étude Knaus, Lechner & Strittmatter (2021a, Journal of Human Resources) peut être considérée comme l’étude pilote. Elle marque la première application de l’apprentissage automatique causal pour le groupe de recherche, mais aussi la première étude publiée qui utilise des méthodes d’apprentissage automatique causal dans le domaine de l’évaluation des politiques économiques (33 citations sur Google Scholar jusqu’au 6 mai 2021). Ce travail utilise un ensemble de données portant sur environ 85 000 demandeurs d’emploi en Suisse et démontre que la plupart d’entre eux ne bénéficient pas d’un programme de formation à la recherche d’emploi. Ce résultat concorde avec la littérature actuelle sur ce type de programme et correspond à l’effet «lock-in» selon lequel les demandeurs d’emploi réduisent leurs efforts de recherche d’emploi lorsqu’ils participent à ces programmes. Cependant, en utilisant des méthodes d’apprentissage automatique causal déjà existantes (au moment de la rédaction de l’article), l’article démontre que les effets sont assez hétérogènes et qu’un petit sous-groupe bénéficie de ce programme. Ces connaissances peuvent donc servir à améliorer l’orientation des programmes de formation.

Dans l’étude Knaus, Lechner & Strittmatter (2021b, The Econometrics Journal), nous avons examiné les performances de différentes méthodes d’apprentissage automatique causal concernant l’analyse de l’hétérogénéité des effets. Même si ce travail a fourni une contribution importante à la littérature en général, il a été particulièrement important pour ce projet, car il a permis au groupe de recherche de mieux comprendre les lacunes de la littérature qui ont motivé les extensions méthodologiques et éclairé les analyses ultérieures.

Cockx, Lechner & Bollens (2020) utilisent un ensemble de données portant sur environ 70 000 demandeurs d’emploi en Flandre et étudient les effets sur l’emploi de trois programmes de formation différents. Ils démontrent que les programmes de formation en Flandre ont majoritairement des effets positifs à long terme sur l’emploi. Toutefois, les nouvelles méthodes révèlent que les avantages les plus importants sont observés pour les nouveaux immigrants. La publication utilise donc ces connaissances pour formuler des recommandations politiques basées sur des données susceptibles d’améliorer sensiblement l’efficacité de la politique active du marché du travail en Flandre.

À l’instar de la dernière publication, Goller et al. (2021) emploient la «Causal Forest» modifiée, une méthode proposée dans le cadre de notre projet, mais avec un ensemble de données allemandes portant sur environ 300 000 chômeurs de longue durée. Une fois encore, on constate que les effets positifs des programmes de formation varient en fonction des caractéristiques des chômeurs de longue durée. L’analyse démontre que le mécanisme actuel d’affectation des personnes aux programmes de formation n’est pas la meilleure solution. C’est pourquoi le document se conclut par différentes propositions basées sur des données.

Existe-t-il d’autres applications?

Le projet a également étudié les applications suivantes: Quels sont les effets des réglementations environnementales sur les prix d’offre des voitures d’occasion? Existe-t-il un «favoritisme» chez les arbitres de football à l’égard des équipes provenant de la même région linguistique suisse? De plus, différentes nouvelles applications utilisant les nouvelles méthodes d’apprentissage automatique causal ont été réalisées dans le cadre du projet PNR 75. Il s’agissait notamment de l’impact de la musique sur le développement de l’enfant, de l’impact de la pratique d’un sport sur le succès des rencontres en ligne, de l’impact du sentiment d’actualité concernant les annonces de bénéfices sur les indicateurs boursiers, ainsi que des questions concernant la «malédiction des ressources» dans les pays en développement.

Quels sont les principaux messages du projet?

  • Des méthodes d’apprentissage automatique bien conçues peuvent améliorer sensiblement l’utilité des études empiriques pour la prise de décision. Toutefois, le simple fait de substituer des méthodes d’apprentissage automatique aux composants de prévision des calculateurs établis peut réduire leur utilité.
  • La mise en évidence de l’hétérogénéité par l’apprentissage automatique causal peut fournir des informations très précieuses aux décideurs des secteurs privé et public.
  • L’application des nouvelles méthodes est simple et devrait devenir une pratique courante dans le travail empirique.

Votre projet a-t-il des implications scientifiques?

Le projet de recherche documente et augmente la valeur ajoutée de la littérature récente sur l’apprentissage automatique causal pour la recherche empirique qui s’intéresse aux inférences causales dans le domaine économique et même au-delà. À bien des égards, ce projet a permis d’introduire la littérature appliquée dans les concepts de l’apprentissage automatique causal et de montrer les possibilités qu’offrent ces méthodes pour estimer des paramètres standard et de nouveaux paramètres d’intérêt. Les travaux méthodologiques ont permis d’accroître la quantité de méthodes disponibles et d’approfondir les connaissances sur leurs performances. Les applications fournissent des ébauches pour de futures études portant sur des questions de recherche connexes.

Les méthodes d’apprentissage automatique causal augmentent la transparence du processus de recherche en déléguant le plus possible aux méthodes basées sur les données et en liant les mains des chercheuses et des chercheurs dans la recherche consciente ou inconsciente de résultats plaisants (ce qui réduit la fouille de données). De plus, elles permettent d’obtenir des résultats plus détaillés à partir des mêmes données. Au cours des prochaines années, cette combinaison améliorera la manière dont nous apprenons et ce que nous apprenons dans la recherche empirique à partir des données, car ces méthodes trouvent leur place dans un nombre croissant d’applications. Les documents de ce projet pourraient servir d’accélérateur à ce processus.

Quelles sont les recommandations de votre projet?

Les recommandations politiques sont doubles.

Premièrement, le projet illustre à un haut niveau le grand potentiel d’intégration de l’apprentissage automatique pour améliorer la recherche empirique dans de nombreux domaines. Ce potentiel devrait être exploité dans toute application pertinente sur le plan politique.

Deuxièmement, sur un plan pratique, les résultats des évaluations de la politique active du marché du travail montrent clairement que l’efficacité d’utilisation peut être améliorée dans au moins trois pays. Le recours à l’élaboration de politiques basée sur les données semble donc offrir un grand potentiel pour améliorer la prise de décision. Ce projet s’est principalement concentré sur l’estimation flexible des effets moyens et hétérogènes, qui peut être considérée comme une étape intermédiaire vers l’élaboration de politiques sur la base de données. Cette orientation est maintenant poursuivie dans un projet de suivi intitulé «Opportunités et risques d’une politique du marché du travail axée sur les données», qui fait partie du PNR 77. Le PNR 75 peut donc être considéré comme un tremplin pour une meilleure compréhension de l’élaboration des politiques axée sur les données.

A propos du projet

Liens supplémentaires