Incertitudes dans le big data: le cas des simulations climatiques

Auteur
Prof. Reto Knutti
ETH Zurich

Entretien avec le responsable du projet PNR 75.

Quel était l’objectif de votre projet?

Dans le cadre du projet, nous voulions créer:

  • un prototype de modèle d’impact climatique à l’aide d’une approche Big Data pour étudier le potentiel et les limites de ces méthodes, et quantifier les incertitudes d’événements actuels et de tendances futures concernant les conditions météorologiques extrêmes et leurs conséquences;
  • une typologie des incertitudes et des arguments sous-jacents;
  • des critères quant à la transférabilité des résultats à d’autres domaines scientifiques.

Quels résultats ont été obtenus?

Plusieurs études pionnières dans ce projet ont exploré les opportunités et les défis tant conceptuels que pratiques de l’utilisation d’outils Big Data et de données de qualité inconnue dans la modélisation climatique et les études d’impact du changement climatique, ouvrant la voie à de futures applications. Avec la disponibilité de beaucoup plus de données et de capacités de calcul, ce domaine se développe rapidement, mais d’importantes questions demeurent sur la façon de combiner le Big Data avec la compréhension des processus, et de progresser sur les méthodes d’apprentissage automatique interprétables. Dans les cas où une vérification répétée n’est pas possible, le processus d’établissement de la confiance est difficile et repose souvent sur la compréhension des processus et des moteurs pertinents. Les méthodes d’apprentissage automatique sont intrinsèquement limitées à cet égard, mais elles sont puissantes pour extraire des modèles d’information qui seraient autrement inaccessibles. La clé sera de combiner le meilleur des deux mondes, et ce projet a posé des bases importantes pour cela.

Quels sont les principaux messages du projet?

  • Les approches liées au Big Data et à la science des données, telles que les nouvelles formes et sources de données ainsi que les approches de modélisation basées sur l’apprentissage automatique, peuvent être appliquées le plus efficacement lorsqu’elles sont combinées à des approches scientifiques plus traditionnelles et qu’elles sont évaluées sur la base de connaissances de base spécifiques au domaine, autrement dit la compréhension des processus. On peut également considérer cela comme une incitation à développer une recherche interdisciplinaire combinant, par exemple, l’expertise professionnelle des chercheuses et chercheurs en climatologie avec l’expertise technique des data scientists.
  • Il est difficile de déterminer clairement si oui ou non les nouvelles formes et sources de données ou approches de modélisation basées sur l’apprentissage automatique sont utiles pour une problématique donnée. La meilleure façon d’évaluer les données et les approches de modélisation est plutôt de les considérer en fonction de leur utilité (fitness for purpose). Cette pertinence doit être comprise comme un concept graduel et multidimensionnel. Ce qui signifie qu’une approche peut être plus ou moins pertinente (et pas simplement pertinente ou non pertinente) et que le degré de pertinence requis dépend du contexte. De plus, il existe généralement plusieurs dimensions appropriées pour déterminer la pertinence d’une approche (p. ex., la précision de la représentation, la convivialité, la puissance de calcul, le coût économique, …). Le contexte détermine également quelles sont les dimensions pertinentes et de quelle manière les pondérer les unes par rapport aux autres.
  • Le Big Data complète la boîte à outils des chercheuses et chercheurs en leur offrant de nouveaux instruments pour répondre à certaines questions. Toutefois, les changements qui en découlent sont lents. Il ne faut pas s’attendre à ce qu’ils débouchent sur des méthodes et des approches totalement nouvelles. À cet égard, la plupart des nouvelles approches en science des données sont (profondément) enracinées dans les statistiques et l’informatique. Malgré les nouvelles possibilités d’avoir recours à des boîtes à outils prêtes à l’emploi et conviviales pour l’apprentissage automatique dans la recherche (sur le climat), il est essentiel que les compétences traditionnelles en matière de statistiques (en particulier sur les limites et les hypothèses des méthodes) et les connaissances de base soient continuellement pratiquées, enseignées et consolidées. Elles sont en effet la clé de l’interprétation et finalement de l’utilité des approches de la science des données qui visent à favoriser la compréhension des phénomènes.

Quelles sont les applications scientifiques selon vous?

  • Le Big Data ne doit pas être considéré comme une évolution «tout ou rien», mais comme un ensemble d’outils que les chercheurs peuvent utiliser pour répondre à des questions et des problèmes spécifiques.
  • Contrairement aux hypothèses précédentes, le Big Data n’implique pas la fin de la théorie dans le domaine scientifique. Au contraire, le travail effectué dans ce projet a démontré que les éléments du Big Data sont utilisés le plus efficacement dans la recherche scientifique lorsqu’ils sont combinés à des approches basées sur la théorie et intégrés à celles-ci.
  • Du fait de la disponibilité croissante des nouvelles formes de données, les compétences en science des données deviennent de plus en plus importantes pour la recherche. Et en raison de la pertinence des connaissances de base spécifiques au domaine, la collaboration interdisciplinaire entre les spécialistes du domaine et les data scientists gagne aussi en importance.
  • Les incertitudes liées à l’utilisation de nouvelles formes de données et de compétences en science des données doivent être analysées sur une base conceptuelle appropriée et évaluées selon leur finalité.

Quelles sont les recommandations de votre projet?

  • Comme le montrent nos résultats, les compétences en science des données et les coopérations interdisciplinaires vont gagner en importance pour la recherche scientifique, avec des conséquences directes sur la politique scientifique: nos résultats indiquent l’importance des instruments d’encouragement qui permettent de telles coopérations interdisciplinaires De plus, les compétences en science des données peuvent aussi être transmises par des infrastructures de recherche, telles que le Swiss Data Science Center. C’est pourquoi les infrastructures de recherche devraient bénéficier d’un financement approprié sur le long terme afin d’aider les chercheuses et chercheurs à intégrer les compétences en science des données dans leurs projets de recherche.
  • Les travaux sur l’incertitude des prédictions basées sur le Big Data ont clairement montré qu’une estimation appropriée de l’incertitude requiert une compréhension solide du système cible concerné, ainsi que de la technique de modélisation et des données utilisées. Face à l’utilisation croissante d’algorithmes décisionnels dans la société (p. ex., dans la police prédictive), cette incertitude peut avoir des implications éthiques. Avant d’utiliser de tels outils à grande échelle, il faut donc d’évaluer l’incertitude des prédictions effectuées. Même si les outils développés dans le cadre de ce projet étaient axés sur des cas de recherche climatique, ils constituent un bon point de départ pour effectuer ce type d’analyse dans d’autres domaines.

Le concept de Big Data est très flou. Pouvez-vous nous expliquer ce qu’il signifie pour vous?

L’absence de définition claire du concept «Big Data» a été le point de départ du projet. Pour pouvoir traiter les questions qui étaient au cœur du projet, il fallait le clarifier. Pour ce faire, nous avons développé un cadre conceptuel qui distingue trois composantes différentes: les mesures, les ensembles de données et les modèles. Nous avons montré que la construction et l’utilisation de modèles basés sur la théorie et l’analyse du Big Data diffèrent pour ces trois composantes. Nous avons ensuite utilisé ce cadre et ses trois composantes pour classer les études de cas issues de la recherche climatique. Cela a permis de démontrer qu’il existe des éléments du Big Data qui sont fréquemment utilisés par les chercheurs, mais que la plupart des études de cas classées se situent entre les deux «cas extrêmes» décrits ci-dessus. Par exemple, nous avons identifié de nombreuses études qui utilisent des ensembles de données classiques de la science du climat, c’est-à-dire des ensembles de données fixes avec des mesures de variables basées sur la théorie, et qui les analysent à l’aide de l’apprentissage automatique. Dans ces approches, la modélisation est basée sur des corrélations détectées automatiquement. Toutefois, les mesures et les données sont toujours dérivées de la théorie.

Dans d’autres cas, les chercheuses et chercheurs en sciences sociales ont utilisé la fréquence des résultats de recherche sur Google pour remplacer les variables manquantes et créer ainsi des indicateurs concernant la vulnérabilité des villes européennes aux chaleurs extrêmes. Alors que l’indicateur est basé sur une théorie, certaines mesures sont basées sur des intuitions quotidiennes.

Cet aperçu des études a mis en évidence deux points. Premièrement, le Big Data n’intègre pas la recherche scientifique selon le principe du «tout ou rien». Au contraire, certains éléments comme les nouvelles formes de mesures, les flux de données et la modélisation basée sur l’apprentissage automatique sont appliqués en combinaison avec d’autres approches plus traditionnelles.

Deuxièmement, du point de vue de notre cadre conceptuel, l’analyse «mature» du Big Data est basée sur un flux non structuré de mesures qui reposent sur des réflexions quotidiennes et des modélisations fondées sur des corrélations identifiées automatiquement. Les résultats ainsi obtenus doivent être constamment évalués au moyen de nouvelles données et, le cas échéant, adaptés. En effet, rien ne laisse supposer qu’ils pourront être extrapolés à de nouveaux cas. Ce type d’évaluation continue sur la base de nouvelles données est souvent impossible dans les études scientifiques.

Dans des domaines comme la science du climat, où la recherche est également axée sur les évolutions futures à long terme, une telle évaluation est impossible. C’est pourquoi la confiance dans les résultats obtenus par de telles approches doit être justifiée par des arguments sur la durabilité des relations et des résultats déterminés. De tels arguments ne peuvent être fournis qu’en se référant à des connaissances de base pertinentes sur le système cible étudié, c’est-à-dire en ancrant la recherche dans une théorie spécifique au domaine.

Ainsi, notre approche a clairement démontré qu’il n’est pas seulement vrai d’un point de vue descriptif que des éléments du Big Data sont souvent combinés à des approches plus théoriques. C’est aussi une nécessité d’obtenir des résultats qui peuvent être extrapolés à d’autres cas. Sur la base de cet aperçu, les étapes ultérieures du projet ont visé à répondre à des questions spécifiques concernant des éléments du Big Data identifiés d’après ce cadre.

Même si notre travail n’a pas abouti à une proposition de définition du concept de «Big Data», l’analyse descriptive du classement des études de cas sur la base d’un cadre conceptuel offre clairement un point de départ fructueux pour réaliser un tel travail à l’avenir.

A propos du projet

Liens supplémentaires