Données peu structurées: nouveaux outils d’intégration

Auteur
Prof. Philippe Cudré-Mauroux
Université de Fribourg

Entretien avec le responsable du projet PNR 75.

Quel était l’objectif de votre projet?

Ce projet avait pour but de mettre au point de nouvelles techniques d’intégration automatique ou semi-automatique de données. Leur structure n’étant souvent pas définie a priori, l’enjeu central était de la comprendre a posteriori, en reconstruisant un schéma de données à partir des données disponibles.

Quels résultats ont été obtenus?

Le projet a donné lieu à un certain nombre de nouveaux algorithmes d’intégration de nouvelle génération, ainsi qu’à plusieurs déploiements sur des données réelles. En particulier, de nouvelles techniques ont été développées pour intégrer et interroger les micropostes, ainsi que de nouvelles méthodes humaines en boucle pour les analyser. Des progrès significatifs ont également été réalisés en termes d’amélioration de l’intégration et de l’analyse des graphes ; de nouvelles techniques d’intégration dans ce contexte, plus rapides d’un à deux ordres de grandeur que les approches précédentes, ainsi que de nouvelles techniques d’imputation pour améliorer la qualité des graphes de connaissances utilisés pour l’intégration des données ont également résulté de ce projet. Des approches pour deux cas d’utilisation réels ont été développées: l’une pour analyser et intégrer des fichiers PDF pour les Archives fédérales, et l’autre pour intégrer des données peu structurées pour le diagnostic du cancer.

Quels sont les principaux messages du projet?

  • Die erste Hauptbotschaft lautet, dass wir in der Schweiz
  • Le premier message principal est le suivant: en Suisse, nous pouvons traiter avec succès les questions complexes liées au Big Data et, dans ce contexte, nous pouvons utiliser avec succès des solutions de nouvelle génération «made in Switzerland». Compte tenu du piètre bilan de nombreux secteurs suisses dans ce contexte, c’est un message qui mérite d’être diffusé.
  • Le deuxième message principal est plus technique et concerne le fait que les méthodes d’intégration spéciales, adaptées à un problème particulier, peuvent être extrêmement efficaces pour résoudre des tâches verticales.
  • Enfin, le troisième message principal concerne notre approche humaine en boucle et souligne le fait que nous devrions trouver de meilleures formes de collaboration entre les professionnels (par exemple les data scientists, les médecins) et les modèles lors de l’utilisation des pipelines d’IA.

Quelles sont les implications scientifiques selon vous?

Comme déjà mentionné, le projet a eu un impact scientifique important. Les points principaux sont les suivants: i) les applications sur mesure centrées sur les données peuvent être extrêmement efficaces pour les domaines verticaux; ii) les institutions qui sont à la traîne en matière d’infrastructures numériques (p. ex., les autorités fédérales ou les hôpitaux) peuvent adopter rapidement de nouveaux outils et processus centrés sur les données si elles sont aidées par des professionnels ; ii) les formes actuelles de collaboration entre les professionnels et les modèles centrés sur les données sont insuffisantes ; il est nécessaire de mettre davantage l’accent sur les approches humaines en boucle et le développement de nouvelles méthodes de collaboration entre l’homme et l’IA.

Quelles sont les recommandations de votre projet?

Dans le cadre du programme et sur la base de notre propre expérience dans ce projet, je peux formuler les recommandations politiques suivantes:

  • La Suisse devrait radicalement recentrer ses efforts en matière de politique des données; aujourd’hui, les administrations, les médecins, ainsi que les chercheuses et chercheurs, souffrent de procédures rigides et lourdes lorsqu’il faut collecter, traiter ou transmettre des données. D’autre part, les grandes entreprises ont les mains libres et abusent régulièrement des données des utilisatrices et utilisateurs sans que cela n’ait de répercussions. Dans ce contexte, la Suisse devrait suivre l’UE et se montrer plus stricte lorsqu’il est question de données utilisées par les grandes entreprises, au lieu d’adopter une «GDPR light» sans presque aucune sanction, comme elle le fait actuellement.
  • En ce qui concerne les données médicales et scientifiques, les procédures d’autorisation et d’administration éthiques actuelles (qui sont extrêmement lentes et complexes) devraient être rationalisées, simplifiées et surtout «numérisées correctement» (toutes les procédures reposent actuellement sur des formulaires inutiles et peu pratiques et sur des textes en langage naturel).
  • L’autodétermination et la souveraineté sont deux valeurs centrales de la Suisse. S’agissant des données, nous sommes toutefois entièrement dépendants de grandes entreprises étrangères qui dictent leurs processus via leurs propres plateformes. Le fait que la Confédération ait choisi des fournisseurs américains et chinois pour gérer son propre cloud est révélateur. Malheureusement, je peux comprendre les motifs de cette décision, car les fournisseurs de cloud suisses ne disposent pas des fonctions les plus avancées des principaux fournisseurs de cloud. La Suisse doit investir massivement dans ce domaine pour être moins dépendante des plateformes étrangères et mettre en place des infrastructures techniquement cohérentes en Suisse.

Le concept de Big Data est très flou. Pouvez-vous nous expliquer ce qu’il signifie pour vous?

Le projet a exploré l’aspect de la «diversité» (en anglais: variety) du Big Data, qui est à mon avis la facette la moins comprise. Il a contribué de manière significative à la compréhension et au développement du Big Data dans le domaine scientifique en réalisant des progrès notables et en appliquant certains de ces progrès à l’analyse de documents volumineux et de données médicales.

A propos du projet

Liens supplémentaires