Big Data: Technologies

Les applications du big data ont besoin des technologies du big data: du hardware et du software capables de traiter des jeux de données massifs et de les analyser de manière fiable et efficace. Les résultats des recherches du PNR 75 montrent comment les scientifiques travaillant en Suisse contribuent au développement de nouvelles technologies pour les applications du big data et peuvent aider à déployer avec succès des solutions d’infrastructure et des méthodes d’analyse de nouvelle génération.

Utiliser le big data en pratique est confronté à de grands défis technologiques. L’un d’entre eux est le volume des données: le big data dépasse – selon la définition courante – les capacités des technologies existantes de stockage, gestion et analyse des données. De nombreuses infrastructures informatiques actuelles seront bientôt dépassées et devront être remplacées. Le big data appelle de nouveaux moyens de traitement et d’analyse de l’information. C’est pourquoi la recherche fondamentale sur les infrastructures du big data et sur les technologies d’analyse est cruciale. Le PNR 75 a renforcé la recherche fondamentale suisse dans ce domaine. Il a produit une douzaine de nouvelles approches pour les technologies qui sous-tendent les applications du big data.

Des infrastructures du big data plus efficaces

Le big data a besoin d’une infrastructure performante, de processus de bas niveau qui servent d’épine dorsale aux analyses de données de plus haut niveau. Cette infrastructure est matérielle et logicielle.

Nouvelles approches pour l’analyse du big data

L’analytique représente la composante la plus visible des applications du big data, créant de la valeur à partir des données. Les algorithmes modernes d’exploration des données et de requêtes analytiques multidimensionnelles combinent des méthodes statistiques avancées et des méthodes d’apprentissage automatique tels que l’apprentissage profond.

Pistes de solutions

Les processus administratifs actuels concernant l’accès, le partage et le traitement des données en Suisse pourraient être rationalisés lorsqu’ils concernent la recherche publique. L’utilisation des données dans les applications peut avoir une incidence négative sur la vie privée, mais restreindre l’utilisation des données d’une manière générale présente des inconvénients, comme créer un frein à l’innovation. Protéger la vie privée a un certain coût, et celui-ci doit également être pris en compte.

Une piste serait de faire de la confidentialité un aspect inhérent, voire obligatoire, du traitement du big data. Les gens qui développent les technologies doivent être informés des solutions pour préserver la vie privée, de leurs avantages et de leurs inconvénients. Dans l’idéal, ils ont accès à des outils les aidant à optimiser les algorithmes suivant l’équilibre souhaité entre respect de la vie privée, efficacité et qualité des services. La numérisation de l’information exige une analyse précise pour garantir une utilisation judicieuse des formats et des métadonnées.

L’évaluation du succès académique, en particulier pour la promotion des carrières et l’attribution de fonds, doit aller au-delà du nombre de publications et de citations et inclure l’impact des travaux en dehors du milieu universitaire (notamment lors de l’utilisation de protocoles open-source). Les scientifiques doivent disposer de liberté et de flexibilité pour être en mesure d’adapter leurs plans et de tirer le meilleur parti de domaines évoluant rapidement tels que le big data.

Le facteur humain peut s’avérer aussi important que l’accès à la technologie, cette dernière étant souvent disponible en open-source. Soutenir la recherche universitaire permet non seulement de faire progresser la technologie du big data au niveau local et international, mais aussi de former les spécialistes dont la société a besoin. Ces derniers ne se contentent pas de développer des technologies, mais apportent également leurs compétences sur des questions telles que la disponibilité des technologies, la confidentialité, la cybersécurité et l’inclusion des parties prenantes. À ce titre, ils contribuent aux décisions stratégiques des institutions publiques et privées en matière de numérisation.

Messages clés

Le PNR 75 a produit de nombreux résultats de recherche de premier plan ouvrant de nouvelles voies pour améliorer l’infrastructure et l’analytique nécessaires à l’exploitation du big data. Ce type de recherche fondamentale est difficile, mais peut suivre un cheminement relativement bien connu et souvent plus simple que le développement d’applications. Par exemple, l’accès- limité à des données réelles peut être parfois contourné avec des données produites artificiellement permettant de tester les nouveaux systèmes et de les optimiser. La recherche se concentre principalement sur la question de la vitesse à laquelle les systèmes peuvent traiter et analyser les données, et produire le résultat escompté avec une marge d’erreur connue. En d’autres termes, les problèmes de recherche sont bien définis. Cependant, leur environnement évolue rapidement et comprend des acteurs aux objectifs distincts, voire divergents.

Concurrence et coopération entre recherches privée et publique

L’intense concurrence internationale dans le domaine du big data met en danger l’autonomie numérique des États, mais offre aussi des opportunités de collaboration. L’économie privée, en particulier aux États-Unis et en Chine, se trouve à l’origine d’une grande partie des avancées sur les infrastructures et l’analyse du big data, qui constituent un bon tiers des travaux présentés lors de conférences scientifiques de haut niveau. Elles ont apporté des modèles de langage perfectionnés et le développement de matériel tel que les unités de traitement de tenseur, optimisées pour implémenter des réseaux neuronaux. La R&D industrielle se trouve au moins au même niveau que la meilleure recherche universitaire.

Les technologies du big data développées par les entreprises peuvent paraître universelles au vu de l’intérêt d’une large adoption – un processeur ou un algorithme peut être agnostique quant à la manière dont il sera utilisé. Mais les technologies se spécialisent de plus en plus pour répondre de la manière la plus efficace aux problèmes concrets et aux types de données (dynamiques ou statiques, homogènes ou hétérogènes, etc.). L’industrie influence grandement la gamme des applications possibles du big data, et il est crucial que la recherche publique soit en mesure de suivre le rythme rapide de l’industrie si l’on veut que la société ait son mot à dire sur l’avenir de la numérisation.

La recherche universitaire reste essentielle pour développer les technologies du big data, en particulier lorsqu’il s’agit d’atteindre des objectifs qui sont plus importants pour la société que pour les grandes entreprises, comme la réduction de la consommation d’énergie, ou la garantie du «privacy-by-design ». Alors que l’industrie suit souvent des approches uniformes, la recherche publique peut être plus audacieuse en s’engageant dans des voies prometteuses, mais risquées. Elle a ainsi développé avec succès une gamme plus large de matériels et de logiciels pour les technologies du big data. Il s’agit notamment des commutateurs de réseau programmables, des analyses réalisées dans le réseau lui-même, de nouvelles approches de programmation pour des dispositifs spécifiques à un domaine, et d’algorithmes basés sur la logique formelle plutôt que sur l’apprentissage automatique.

Si la recherche universitaire est en général très en avance sur l’industrie privée (cette dernière s’appuyant sur l’innovation des spin-offs universitaires), cet écart est beaucoup plus faible dans certains domaines du big data. Cela encourage les collaborations entre le- monde universitaire et l’industrie, d’autant plus que le premier a besoin de la puissance de calcul, des capacités de stockage et de l’accès aux données du second. Ces collaborations sont en principe bénéfiques aux deux parties, le monde universitaire bénéficiant des ressources de l’industrie, de problèmes issus du monde réel et de défis de taille, tandis que l’industrie profite d’une recherche de pointe et d’idées plus innovantes.

Un problème latent dans le monde universitaire est le manque de reconnaissance accordé aux scientifiques qui développent des applications, stimulent la collaboration et adoptent des logiciels open-source. Cela peut dissuader les talents de classe mondiale de s’attaquer à des problèmes concrets et de collaborer avec l’industrie. Il est donc nécessaire de diversifier les parcours professionnels dans la recherche publique et d’utiliser des indicateurs qui vont au-delà des publications scientifiques et des fonds de recherche.

La question du personnel

L’un des principaux défis du déploiement du big data est la pénurie de personnel qualifié tout au long de la chaîne de valeur, des technologies d’infrastructure aux applications, en passant par l’intégration commerciale et la réglementation. La concurrence pour les talents est intense, et les spécialistes les plus brillants sont nombreux à rejoindre de grandes multinationales, de petites et moyennes entreprises et des start-ups. La recherche universitaire en pâtit, car elle peine à garder les meilleurs scientifiques, même au niveau du doctorat. Les universités risquent de perdre leurs talents lorsqu’elles collaborent avec de grandes entreprises technologiques. Les changements rapides et fréquents de carrière, bien qu’ils apportent de nouvelles perspectives et de nouvelles connexions, constituent un problème pour les projets de recherche.

D’un autre côté, le haut niveau de la recherche suisse sur le big data permet de former les nombreux spécialistes dont les organisations publiques et privées ont besoin, et d’entretenir de bons contacts entre le monde universitaire et l’industrie. Cela rend la Suisse innovante et attrayante pour les entreprises multinationales et les organisations internationales.

Obtenir les données

Le second grand défi concerne la disponibilité de grands jeux de données de haute qualité, essentiels pour une évaluation réaliste des analyses et des applications du big data.

Ce problème s’atténuera à mesure que les organisations publiques et privées développeront une culture des données, mais le résoudre nécessite une stratégie solide garantissant que les données sont de haute qualité, correctement décrites par des métadonnées et protégées par des pratiques «privacy-by-design». Les développeurs et développeuses des technologies du big data doivent connaître les différentes techniques de préservation de la vie privée pour être en mesure de trouver le bon équilibre entre vie privée, efficacité et qualité des services.

La vie privée et la protection des données soulèvent de nombreuses questions, comme celle de savoir si la règlementation suisse ou européenne sur la protection des données fixe des limites appropriées en matière de gestion des données ou comment protéger la vie privée tout en encourageant l’innovation. Les processus éthiques, d’approbation et administratifs actuels encadrant l’utilisation des données, médicales et scientifiques en Suisse sont perçus comme lents et complexes, et pourraient être rationalisés et simplifiés. Mais il s’agit d’une discussion aux multiples facettes qui nécessite des approches multidisciplinaires, y compris l’implication des sciences sociales.