Réflexions et perspectives

La société doit anticiper les bouleversements que les applications du big data et de l’apprentissage automatique peuvent entraîner. Une vue d’ensemble des opportunités et défis les plus importants est présentée ci-dessous.

Un apport central du Programme national de recherche «Big Data» (PNR 75) est d’avoir renforcé les compétences disponibles en Suisse nécessaires pour aborder les questions de technologie, d’applications et d’aspects sociétaux du big data. Le PNR 75 a fait progresser les technologies qui sous-tendent l’infrastructure du big data et a réuni des spécialistes en science des données et des experts de domaines concernés pour créer et mettre en oeuvre des applications spécifiques. Il a également sensibilisé aux défis sociétaux qui accompagnent la production et l’analyse de données à grande échelle, et a contribué à développer la culture du big data nécessaire pour en profiter de manière responsable.

Les 37 projets financés par le programme n’ont couvert qu’une partie du big data, un domaine en pleine expansion. Ce chapitre va au-delà et donne une vision plus globale des opportunités et des risques liés au big data, en particulier de ceux qui pourraient prendre de l’importance dans les années à venir. L’analyse qui suit se fonde sur les connaissances acquises dans le cadre de la recherche du PNR 75 et sur les idées collectives des membres du Comité de direction du programme. Elle aborde les perspectives d’une plus grande utilisation du big data dans l’industrie et le secteur public, et discute les questions de durabilité, vie privée et responsabilité.

Un impact croissant

De nombreuses applications du big data continueront à être développées et déployées dans les années à venir. De nouveaux secteurs privés – au-delà du commerce électronique – et des administrations publiques s’efforceront de devenir «data-ready» afin de gagner en compétitivité par le développement de nouvelles capacités et par la réduction des coûts. Comme montré par les projets de recherche du PNR 75, le développement d’applications exige la bonne combinaison de compétences dans plusieurs domaines. Cela nécessite une stratégie solide en matière de données, notamment des approches «privacy-by-design», un savoir-faire analytique chez les spécialistes du secteur et des connaissances pointues de la main-d’oeuvre. Un ingrédient crucial est de pouvoir trouver des spécialistes des données qui comprennent le domaine d’application concerné ainsi que des spécialistes du domaine familiarisés avec la science des données. Cela souligne l’importance de doter les nouvelles générations – et les plus anciennes – des connaissances et outils nécessaires pour s’attaquer aux applications du big data.

Une sélection de domaines susceptibles d’être fortement affectés par les applications du big data est présentée ci-dessous.

Production: amélioration du rendement et optimisation de la maintenance

De nombreux produits manufacturés intègrent des capteurs connectés à l’Internet des objets. Ils peuvent envoyer des informations en temps réel sur leurs performances, permettant aux fabricants d’identifier les composants à remplacer ou à améliorer, ou de renforcer la satisfaction des clients et la sécurité.

Dans l’agriculture, In agriculture, des systèmes robotisés autonomes utilisent la reconnaissance d’images pour éliminer les mauvaises herbes, détecter les maladies et les parasites, récolter les fruits, appliquer des engrais localement et surveiller les champs à l’aide de drones. Ces robots pourraient contribuer à réduire les pénuries de main-d’oeuvre, à diminuer l’emploi d’engrais et à éviter celui de pesticides.

Gouvernement: améliorer les infrastructures et soutenir la transition énergétique

Les gouvernements peuvent utiliser le big data pour mettre en oeuvre des politiques basées sur les faits pour l’allocation des ressources, la planification stratégique ou encore la surveillance des infrastructures publiques (Conclusion 5). L’analyse du big data peut améliorer la planification des transports (Gestion des transports), soutenir la planification, construction et exploitation des services publics (eau, électricité, éclairage, etc.) et assurer la surveillance de l’environnement (Érosion des sols, Détection d’inondation). Des analyses sophistiquées contribueront à réduire notre empreinte carbone en garantissant la flexibilité de l’approvisionnement, du stockage et de la distribution de l’énergie, et permettront en particulier aux réseaux électriques de gérer les sources d’énergie renouvelable décentralisées et intermittentes telles que les panneaux solaires ou les éoliennes (Potentiel des énergies renouvelables).

Services: automatisation dans la finance et la cybersécurité

Les institutions financières peuvent utiliser l’analyse des transactions en temps réel et les prévisions du marché pour un trading automatisé rapide, qui nécessite néanmoins des infrastructures efficaces (Algorithmes de prédiction rapide, Exploration de graphes). La quantification des risques individuels permet aux compagnies d’assurance d’optimiser leurs polices, mais menace potentiellement le principe de solidarité qui sous-tend les assurances (Big data dans l’assurance). Les dispositifs de suivi embarqués dans les véhicules pourraient récompenser les comportements atténuant les risques, mettant ainsi l’accent sur la prévention plutôt que sur la protection.

L’analytique peut contribuer à prévenir les cyberattaques en identifiant des anomalies dans les transferts de données en temps réel et en bloquant automatiquement les menaces (Flux de données). La reconnaissance d’images peut être utilisée pour détecter automatiquement les atteintes à la sécurité physique et d’autres irrégularités.

Santé: assister le personnel médical et personnaliser la médecine

L’apprentissage automatique est déjà utilisé, par exemple, pour identifier des anomalies dans les images cliniques et pourrait considérablement contribuer à améliorer les soins de santé (voir Conclusion 4). Les nouvelles technologies devraient permettre des progrès majeurs en matière de prévention, de diagnostic et de thérapies ciblées en rassemblant d’énormes jeux de données provenant de tests de laboratoire, de dossiers médicaux et de la génétique. En particulier, le traitement avancé du langage naturel (Modèles de langage) permet l’extraction et l’interprétation automatiques d’informations à partir de textes non structurés dans les dossiers médicaux. Intégrer les flux de données provenant de divers dispositifs cliniques en temps réel peut faciliter la surveillance de l’état de santé des patient·es et la détection de cas d’urgences (Soins intensifs).

L’utilisation du big data pour les applications médicales nécessite des infrastructures dédiées. Des méthodes innovantes sont nécessaires pour générer des résultats fiables à partir de petits sous-ensembles de données médicales, une seule personne pouvant en générer plusieurs téraoctets. Pour les données génomiques, cela peut se faire par un prétraitement adéquat (Genetic big data).

Commerce électronique et divertissement: participation de la clientèle et créations synthétiques

La collecte, l’analyse et l’exploitation d’informations sur les consommateurs et consommatrices joueront probablement un rôle croissant dans le commerce électronique. Les entreprises en ligne utilisent déjà des recommandations personnalisées et des prévisions de tendances, et de nouvelles applications fondées sur les données pourraient intégrer les attentes de la clientèle dans le processus même de la conception des produits.

Les modèles de langage s’améliorent très rapidement. Ils permettent de mieux comprendre le sens, l’intention et le contexte de textes, d’en extraire des informations pertinentes et de générer des rapports synthétiques ou des conversations par des «chatbots». Des algorithmes peuvent produire de la musique en s’inspirant du style de compositeurs et compositrices. Des ordinateurs génèrent des images et des vidéos synthétiques convaincantes à partir de descriptions textuelles; on s’attend à ce que les logiciels soient bientôt capables de générer des films avec des personnes et des décors à l’aspect naturel que l’on ne peut distinguer de séquences filmées. Ces systèmes peuvent compléter ou remplacer les médias et les produits de divertissement actuels. Cependant, ils posent des défis majeurs pour la propriété intellectuelle ainsi que pour la démocratie avec la production accélérée de canulars réalistes incluant images, sons et vidéos.

Recherche ouverte: accélérer les découvertes

Les scientifiques sont de plus en plus nombreux à mettre gratuitement à disposition les données de leurs recherches afin d’accélérer les découvertes et d’améliorer la reproductibilité (Conclusion 6). Mais comme tout autre dépôt de données, il est nécessaire de se conformer à certaines normes, telles que les «principes FAIR» (facilité de recherche, accessibilité, interopérabilité et réutilisation). Il s’agit de métadonnées standardisées, lisibles par ordinateur, contenant les explications et les descriptions nécessaires. Il s’agit d’un nouveau paradigme auquel le monde universitaire doit s’adapter (Big data: open data and legal strings).

Diminuer l’empreinte des infrastructures de données

Si le big data va certainement jouer un rôle important dans la lutte contre le changement climatique et dans la réduction de notre empreinte carbone, il contribue également au problème. Le stockage et le traitement de grands jeux de données nécessitent beaucoup d’énergie: 3,6% de la consommation électrique totale de la Suisse en 2019 était due aux centres de données, soit une hausse de 30% en 6 ans.

La gestion du big data ne se limite pas à la collecte et au stockage; les données doivent aussi être protégées contre les accès non autorisés, la corruption et la perte. Cela nécessite un contrôle d’accès, des protocoles de sauvegarde et des procédures pour corriger les données endommagées, incomplètes ou inexactes. Les bases de données doivent être préservées en étant continuellement adaptées aux nouvelles normes de stockage, de compression et d’analyse. Cela nécessite le travail de spécialistes des données et des domaines, et augmente les coûts des applications du big data. L’intelligence artificielle dite frugale vise à réduire la consommation d’énergie, par exemple en étant capable de travailler avec des jeux de données plus petits et grâce à des données d’apprentissage synthétiques qui économisent les ressources. Ce domaine nouveau et en pleine expansion appelle des efforts de recherche supplémentaires (Coresets).

Vie privée: trouver le bon équilibre

De nombreuses applications du big data, telles que celles utilisées dans les domaines de la finance, de l’ingénierie ou de la surveillance de l’environnement, ne soulèvent pas de nouvelles questions sur la vie privée, car elles n’utilisent pas d’informations personnelles. Mais de nombreuses autres applications le font, et la quantité toujours croissante de données qu’elles collectent sur les individus soulève des problèmes éthiques et juridiques importants. Les gens ont généralement une connaissance limitée des données collectées et de qui peut y avoir accès et à quelles fins. Le fait que les fournisseurs de services en ligne contrôlent ces éléments a donné naissance aux termes «fracture numérique» et «asymétrie numérique».

Bien que les fournisseurs soient actuellement tenus d’informer leur clientèle et de lui demander son consentement lorsqu’ils collectent des données, ces mesures ne suffisent pas à protéger la vie privée, car la plupart des gens donnent leur accord de manière automatique et sans en connaître les conséquences. Le principal problème est que c’est aux usagers de comprendre les implications de leur consentement, même s’ils ne tirent aucun avantage immédiat de la collecte de données. Les autorités devront décider dans quelle mesure il convient de réglementer cette pratique (Conclusion 8).

L’anonymat complet est une illusion

Jusqu’à récemment, il était considéré comme sûr de partager des données contenant des informations sur des individus une fois qu’elles avaient été rendues anonymes, en supprimant les informations susceptibles d’identifier directement les gens, telles que leur nom, date de naissance et adresse. Il est devenu de plus en plus clair que la mise en relation de données provenant de différentes sources, même anonymisées, peut permettre de réidentifier des individus. Certains types de données, comme les génomes entiers ou les traces GPS d’un smartphone, contiennent un tel niveau d’informations personnelles sensibles qu’une anonymisation absolue n’est pas réaliste. La diffusion de données dont les informations personnelles identifiables ont été supprimées doit donc être considérée comme un continuum. La perte de vie privée doit ainsi être mise en balance au cas par cas avec la création de valeur.

Plusieurs approches peuvent entraver la réidentification. La confidentialité différentielle, par exemple, brouille les données en ajoutant des perturbations aléatoires, mais au détriment de la précision (Analyse de flux). Une autre option est de supprimer certains points de données ou de les combiner dans des catégories plus larges, comme avec la technique appelée «k-anonymity».

Analyser les données sans y accéder

Les données sensibles peuvent être stockées dans des enclaves avec un contrôle d’accès sophistiqué. Cela garantit que les analyses ne peuvent être effectuées que localement, seuls des résultats agrégés, qui protègent la vie privée, étant envoyés en dehors des enclaves. Une autre option en cours de développement est l’analyse fédérée, où les données sont conservées dans plusieurs systèmes locaux sans être partagées. Les calculs, y compris l’entraînement des algorithmes d’apprentissage automatique, sont effectués localement et en collaboration. Ici aussi, les seuls éléments partagés sont les résultats partiels et agrégés ou les mises à jour intermédiaires des modèles, tandis que les données originales ne sont jamais distribuées. Cela permet de résoudre les problèmes difficiles de transfert transfrontalier de données, qui nécessitent des solutions juridiques au niveau international (Conclusion 9). D’une manière générale, les équipes de recherche qui développent des applications pour le big data doivent envisager très tôt le cadre éthique et juridique du traitement des données (Conclusion 2).

La responsabilité des algorithmes

Les applications du big data utilisent souvent des algorithmes d’apprentissage automatique capables de faire des prédictions sur la base de modèles entraînés avec certains jeux de données. Si ces algorithmes peuvent être très performants en matière de prédictions, on ne sait souvent pas exactement comment ils les ont générées.

Le risque de discrimination

Les logiciels usuels suivent une série stricte d’instructions qui ont été (en grande partie) conçues par des humains chargés de la programmation. Des tests peuvent en principe garantir que les programmes fonctionnent comme prévu. La situation est différente avec de nombreux algorithmes d’apprentissage automatique: leurs résultats sont basés sur des modèles comportant un très grand nombre de paramètres, dont les valeurs sont générées automatiquement à partir de données d’entraînement. Leur comportement ne suit pas de règles codées par des humains.

Il est donc difficile de déterminer si ces résultats sont conformes aux normes éthiques établies, ou s’ils peuvent au contraire s’avérer discriminatoires à l’égard de certains groupes de population. Cela peut se produire si les données d’apprentissage ne sont ellesmêmes pas représentatives, ou si elles sont biaisées, périmées ou erronées, ce qui peut être le cas lorsqu’elles proviennent du Web. Les modèles d’apprentissage automatique dépendent des données d’entraînement, de sorte que leurs résultats peuvent reproduire les biais qui s’y trouvent. Et la suppression du paramètre «sexe» des données d’apprentissage peut ne pas empêcher l’obtention de résultats discriminatoires, car un modèle entraîné va peut-être automatiquement recréer la catégorie «sexe» à travers d’autres informations corrélées. Ce type de comportement peut échapper à la détection lors des premiers tests et n’apparaître que plus tard.

Comprendre l’apprentissage automatique

Les résultats produits par les réseaux neuronaux profonds et d’autres techniques d’apprentissage automatique peuvent être très difficiles à comprendre pour les humains, car les milliards de paramètres entraînables qui composent leurs modèles obscurcissent les mécanismes conduisant à des résultats particuliers. Il n’existe actuellement aucune solution reconnue pour surmonter complètement ce problème de «boîte noire» de l’intelligence artificielle.

Les scientifiques tentent de mieux comprendre ces systèmes automatisés afin d’améliorer l’explicabilité et la traçabilité de leurs décisions. Ces objectifs sont cruciaux pour démontrer que les algorithmes sont non discriminatoires, responsables et dignes de confiance.

Une personne ou une entreprise affectée par un algorithme potentiellement biaisé n’a ni les connaissances ni la capacité d’argumenter de manière convaincante que le système a commis une erreur ou a été discriminatoire à son égard. Une possibilité serait d’inverser la charge de la preuve, en exigeant que les responsables d’un algorithme doivent démontrer qu’il a un comportement correct. Cela pourrait impliquer un processus de certification développé par une organisation publique ou privée (Conclusion 3). Il pourrait passer par la modification délibérée de jeux de données de test pour vérifier si les résultats sont conformes aux règles éthiques.

Qui est responsable des algorithmes?

Les progrès rapides de l’apprentissage automatique soulèvent la question de la responsabilité, comme cela a été largement débattu dans le cas des véhicules à conduite autonome. Qui doit être tenu pour responsable d’un accident: le ou la propriétaire du véhicule, le constructeur, ou bien personne? Il s’agit d’un domaine évolutif du droit et de la politique, et il n’existe actuellement aucun accord sur la réponse à donner à ce type de questions. Alors que les constructeurs doivent concevoir leurs voitures de manière à minimiser les risques dans des situations de conduite typiques, ils ne peuvent pas prévoir toutes les circonstances possibles. Il est essentiel de définir précisément les responsabilités afin que l’incertitude juridique n’entrave pas l’innovation.

Vers une nouvelle réglementation

Le cadre législatif est souvent en retard sur les progrès rapides de l’apprentissage automatique et sur la collecte de données en constante expansion. Jusqu’à présent, la législation s’est concentrée sur les droits individuels et la prévention des effets négatifs sur les individus, plutôt que sur les impacts sur la société dans son ensemble.

L’UE élabore actuellement une loi visant à réglementer les applications de l’IA. Elle interdirait les applications considérées comme présentant un risque inacceptable, telles que les algorithmes manipulateurs ou les systèmes de notation sociale, tout en restreignant celles considérées comme présentant un risque élevé, telles que celles gérant des infrastructures critiques ou de sécurité. La Chine a également formulé une politique éthique en matière d’IA, privilégiant la sécurité sociale aux droits individuels. Elle exclut le secteur public, libre de procéder à la reconnaissance faciale et au profilage social.

L’évolution rapide de la technologie, entraînée en grande partie par des entreprises internationales, pose un problème juridique complexe. La Suisse doit élaborer sa législation de manière proactive (Conclusion 7) afin de veiller à ce que les règles soient appliquées et respectées.