Glossaire – Qu’est-ce que le big data?

Le big data est un concept en constante évolution, car il décrit par définition des jeux de données dont les propriétés défient les technologies disponibles, qui s’améliorent continuellement.

Le volume (taille) des données dépasse généralement les gigaoctets (Go) pour atteindre les téraoctets (1 000 Go), voire les pétaoctets (1 000 To), ce qui nécessite une infrastructure de stockage et de traitement très puissante. La vitesse des données (le taux de production, de transfert ou d’analyse) peut dépasser 1 Go/seconde, ce qui exige un matériel rapide et des logiciels efficaces.

Les applications combinent souvent des types de données hétérogènes (texte, chiffres, coordonnées, images, son, vidéo, etc.) aux caractéristiques très différentes: une trace GPS est très précise alors que la sémantique textuelle reste souvent ambiguë. Cette variété nécessite des algorithmes capables de gérer de multiples formats et types de données.

Les données sont rarement sans erreurs, précises, représentatives et complètes – des propriétés englobées dans le concept de véracité. De nombreuses applications du big data reposent sur des modèles plus ou moins précis entraînés avec des données d’apprentissage de qualité variable, ce qui influence la validité des résultats.

D’autres «v» sont parfois utilisés pour décrire une application du big data, comme la variabilité des données, leur vulnérabilité, leur visualisation ou leur valeur.

Concepts technologiques clés

Anonymisation │Suppression des informations susceptibles de révéler l’identité d’une personne afin de rendre les données anonymes (ou plutôt «pseudonymes»).

Apprentissage automatique │Techniques informatiques permettant aux algorithmes d’apprendre de manière autonome, par exemple grâce à des données d’apprentissage.

Apprentissage non supervisé │Approche d’apprentissage automatique dans laquelle les algorithmes découvrent des caractéristiques dans les jeux de données sans utiliser de données d’apprentissage labellisées.

Apprentissage supervisé │Approche d’apprentissage automatique dans laquelle les algorithmes apprennent à partir de données d’apprentissage labellisées.

Intelligence artificielle │Algorithmes et machines démontrant un comportement «intelligent», ainsi que les méthodes sous-jacentes et applications.

Métadonnées │Informations sur un point de données, telles que le lieu et la date de son acquisition, son type ou sa catégorie.cquired, its type or categorisation.

Réidentification │Combinaison de plusieurs jeux de données anonymes dans le but d’identifier des individus.atasets to identify people.

Questions sociétales et éthiques

Accès│Les gens doivent pouvoir accéder à leurs données personnelles stockées par les fournisseurs de services et pouvoir les supprimer.

Asymétrie du pouvoir │ La population, les entreprises et les autorités ne sont souvent pas en mesure de changer de fournisseurs.

Autonomie │Les usagers et usagères doivent pouvoir contrôler quelles données personnelles sont collectées, comment et à quelles fins – au-delà de simplement autoriser ou non l’emploi de certains cookies.

Autonomie sociétale │Le développement du big data est dirigé principalement par les entreprises, avec peu de contrôle par la population et les autorités.

Biais│Les données ne sont pas neutres: elles reflètent les biais existants dans la société, comme la représentation limitée des minorités ou des corrélations de nature discriminatoire.

Boîte noire│Le résultat généré par un algorithme d’apprentissage automatique ne peut souvent pas être expliqué, ce qui nuit à la fiabilité et à la confiance.

Confiance│Il doit exister une certaine confiance dans le big data et ainsi dans l’ensemble du processus, des données elles-mêmes (vie privée, accès et partialité) aux algorithmes (fiabilité et équité) et à l’utilisation des applications. Innovation L’innovation a besoin d’une réglementation claire, stable et équilibrée.

Équité│Les algorithmes entraînés avec des données biaisées peuvent produire des résultats inéquitables.

Innovation │Innovation requires clear, stable and balanced regulation.

Pratiques commerciales │Les applications du big data nécessitent un partage des données, soulevant des questions de confidentialité.

Réglementation│Même des algorithmes portant une grande responsabilité sont largement déréglementés, contrairement aux produits médicaux physiques ou aux véhicules. La transparence et les projets de recherche transnationaux sont entravés par les différences entre les réglementations nationales.

Vie privée│Les personnes doivent être protégées contre l’accès indu à leurs données privées, leur partage et leur analyse par des tiers.