Glossar – Wann sind Daten «gross»?

Big Data ist ein sich fortentwickelndes Konzept, da es Datensätze beschreibt, deren Eigenschaften die aktuellen Technologien herausfordern.

Die Datenmenge (volume) geht in der Regel über Gigabytes (GB) hinaus und erreicht Terabytes (1000 GB) oder sogar Petabytes (1000 TB), was eine sehr leistungsfähige Speicher- und Verarbeitungsinfrastruktur erfordert. Die Geschwindigkeit (velocity) der Daten, d. h. die Produktions- oder Übertragungsrate oder die Analysegeschwindigkeit, kann ein GB pro Sekunde überschreiten, was sehr schnelle Hardware und effiziente Software erfordert.

Anwendungen kombinieren oft heterogene Datentypen (Text, Zahlen, Koordinaten, Bilder, Ton, Video usw.) mit sehr unterschiedlichen Eigenschaften – eine GPS-Ortung ist sehr präzise, während die Semantik von Texten oft mehrdeutig ist. Diese Vielfalt (variety) erfordert Algorithmen, die mit unterschiedlichen Datenformaten und -typen umgehen können.

Daten sind selten fehlerfrei, wahrheitsgemäss, genau, repräsentativ oder vollständig – Eigenschaften, die mit dem Begriff Wahrhaftigkeit (veracity) erfasst werden. Viele Big-Data-Anwendungen basieren auf mehr oder weniger genauen Modellen oder auf Techniken des maschinellen Lernens, die zunächst aus Trainingsdatensätzen von unterschiedlicher Qualität lernen, was die Gültigkeit (validity) der Ergebnisse beeinflusst.

Manchmal werden weitere «V» verwendet, um eine Big-Data-Anwendung zu beschreiben, darunter Datenvariabilität (variability), Anfälligkeit (vulnerability), Visualisierung (visualisation) oder Wert (value).

Wichtige technologische Konzepte

Anonymisierung│Algorithmen und Maschinen, die «intelligentes» Verhalten zeigen, sowie die zugrunde liegenden Methoden und die realen Anwendungen.

Künstliche Intelligenz│Algorithms and machines demonstrating “intelligent” behaviour, as well as the underlying methods and real applications.

Maschinelles Lernen│Computingmethoden, die es Algorithmen ermöglichen, selbstständig zu lernen, z. B. durch Trainingsdaten.

Metadaten│Informationen über einen Datenpunkt, z. B. wo und wann er erfasst wurde, seine Art oder seine Kategorisierung.

Re-Identifizierung│Kombination mehrerer anonymisierter Datensätze, um Personen zu identifizieren.

Überwachtes Lernen │ Ein Ansatz des maschinellen Lernens, bei dem Algorithmen aus klassifizierten Trainingsdaten lernen.

Unüberwachtes Lernen │Ein Ansatz des maschinellen Lernens, bei dem Algorithmen Merkmale in Datensätzen entdecken, ohne klassifizierte Trainingsdaten zu verwenden.

Gesellschaftliche und ethische Aspekte

Asymmetrie der Macht │ Bürger:innen, Unternehmen und Regierungen sind in der Praxis oft nicht in der Lage, Anbieter zu wechseln.

Autonomie der Nutzer:innen │Nutzer:innen sollen kontrollieren können, welche Daten auf welche Weise und zu welchem Zweck gesammelt werden – und zwar über die blosse Erlaubnis zur Verwendung bestimmter Cookies hinaus.

Bias │Daten sind nicht neutral: Sie spiegeln bestehende Verzerrungen in der Gesellschaft, z.B. eine eingeschränkte Repräsentation von Minderheiten oder diskriminierende Korrelationen.

Blackbox │Das von einem Algorithmus erzeugte Ergebnis kann oft nicht erklärt werden. Dies beeinträchtigt die Zuverlässigkeit und das Vertrauen.

Datenschutz │Einzelpersonen sollen vor einem unzulässigen Zugriff auf ihre privaten Daten und vor der Weitergabe und der Analyse dieser Daten durch andere geschützt werden.

Fairness │Algorithmen, die mit verzerrten Daten trainiert wurden, liefern wahrscheinlich unfaire Ergebnisse.

Geschäftspraktiken │Big-Data-Anwendungen erfordern eine geteilte Nutzung von Daten, was Konflikte mit Geschäftsgeheimnissen hervorbringt.

Gesellschaftliche Autonomie │Die Entwicklung von Big Data wird hauptsächlich von Unternehmen vorangetrieben, ohne dass Bürger:innen oder Behörden eine Kontrolle ausüben.

Innovation │Innovation braucht eine klare, stabile und ausgewogene Regulierung.

Regulierung │Selbst Algorithmen, die mit grosser Verantwortung einhergehen, sind weitgehend unreguliert; im Gegensatz zu medizinischen Produkten oder Fahrzeugen. Unterschiedliche Vorschriften behindern internationale Forschungsprojekte.

Vertrauen │Die Gesellschaft muss Vertrauen in Big-Data-Anwendungen haben können. Dazu bedarf es Vertrauen in den gesamten Prozess der Datengenerierung und -nutzung und betrifft somit die Daten selbst, die Algorithmen sowie die Implementierung von Big-Data-Systemen.

Zugriff │Menschen sollen in der Lage sein, auf ihre von Dienstanbietern gespeicherten persönlichen Daten zuzugreifen und sie zu löschen.