The road ahead – ein Ausblick

Die Gesellschaft muss sich auf die potenziell disruptiven Veränderungen einstellen, die Big Data und Anwendungen maschinellen Lernens bewirken können. Im Folgenden wird ein Überblick über die wichtigsten Chancen und Herausforderungen gegeben, die vor uns liegen.

Die wichtigsten Errungenschaften des Nationalen Forschungsprogramms «Big Data» (NFP 75) haben die Fähigkeiten in der Schweiz in den Bereichen Technologien, Anwendungen und gesellschaftliche Aspekte von Big Data gestärkt. Das NFP 75 hat Technologien weiterentwickelt, die Big-Data-Infrastrukturen stützen und Big-Data-Forschende mit Expert*innen aus verschiedenen Bereichen zusammengebracht, um spezifische Anwendungen zu realisieren. Es hat auch das Bewusstsein für die gesellschaftlichen Herausforderungen geschärft, die mit der Produktion und Analyse grosser Datenmengen einhergehen, und schliesslich zur Entwicklung einer «Big-Data-Kultur» beigetragen, mit dem Ziel, die Vorteile von Big Data verantwortungsvoll zu nutzen.

Die 37 im Rahmen des Programms finanzierten Projekte deckten nur einen Teil dieses schnell wachsenden Bereichs ab. Dieses Kapitel geht darüber hinaus, um einen allgemeineren Überblick über Chancen und Risiken von Big Data zu geben, insbesondere über diejenigen, die in den kommenden Jahren an Bedeutung gewinnen könnten. Die folgende Einschätzung basiert auf den Erkenntnissen aus der Forschung des NFP 75 und den kollektiven Erkenntnissen der Mitglieder der Leitungsgruppe des Programms. Sie befasst sich sowohl mit der Aussicht auf eine stärkere Nutzung von Big Data in der Wirtschaft und im öffentlichen Sektor als auch mit den Herausforderungen in Bezug auf Nachhaltigkeit, Datenschutz und Rechenschaftspflicht.

Anwendungen wirken sich auf weitere Bereiche aus

Es ist zu erwarten, dass in den kommenden Jahren viele weitere Big-Data-Anwendungen entwickelt und eingesetzt werden. Neue private Sektoren, die über den elektronischen Handel hinausgehen, und öffentliche Verwaltungen werden sich auf Daten einstellen. Sie hoffen dadurch, wettbewerbsfähig zu bleiben, indem sie neue Fähigkeiten entwickeln, Kosten senken und gleichzeitig die Effizienz steigern. Wie einige Forschungsprojekte des NFP 75 gezeigt haben, erfordert die Entwicklung von realen Anwendungen die richtige Kombination von Fachwissen aus verschiedenen Bereichen. Es bedarf einer soliden Datenstrategie, die Privacy-bydesign-Ansätze, analytisches Know-how bei Branchenexpert:innen und Umsetzungswissen in der Arbeitswelt umfasst. Ein entscheidender Faktor ist die Verfügbarkeit von Datenwissenschaftler:innen, die den jeweiligen Anwendungsbereich verstehen, wie von Fachleuten, die mit der Datenwissenschaft vertraut sind. Dies unterstreicht, wie wichtig es ist, die neuen – und älteren – Generationen mit dem Wissen und den Werkzeugen auszustatten, die zum Einsatz von Big-Data-Anwendungen erforderlich sind.

Es folgt eine Auswahl von Bereichen, die von Big-Data-Anwendungen stark betroffen sein könnten.

Produktion: Verbesserung des Outputs, Optimierung der Wartung

Viele Industrieprodukte enthalten integrierte Sensoren, die mit dem Internet der Dinge (IOT) verbunden werden können. Die Produkte können Leistungsinformationen in Echtzeit übermitteln, sodass Hersteller Komponenten identifizieren können, die ersetzt oder verbessert werden müssen, oder die Sicherheit und Kundenzufriedenheit erhöhen können.

In der Landwirtschaft nutzen autonome Robotersysteme Bilderkennung, um Unkraut zu entfernen, Krankheiten und Schädlinge zu erkennen, Früchte zu ernten, Dünger gezielt auszubringen und ganze Felder mit Drohnen zu überwachen. Solche Roboter könnten dazu beitragen, den Arbeitskräftemangel zu verringern, den Düngerverbrauch zu senken und Pestizide zu vermeiden.

Staat: Verbesserung der Infrastrukturen und Unterstützung der Energiewende

Regierungen können Big Data nutzen, um evidenzbasierte politische Entscheidungen zu treffen, z. B. bei der Zuweisung von Ressourcen, der Durchführung strategischer Planungen oder der Überwachung öffentlicher Infrastrukturen (Schlussfolgerung 5). Die Analytik von Big Data kann die Verkehrsplanung verbessern (Optimierung der Verkehrssysteme), Verkehrsstaus entschärfen, die Planung, den Bau und den Betrieb von Versorgungseinrichtungen verbessern, die z. B. Wasser, Strom und Beleuchtung bereitstellen, und Umweltüberwachungen durchführen (Bodenerosion, Hochwassererkennung). Hochentwickelte Analytik wird dazu beitragen, unseren CO2-Fussabdruck zu verringern, indem sie eine flexible Energieversorgung, -speicherung und -verteilung sicherstellt und insbesondere die Stromnetze in die Lage versetzt, mit dezentralen und intermittierenden erneuerbaren Energiequellen wie Sonnen- oder Windenergie umzugehen (Potenzial erneuerbarer Energien).

Dienstleistungen: Automatisierung in den Bereichen Finanzen und Cybersicherheit

Finanzinstitute können Echtzeit-Transaktionsanalysen und Marktprognosen für den schnellen automatisierten Handel nutzen, wofür effiziente Infrastrukturen erforderlich sind (Schnelle Vorhersagealgorithmen, Graph Analytics und Mining). Die Quantifizierung individueller Risiken erlaubt es Versicherungsunternehmen, ihre Policen besser anzupassen, bedroht aber möglicherweise das Solidaritätsprinzip, das der Versicherung zugrunde liegt (Big Data im Versicherungswesen). Tracking-Systeme in Fahrzeugen und anderswo könnten risikominderndes Verhalten belohnen und so den Schwerpunkt auf Risikoprävention statt auf Risikoschutz legen.

Analytik kann helfen, Cyberangriffe zu verhindern, indem sie nach Anomalien bei der Datenübertragung in Echtzeit sucht und dann automatisch Gefahrenquellen blockiert (Datenströme). Bilderkennung kann verwendet werden, um automatisch physische Sicherheitsverletzungen und andere Unregelmässigkeiten zu erkennen.

Gesundheitsbereich: Unterstützung des medizinischen Personals und Personalisierung der Medizin

Es wird allgemein erwartet, dass maschinelles Lernen die Gesundheitsversorgung erheblich verbessern wird (Schlussfolgerung 4), wobei es bereits heute zur Erkennung von Anomalien in der klinischen Bildgebung eingesetzt wird. Neue Technologien könnten durch die Zusammenführung riesiger Datensätze aus Labortests, Krankenakten und Genetik grosse Fortschritte bei Prävention, Diagnose und gezielten Therapien ermöglichen. Insbesondere die fortschrittliche Verarbeitung der natürlichen Sprache (Sprachmodelle) ermöglicht automatische Extraktionen und Interpretationen von Daten aus unstrukturierten Texten in Krankenakten. Durch die Integration von Datenströmen aus verschiedenen klinischen Geräten in Echtzeit ist es auch möglich, den Gesundheitszustand von Patient:innen zu messen und Notfälle (Intensivstationen) zu erkennen.

Die Nutzung von Big Data für medizinische Anwendungen erfordert jedoch eine beachtliche Infrastruktur. Ausserdem werden innovative Methoden benötigt, um aus kleinen Teilmengen von Daten verlässliche Resultate zu generieren, angesichts der Tatsache, dass eine einzige Patientin oder ein einziger Patient Terabytes an Daten erzeugen kann. Bei genomischen Daten kann dies durch eine angemessene Vorverarbeitung geschehen (Big Data Genetik).

E-Commerce und Unterhaltung: Einbeziehung der Konsument:innen und synthetische Kunst

Kundendaten sammeln, analysieren und verwerten wird im E-Commerce wahrscheinlich eine immer grössere Rolle spielen. Online-Unternehmen nutzen bereits personalisierte Empfehlungen und Trendvorhersagen, aber neue datengesteuerte Anwendungen werden vermutlich Kundenerwartungen auch in den eigentlichen Produktgestaltungsprozess einbeziehen.

Sprachmodelle verbessern sich sehr schnell und werden immer besser darin, Bedeutung, Absicht und Kontext zu verstehen und wertvolle Informationen aus Texten zu extrahieren sowie synthetische Berichte oder Gespräche durch «Chatbots» zu erzeugen. Algorithmen können Musik auf der Grundlage von Stilen bestimmter Komponisten erzeugen. Computer erzeugen mithilfe von Textanweisungen überzeugend aussehende synthetische Bilder und Videos. Es ist zu erwarten, dass Software bald in der Lage sein wird, Filme zu erzeugen, die nicht als solche zu erkennen sind – komplett mit natürlich aussehenden Personen und Kulissen. Solche Systeme können die heutigen Medien- und Unterhaltungsprodukte ergänzen oder ersetzen, stellen aber auch grosse Herausforderungen für das geistige Eigentum sowie die Demokratie dar, da sie realistische computergenerierte Bild-, Audio- und Videofälschungen ermöglichen.

Offene Forschung: Entdeckungen beschleunigen

Immer mehr Wissenschaftler:innen stellen ihre Datensätze anderen kostenlos zur Verfügung, um Entdeckungen zu beschleunigen und die Reproduzierbarkeit zu verbessern (Schlussfolgerung 6). Doch wie jedes andere Datenarchiv müssen auch sie die für eine offene Forschung bestimmten Standards einhalten – wie die «FAIR-Prinzipien» der Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit. Dies erfordert maschinenlesbare, standardisierte Metadaten, die notwendige Erklärungen und Beschreibungen enthalten – alles Teile eines neuen Paradigmas, an das sich die akademische Welt gewöhnen muss (Big Data: Offene Daten und rechtliche Herausforderungen).

Reduktion des Fussabdrucks der Dateninfrastrukturen

Big Data wird sicherlich eine wichtige Rolle bei der Bekämpfung des Klimawandels und der Verringerung unseres CO2-Fussabdrucks spielen, trägt aber zugleich auch zu diesem Problem bei. Das Speichern und Verarbeiten grosser Datenmengen verbraucht erhebliche Energiemengen: 3,6 Prozent des gesamten Stromverbrauchs der Schweiz im Jahr 2019 entfielen auf Rechenzentren, ein Anstieg um 30 Prozent in 6 Jahren.

Die Verwaltung von Big Data ist mehr als nur das Sammeln und Speichern; die Daten müssen auch vor unbefugtem Zugriff, Korruption und Verlust geschützt werden. Dies erfordert eine Zugangskontrolle, Sicherungsprotokolle und Lösungen zur Korrektur beschädigter, unvollständiger oder ungenauer Daten. Datenbanken müssen bewahrt werden, indem sie kontinuierlich an neue Standards der Speicherung, 80 Komprimierung und Analyse angepasst werden. Dies bedeutet Arbeit für Daten- und Fach-Expert*innen und erhöht die Kosten von Big-Data-Anwendungen. Sparsame oder leichtgewichtige künstliche Intelligenz zielt darauf ab, den Energieverbrauch zu senken, z. B. indem sie mit kleineren Datensätzen arbeiten kann und synthetische Trainingsdaten verwendet, die Ressourcen sparen. Dieses neue und wachsende Feld erfordert weitere Forschungsanstrengungen (Coresets).

Abwägung des Datenschutzes

Zahlreiche Big-Data-Anwendungen, z. B. im Finanzwesen, im Ingenieurwesen oder bei der Umweltüberwachung, werfen keine neuen Fragen zum Datenschutz auf, da sie keine personenbezogenen Daten verwenden. Doch viele andere Anwendungen tun dies, und die ständig wachsende Menge an Daten, die sie über Einzelpersonen sammeln, wirft ethische und rechtliche Bedenken auf. Anwender:innen haben in der Regel wenig Ahnung davon, welche Daten von ihnen Anbieter:innen von Online-Diensten kontrollieren. Dies hat zu den Begriffen «digitale Kluft» und «digitale Asymmetrie» geführt.

Obwohl Anbieter:innen derzeit verpflichtet sind, Nutzer:innen zu benachrichtigen und um Einwilligung zu bitten, wenn sie Daten sammeln, reichen diese Schritte nicht aus, um die Privatsphäre zu schützen, da die meisten Nutzer:innen ohne weiteres Nachdenken und mit wenig Wissen über die Konsequenzen zustimmen. Das Hauptproblem besteht darin, dass die Nutzenden die Last tragen, die Auswirkungen ihrer Einwilligung zu verstehen, obwohl sie keinen unmittelbaren Nutzen aus der Datenerhebung ziehen. Die Behörden werden entscheiden müssen, inwieweit sie diese Praxis regulieren wollen (Schlussfolgerung 8).

Vollständige Anonymisierung ist oft unerreichbar

Bis vor Kurzem galt es als sicher, Daten weiterzugeben, die Informationen über Einzelpersonen enthielten, sobald sie anonymisiert wurden – durch Entfernen von Informationen, die eine Person direkt identifizieren könnten, wie Name, Geburtsdatum und Adresse. Es wird jedoch immer deutlicher, dass die Verknüpfung von Daten aus verschiedenen Quellen, auch wenn sie anonymisiert sind, die Wiedererkennung einzelner Personen ermöglichen. Bestimmte Arten von Daten, wie ganze Genome oder auch aufgezeichnete GPS-Daten eines Smartphones, enthalten ein so hohes Mass an sensiblen personenbezogenen Informationen, dass eine absolute Anonymisierung nicht realistisch ist. Die Freigabe von Daten, bei denen persönliche Informationen entfernt wurden, muss daher als Kontinuum betrachtet werden, bei dem der Verlust der Privatsphäre von Fall zu Fall gegen den geschaffenen Wert abgewogen werden muss.

Mehrere Ansätze können eine Re-Identifizierung verhindern. Der differenzielle Datenschutz beispielsweise verschleiert die Daten durch Hinzufügen von Zufallsrauschen, allerdings auf Kosten der Genauigkeit (Datenstromanalytik). Eine andere Möglichkeit besteht darin, bestimmte Datenpunkte zu unterdrücken oder zu umfassenderen Kategorien zusammenzufassen, wie dies bei der als k-Anonymität bezeichneten Methode geschieht.

Daten analysieren, ohne auf sie zuzugreifen

Sensible Daten können in Enklaven mit ausgeklügelter Zugriffskontrolle gespeichert werden. Dadurch wird sichergestellt, dass nur lokale Analysen durchgeführt werden können und dass nur aggregierte Ergebnisse, die Privatsphären schützen, nach ausserhalb der Enklaven gesendet werden. Eine weitere Option, die derzeit entwickelt wird, ist die föderierte Analyse, bei der Daten in mehreren lokalen Systemen ohne Austausch aufbewahrt werden. Die Berechnungen, einschliesslich des Trainings von Algorithmen maschinellen Lernens, werden lokal und gemeinsam durchgeführt. Auch hier werden nur partielle und aggregierte Ergebnisse oder Zwischenaktualisierungen des Modells geteilt, während die Originaldaten niemals übermittelt werden. Dies hilft, schwierige Fragen des grenzüberschreitenden Datentransfers zu lösen, der rechtliche Lösungen auf internationaler Ebene erfordert (Schlussfolgerung 9). Forschungsteams, die Anwendungen für Big Data entwickeln, sollten frühzeitig den ethischen und rechtlichen Rahmen der Datenverarbeitung in Betracht ziehen (Schlussfolgerung 2).

Algorithmen zur Rechenschaft ziehen

Big-Data-Anwendungen verwenden häufig Algorithmen maschinellen Lernens, die auf der Grundlage von Modellen, trainiert mit bestimmten Daten, Vorhersagen treffen können. Diese Algorithmen sind zwar oft sehr gut in der Vorhersage, aber es ist oft unklar, wie sie genau zu den Vorhersagen gekommen sind.

Das Risiko der Diskriminierung

Normale Software folgt einer strengen Reihe von Anweisungen, die (grösstenteils) von Menschen entworfen wurden. Programmierer:innen sowie Prüfer:innen können im Prinzip garantieren, dass sie wie erwartet funktioniert. Bei vielen Algorithmen maschinellen Lernens verhält es sich jedoch anders: Ihre Ergebnisse beruhen auf Modellen mit einer grossen Anzahl von Parametern, deren Werte automatisch aus Trainingsdaten generiert werden. Ihr Verhalten folgt nicht den von Menschen kodierten Regeln.

Das macht es schwierig herauszufinden, ob solche Ergebnisse mit etablierten ethischen Standards übereinstimmen oder ob sie z. B. bestimmte Bevölkerungsgruppen diskriminieren könnten. Dies kann geschehen, wenn die Trainingsdaten nicht repräsentativ, wenn sie verzerrt, veraltet oder fehlerhaft sind, was bei der Verwendung von Daten aus dem Internet der Fall sein kann. Modelle für maschinelles Lernen sind von Trainingsdaten abhängig, sodass Verzerrungen innerhalb dieser Daten in den Resultaten unter Umständen reproduziert werden. Wenn sie beispielsweise den Parameter «Geschlecht» aus den Trainingsdaten entfernen, kann das diskriminierende Ergebnisse nicht verhindern, da ein trainiertes Modell Ersatzwerte aus anderen Eingaben verwenden könnte, um die Kategorie Geschlecht wiederherzustellen. Ein solches Verhalten kann bei frühen Tests unentdeckt bleiben, aber später auftauchen.

Maschinelles Lernen verstehen

Wie erwähnt können die Ergebnisse von tiefen neuronalen Netzen und anderen Techniken des maschinellen Lernens für Menschen sehr schwer zu verstehen sein, da die Milliarden von trainierbaren Parametern, aus denen die Modelle bestehen, die Mechanismen verschleiern, die zu bestimmten Ergebnissen führen. Derzeit gibt es keine akzeptierte Lösung, um dieses «Blackbox»-Problem der künstlichen Intelligenz vollständig zu überwinden.

Theoretiker:innen versuchen, diese automatisierten Systeme besser zu verstehen, um die Erklärbarkeit und die Nachvollziehbarkeit ihrer Entscheidungen zu verbessern. Diese Ziele sind entscheidend, um nachzuweisen, dass Algorithmen verantwortungsbewusst, vertrauenswürdig und nicht diskriminierend sind.

Normalerweise haben Personen oder Unternehmen, die von einem potenziell verzerrten Algorithmus betroffen sind, weder das Wissen noch die Fähigkeit, überzeugend zu argumentieren, dass das System einen Fehler gemacht oder sie diskriminiert hat. Eine Möglichkeit besteht darin, die Beweislast umzukehren, sodass Systemverantwortliche für die Algorithmen nachweisen müssen, dass sie sich korrekt verhalten. Dies könnte ein Zertifizierungsverfahren beinhalten, von einer öffentlichen oder privaten Organisation entwickelt (Schlussfolgerung 3), und ausserdem die absichtliche Veränderung von Testdatensätzen, um zu prüfen, ob die Ausgabe mit ethischen Vorschriften übereinstimmt.

Wer ist für die Algorithmen verantwortlich?

Der rasante Fortschritt des maschinellen Lernens wirft die Frage der Haftung auf, wie sie bei selbstfahrenden Fahrzeugen ausführlich diskutiert wird. Wer sollte in diesem Fall für einen Unfall verantwortlich gemacht werden? Der Besitzer oder die Besitzerin des Fahrzeugs? Die Hersteller:innen? Niemand? Dies ist ein sich entwickelnder Bereich des Rechts und der Politik, und es besteht derzeit keine Einigkeit über die Antworten auf diese Art von Fragen. Zwar sind die Fahrzeuge so zu konstruieren, dass sie die Risiken in typischen Fahrsituationen minimieren, jedoch können nicht alle möglichen Umstände vorhergesehen werden. Es ist wichtig, die Verantwortlichkeiten genau zu definieren, damit Rechtsunsicherheit nicht die Innovation behindert.

Auf dem Weg zu einer neuen Regulierung

Die Gesetzgebung hinkt den rasanten Fortschritten im Bereich maschinellen Lernens und der immer umfangreicheren Datenerfassung oft hinterher. Sie hat sich bisher auf die Rechte Einzelner und die Vermeidung negativer Auswirkungen auf Einzelne konzentriert statt auf die Auswirkungen auf die Gesellschaft als Ganzes.

Die EU arbeitet derzeit an einem Gesetzesentwurf zur Regulierung von KI-Anwendungen. Es würde Anwendungen verbieten, die als inakzeptabel riskant gelten, wie manipulative Algorithmen oder Systeme zur sozialen Bewertung, und gleichzeitig solche einschränken, die als hoch riskant gelten, wie die Verwaltung kritischer Infrastrukturen oder die Strafverfolgung. China hat auch eine Ethikrichtlinie für KI formuliert, die soziale Sicherheit über individuelle Rechte stellt. Diese Richtlinie schliesst den öffentlichen Sektor aus, dem es freisteht, Gesichtserkennung und soziales Profiling durchzuführen.

Die rasante Entwicklung der Technologie, die vor allem von internationalen Unternehmen vorangetrieben wird, stellt die Gesetzgebung vor eine grosse Herausforderung. Die Schweiz sollte proaktiv eine Gesetzgebung (Schlussfolgerung 7) entwerfen, die sicherstellt, dass die Regeln konkret angewandt werden können und dass ihre Einhaltung überwacht wird.