Big Data: Technologien

Big-Data-Anwendungen bedingen Big-Data-Technologien: Hardware- und Softwarelösungen, die in der Lage sind, riesige Datenmengen zu verarbeiten und sie zuverlässig und effizient zu analysieren. Die in diesem Kapitel vorgestellten Forschungsergebnisse des NFP 75 zeigen, wie- Schweizer Forschende einen wichtigen Beitrag zur Entwicklung neuer Technologien für Big-Data-Anwendungen leisten und dabei helfen können, zukunftsweisende Lösungen für die notwendige Infrastruktur und Analytik erfolgreich einzusetzen.

Die reale Anwendung von Big Data steht vor tiefgreifenden technologischen Herausforderungen. Eine davon ist die schiere Menge der Daten: Nach gängiger Definition übersteigt Big Data die Möglichkeiten herkömmlicher Technologien zur Speicherung, Verwaltung und Analyse der Daten. Ein Grossteil der derzeitigen Recheninfrastrukturen werden bald veraltet sein und ersetzt werden müssen. Big Data erfordert neue Methoden der Datenverarbeitung und Datenanalyse. Darum ist die Grundlagenforschung im Bereich der Big-Data-Infrastruktur und -Analysetechnologien so wichtig. Das NFP 75 hat die Schweizer Grundlagenforschung in diesem Bereich gestärkt. Es hat ein Dutzend neuer Ansätze für die Entwicklung von Technologien hervorgebracht, die Big-Data-Anwendungen zugrunde liegen.

Effizientere Big-Data-Infrastrukturen

Big Data erfordert eine leistungsstarke Infrastruktur, insbesondere jene Low-Level-Prozesse, die als Rückgrat für die Datenanalyse auf höherer Ebene dienen. Diese Infrastruktur besteht aus Hardware und Software.

Neuartige Ansätze für Big-Data-Analytik

Die Analytik ist die sichtbarste Komponente von Big-Data-Anwendungen. Sie schafft aus den Daten einen Wert, indem sie Wissen und Erkenntnisse extrahiert, die für Benutzer:innen oder Kund:innen wertvoll sind.

Lösungsansätze

Die derzeitigen administrativen Prozesse in der Schweiz für den Zugriff, die gemeinsame Nutzung und die Verarbeitung von Daten können gestrafft werden, vor allem wenn sie sich auf die öffentliche Forschung beziehen. Die Datennutzung von Anwendungen kann sich negativ auf die Privatsphäre auswirken, aber eine pauschale Einschränkung der Datennutzung hat auch Nachteile, z. B. macht sie Innovationen sehr zeitaufwändig. Datenschutz hat seinen Preis, der ebenfalls berücksichtigt werden muss.

Lösungsansätze bestehen darin, den Datenschutz zu einem inhärenten und möglicherweise obligatorischen Aspekt der Big-Data-Verarbeitung zu machen. Entwickler:innen und Nutzer:innen von Big-Data-Anwendungen
müssen über die verschiedenen Techniken zur Wahrung der Privatsphäre und deren Vor- und Nachteile informiert werden. Idealerweise hätten sie Zugang zu Tools, die ihnen bei der Optimierung von Algorithmen helfen, wenn es darum geht, ein Gleichgewicht zwischen Datenschutz, Effizienz und Qualität der Dienste herzustellen. Die Digitalisierung von Informationen erfordert eine sorgfältige Analyse, um eine zielgerichtete Nutzung von Formaten und Metadaten zu gewährleisten.

Messwerte des wissenschaftlichen Erfolgs bei der Förderung und Mittelvergabe sollten über die übliche Anzahl von Veröffentlichungen und Anmeldungen hinausgehen und möglicherweise auch Auswirkungen der Forschung ausserhalb der akademischen Welt einbeziehen (vor allem, wenn die Arbeit mit Open-Source-Protokollen erfolgt). Wissenschaftler:innen müssen über Freiheit und Flexibilität in der Forschung verfügen, damit sie ihre Pläne so gestalten können, dass sie das Beste aus den sich schnell entwickelnden Bereichen wie Big Data herausholen können.

Der Faktor Mensch kann ebenso wichtig sein wie der Zugang zu Technologie, zumal Letzterer oft «open source» und verfügbar ist. Die Unterstützung der akademischen Forschung ermöglicht nicht nur Fortschritte in der Big-Data-Technologie auf regionaler und internationaler Ebene, sondern bildet auch Spezialist:innen aus, welche die Gesellschaft braucht. Diese Expert:innen werden nicht nur Technologien entwickeln, sondern auch ein Verständnis für die Probleme im Zusammenhang mit Big Data mitbringen, z.B. für die Verfügbarkeit von Technologien, den Datenschutz, die Cybersicherheit und die Beteiligung von Interessengruppen. So gesehen werden sie zu den strategischen Entscheidungen öffentlicher und privater Organisationen über die Digitalisierung beitragen.

Kernaussagen

Das NFP 75 hat zahlreiche Forschungsresultate von globaler Bedeutung hervorgebracht, indem neue Wege zur Verbesserung von Infrastruktur und Analytik verfolgt wurden, die schliesslich für die gewinnbringende Nutzung von Big Data erforderlich sind. Diese Grundlagenforschung ist zwar an sich sehr anspruchsvoll, allerdings ist der Weg zum Erfolg bekannt und somit letztlich direkter als die Entwicklung von Anwendungen. So kann beispielsweise der eingeschränkte Zugang zu Daten manchmal umgangen werden, indem künstlich erzeugte Datensätze verwendet werden, deren bekannte Eigenschaften das Testen und Abstimmen der neuen Systeme ermöglichen. Die Forschung beschäftigt sich nach wie vor mit der Frage, wie schnell die Systeme Daten verarbeiten und analysieren und das erwartete Ergebnis innerhalb einer bestimmten Fehlerspanne erreichen können. Mit anderen Worten, die Problemstellungen der Forschung sind klar definiert. Jedoch sind sie eingebettet in ein schnelllebiges Umfeld mit Akteurinnen und Akteuren in der Industrie und anderswo, die unterschiedliche Ziele verfolgen.

Wettbewerb und Zusammenarbeit zwischen privater und öffentlicher Forschung

Der intensive internationale Wettbewerb im Bereich der Big-Data-Technologien bedroht die digitale Autonomie der Nationen, bedeutet aber auch eine Chance zur Zusammenarbeit. Die Wirtschaft, insbesondere in den USA und in China, macht viele der Fortschritte bei der Infrastruktur und der Analyse von Big Data und präsentiert ein gutes Drittel der Arbeit auf wissenschaftlichen Spitzenkonferenzen. Sie führten zur Entwicklung verbesserter Sprachmodelle und optimierter Hardware wie Tensor Processing Units, die auf die Ausführung neuronaler Netzwerke ausgerichtet sind. Die private Forschung und Entwicklung steht auch der weltweit besten akademischen Forschung in nichts nach.

Big-Data-Technologien der Unternehmen mögen universell erscheinen, in Anbetracht ihres Strebens nach einer breiten Akzeptanz. Eine CPU oder ein Vorverarbeitungsalgorithmus mag im Wesentlichen unabhängig von der Nutzung sein. Big-Data-Technologien werden jedoch zunehmend spezialisiert, um das jeweilige Problem und insbesondere die Art der Daten – ob dynamisch oder statisch, homogen oder heterogen usw. – bestmöglich zu bewältigen. Das bedeutet, dass auch die Industrie Einfluss auf das mögliche Spektrum der Big-Data-Anwendungen hat. Es ist daher entscheidend, dass die öffentlich finanzierte Forschung mit der Industrie Schritt hält, wenn die Gesellschaft ein Mitspracherecht bei der Zukunft der Digitalisierung haben soll.

Akademische Forschung bleibt für die Entwicklung von Big-Data-Technologien unverzichtbar, vor allem wenn es um Grundsätze von gesellschaftlicher Relevanz geht, die für grosse Technologieunternehmen jedoch von geringerer Bedeutung sind, wie die Senkung des Energieverbrauchs oder die Sicherstellung des Datenschutzes durch Technikgestaltung (Privacy-by-Design). Darüber hinaus kann die öffentliche Forschung mutiger sein, indem sie Wege mit hohem Risiko und hohem Gewinn beschreitet. Während die Wirtschaft oft Einheitslösungen verfolgt, hat die akademische Forschung erfolgreich eine breitere Palette von Hard- und Software für die Big-Data-Technologie entwickelt. Dazu gehören programmierbare Netzwerk-Switches, netzinterne Analysen, neue Programmiermodelle für domänenspezifische Geräte und Algorithmen, die auf formaler Logik anstelle von maschinellem Lernen basieren.

Akademische Forschung ist der Privatwirtschaft mitunter weit voraus, denn Letztere verlässt sich auf die Innovationen von Spin-offs aus Universitäten. Bei einigen Forschungsthemen im Bereich Big Data ist dieser Abstand jedoch viel geringer, sodass die Zusammenarbeit zwischen Hochschulen und Wirtschaft gefördert wird – zumal Erstere die Rechenleistung, Speicherkapazitäten und den Datenzugang der Letzteren benötigen. Solche Kooperationen sind im Prinzip eine «Win-win-Situation», bei der Hochschulen von den Ressourcen der Wirtschaft, realen Problemen und grossen Herausforderung profitieren, während die Wirtschaft von modernster Forschung und innovativeren Ideen profitiert.

Ein schlummerndes Problem in der akademischen Welt ist allerdings die mangelnde Anerkennung von Forschenden, die Anwendungen entwickeln, Zusammenarbeit fördern und Open-Source-Software einsetzen. Sie kann Forschende von Weltrang dazu bringen, sich nicht mit konkreten Problemen zu befassen und nicht mit der Wirtschaft zusammenzuarbeiten. Daher sind vielfältigere Karrierewege in der öffentlichen Forschung gefordert sowie Bewertungen, die über die traditionellen wissenschaftlichen Veröffentlichungen und Förderungserfolge hinausgehen.

Die Personalproblematik

Eine grosse Herausforderung beim Einsatz von Big Data stellt der Mangel an qualifiziertem Personal entlang der gesamten Wertschöpfungskette dar, von den Infrastrukturtechnologien über die Anwendungen bis hin zu Unternehmensintegration und Regulierung. Es herrscht ein harter Wettbewerb um Talente. Viele der klügsten Köpfe werden von grossen multinationalen Unternehmen, aber auch von KMU und Start-ups abgeworben. Die akademische Forschung verliert infolgedessen, da sie Mühe hat, die besten Wissenschaftler:innen anzuziehen – selbst auf der Ebene der Doktorierenden. Universitäten drohen daher, talentierte Forschende zu verlieren, wenn sie mit grossen Technologieunternehmen zusammenarbeiten. Schnelle und häufige Karrierewechsel bringen zwar neue Perspektiven und Verbindungen, sind aber ein Problem für Forschungsprojekte.

Auf der anderen Seite sorgt die weltweit führende Schweizer Forschung im Bereich Big Data dafür, dass viele Spezialist:innen, die von öffentlichen und privaten Organisationen benötigt werden, ausgebildet und geschult werden und gute Kontakte zu Hochschulen und Industrie pflegen. Das macht die Schweiz innovativ und attraktiv für multinationale Unternehmen und internationale Organisationen.

Die Beschaffung der Daten

Die zweite grosse Herausforderung ist die Verfügbarkeit grosser, hochwertiger Datensätze, die für eine realistische Bewertung von Big-Data-Analysen und -Anwendungen unerlässlich sind.

Dieses Problem wird sich in dem Masse verringern, wie öffentliche und private Organisationen eine Datenkultur entwickeln, seine Lösung erfordert jedoch eine solide Strategie, die sicherstellt, dass Daten von hoher Qualität sind, ordnungsgemäss mit Metadaten versehen und durch Datenschutzpraktiken geschützt werden. Entwickler:innen und Nutzer:innen von Big-Data-Technologien müssen mit den verschiedenen Methoden zur Wahrung der Privatsphäre vertraut und in der Lage sein, das richtige Gleichgewicht zwischen Privatsphäre, Effizienz und Qualität der Dienste zu finden.

Privatsphäre und Datenschutz werfen viele Fragen auf, z. B. ob das schweizerische oder europäische Datenschutzgesetz die richtigen Grenzen im Datenmanagement setzt oder wie die Privatsphäre geschützt und gleichzeitig Innovation gefördert werden kann. Die derzeitigen ethischen, genehmigungsrechtlichen und administrativen Prozesse, die Verwendungen medizinischer und wissenschaftlicher Daten in der Schweiz regeln, werden als langsam und komplex empfunden und könnten gestrafft und vereinfacht werden. Dies ist jedoch eine vielschichtige Diskussion, die multidisziplinäre Ansätze erfordert, einschliesslich der Einbeziehung der Sozialwissenschaften.