Wenig strukturierte Daten: neue Techniken für die Datenintegration

Autor
Prof. Philippe Cudré-Mauroux
Université de Fribourg

Home > Effizientere Big-Data-Infrastrukturen > Wenig strukturierte Daten: neue Techniken für die Datenintegration

12. Juli 2022

Gespräch mit dem Projektleiter des NFP75-Projekts.

Was war das Ziel Ihres Projekts?

Ziel dieses Projekts war es, neue Techniken für die automatische oder halbautomatische Integration von Daten zu entwickeln. Da die Datenstruktur häufig nicht im Voraus definiert ist, bestand die zentrale Herausforderung darin, sie im Nachhinein zu verstehen, indem anhand der verfügbaren Daten Muster rekonstruiert werden.

Resultate?

Das Projekt führte zu einer Reihe neuartiger Integrationsalgorithmen der nächsten Generation sowie zu mehreren Einsätzen mit echten Daten. Insbesondere wurden neue Techniken zur Integration und Abfrage von Mikroposts sowie neue Human-in-the-Loop-Methoden zu deren Analyse entwickelt. Auch bei der Verbesserung der Graphen-Integration und -Analyse wurden bedeutende Fortschritte erzielt; neue Einbettungstechniken in diesem Zusammenhang, die um ein bis zwei Grössenordnungen schneller sind als frühere Ansätze, sowie neue Imputationstechniken zur Verbesserung der Qualität von Wissensgraphen, die für die Datenintegration verwendet werden, sind ebenfalls ein Ergebnis dieses Projekts. Es wurden Ansätze für zwei reale Anwendungsfälle entwickelt: zum einen für die Analyse und Integration von PDF-Dateien für das Bundesarchiv und zum anderen für die Integration lose strukturierter Daten für die Krebsdiagnose.

Was sind die Hauptaussagen des Projekts?

Die erste Hauptbotschaft lautet, dass wir in der Schweiz komplexe Fragen im Zusammenhang mit Big Data erfolgreich angehen können und dass wir in diesem Kontext erfolgreich Lösungen der nächsten Generation «Made in Switzerland» einsetzen können – angesichts der schlechten Erfolgsbilanz vieler Schweizer Branchen in diesem Zusammenhang ist dies eine Botschaft, die es wert ist, verbreitet zu werden.
Die zweite Hauptbotschaft ist eher technischer Natur und bezieht sich auf die Tatsache, dass spezielle Einbettungsmethoden, die auf ein bestimmtes Problem zugeschnitten sind, bei der Lösung vertikaler Aufgaben äusserst effizient sein können.
Die dritte Hauptbotschaft schliesslich bezieht sich auf unseren Human-in-the-Loop-Ansatz und unterstreicht die Tatsache, dass wir beim Einsatz von KI-Pipelines bessere Formen der Zusammenarbeit zwischen Fachleuten (z. B. Data Scientists, Ärztinnen und Ärzte) und Modellen finden sollten.

Welche wissenschaftlichen Implikationen sehen Sie?

Das Projekt hatte – wie schon erwähnt – bedeutende wissenschaftliche Auswirkungen. Die wichtigsten Punkte sind folgende: i) massgeschneiderte datengesteuerte Anwendungen können für vertikale Bereiche äusserst effektiv sein; ii) Einrichtungen, die in Bezug auf digitale Infrastrukturen im Rückstand sind (z. B. Bundesbehörden oder Spitäler), können neue datengesteuerte Werkzeuge und Prozesse schnell übernehmen, wenn sie dabei von Fachleuten unterstützt werden; iii) die derzeitigen Formen der Zusammenarbeit zwischen Fachleuten und datengesteuerten Modellen sind unzureichend; der Schwerpunkt sollte stärker auf Human-in-the-Loop-Ansätze und auf die Entwicklung neuer Methoden für die Zusammenarbeit zwischen Mensch und KI gelegt werden.

Welche Empfehlungen hat Ihr Projekt?

Im Kontext des Programms und aufgrund unserer eigenen Erfahrungen mit diesem Projekt kann ich folgende politische Empfehlungen aussprechen:

Die Schweiz sollte ihren Schwerpunkt in der Datenpolitik drastisch verlagern; heute leiden Verwaltungen, Ärztinnen und Ärzte sowie Forschende unter starren und schwerfälligen Verfahren, wenn es um die Erhebung, Verarbeitung oder Weitergabe von Daten geht. Auf der anderen Seite haben grosse Unternehmen freie Hand und missbrauchen die Daten der Nutzerinnen und Nutzer immer wieder, ohne dass dies Konsequenzen hat. Die Schweiz sollte in diesem Zusammenhang der EU folgen und viel strenger sein, wenn es um Daten geht, die von grossen Unternehmen verwendet werden, anstatt eine «GDPR light» mit fast keinen Sanktionen zu verabschieden, wie sie es derzeit tut.
Im Zusammenhang mit medizinischen und wissenschaftlichen Daten sollten die aktuellen ethischen Genehmigungs- und Verwaltungsverfahren (die äusserst langsam und komplex sind) gestrafft, vereinfacht und vor allem «richtig digitalisiert» werden (alle Verfahren beruhen derzeit auf sinnlosen und unpraktischen Formularen und auf Texten in natürlicher Sprache).
Selbstbestimmung und Souveränität sind zwei zentrale Schweizer Werte. In Bezug auf Daten sind wir jedoch völlig abhängig von grossen ausländischen Unternehmen, die ihre Prozesse über ihre eigenen Plattformen diktieren. Die Tatsache, dass der Bund amerikanische und chinesische Anbieter für den Betrieb ihrer eigenen Cloud gewählt hat, ist in diesem Zusammenhang besonders aufschlussreich. Ich kann diese Entscheidung leider nachvollziehen, da den Schweizer Cloud-Anbietern die meisten fortschrittlichen Funktionen der führenden Cloud-Anbieter fehlen. Die Schweiz sollte in diesem Bereich massiv investieren, um sich von ausländischen Plattformen unabhängiger zu machen und technisch sinnvolle Infrastrukturen in der Schweiz aufzubauen.

Big Data ist ein sehr vager Begriff. Können Sie uns erklären, was Big Data für Sie bedeutet?

Das Projekt hat den Aspekt der «Vielfalt» (Englisch: Variety) von Big Data erforscht, der meines Erachtens die am wenigsten verstandene Facette ist. Das Projekt trug wesentlich zum Verständnis und zur Weiterentwicklung von Big Data in der Wissenschaft bei, indem es grundlegende Fortschritte erzielte und einige dieser Fortschritte auf die Analyse umfangreicher Dokumente und medizinischer Daten anwendete.d