Big Data Genetik: leistungsstarke Indexierung

Autoren
Prof. Gunnar Rätsch und Dr. Andre Kahles
ETH Zürich

Gespräch mit Forschenden des NFP75-Projekts.

Was war das Ziel Ihres Projekts?

Das Hauptziel unseres Projekts bestand darin, technische Lösungen für das Problem des Zugriffs auf und der Arbeit mit der ständig wachsenden Menge an biologischen Sequenzierungsdaten zu finden, die in öffentlichen und gesperrten Repositorien gespeichert sind.

Was waren die Resultate?

Um das Problem der Unzugänglichkeit von Sequenzen in grossen öffentlichen Archiven direkt anzugehen, haben wir ein modulares Software-Framework (MetaGraph) entwickelt, das beliebige Sequenzierungsdaten im Massstab einer Petabase indexieren kann. Mithilfe dieses Frameworks haben wir einen Index mit mehr als vier Millionen Sequenzierproben berechnet und öffentlich zugänglich gemacht. Neben den vorberechneten Indizes haben wir auch eine interaktive Plattform entwickelt, mit der diese Indizes über eine Webschnittstelle (https://metagraph.ethz.ch/search) oder eine öffentlich zugängliche API (https://metagraph.ethz.ch/static/docs/api.html) direkt abgefragt werden können. Von allen Beiträgen unseres Projekts sind die folgenden Highlights aus unserer Sicht die einflussreichsten und relevantesten für den Bereich der biomedizinischen Datenwissenschaft:

  1. Wir haben mehr als 3 Petabasen von Hochdurchsatz-Sequenzierungsdaten indexiert und öffentlich zugänglich gemacht, was zum ersten Mal eine Volltextsuche in grossen Teilen des Inhalts des Sequenzlese-Archivs (SRA) des NCBI ermöglicht. Wir sehen diesen Beitrag als Sprungbrett für eine kontinuierliche und vollständige Indizierung aller generierten Sequenzierungsdaten.
  2. Anstatt nur vorberechnete Ergebnisse zu liefern, haben wir ein vollständig modulares Software-Framework für die Indizierung und Analyse von Sequenzierungsdaten im Petabasen-Massstab entwickelt und sorgfältig dokumentiert. Das MetaGraph-Framework ermöglicht es den Nutzenden nicht nur, unsere Experimente zu replizieren, sondern auch die gleiche Methodik auf ihre eigenen Daten anzuwenden, ihre Ergebnisse in interaktiven Analysen in einen Kontext zu stellen oder die Funktionalität des Frameworks nach ihren eigenen Bedürfnissen zu erweitern.
  3. An der Basis vieler MetaGraph-Funktionen stehen unsere theoretischen Beiträge zum Bereich der Sequenz-Bioinformatik. Insbesondere unsere Arbeiten zur Kompression dünn besetzter binärer Matrizen, die Konzepte zur Mehrfarbigkeit eines de-Bruijn-Graphen, die alignementfreie Abstandsschätzung auf der Basis approximativer Methoden und Methoden für das Sequenz-Graphen-Alignment sind wichtige Beiträge, für die wir auch allgemeinere Anwendungen ausserhalb der biomedizinischen Datenwissenschaft sehen.

Was sind die Hauptaussagen des Projekts?

  • Das Potenzial von Big Data (im biomedizinischen Kontext) kann nur dann effektiv genutzt werden, wenn die Daten in kompatiblen Formaten vorliegen, gültig und fehlerarm sind, semantisch interoperabel sind, effizient gemeinsam genutzt und verarbeitet werden können und ständig gepflegt und verbessert werden. Es ist wichtig, Datenbestände nicht länger als Endlager zu betrachten, sondern sie als lebendige wissenschaftliche Ressource zu schätzen. Dazu müssen die Daten FAIR sein: findable, accessible, interoperable, and reusable (auffindbar, zugänglich, interoperabel und wiederverwendbar). Das in unserem Projekt entwickelte MetaGraph-Framework geht auf diese Bedürfnisse ein und bietet eine allgemeine Lösung, um grosse Sequenzdaten FAIR zu machen.
  • Das rasche Wachstum der weltweiten Sequenzierungskapazitäten erzeugt jeden Monat Petabytes an neuen Daten. Unser Projekt befasste sich mit diesem Problem und lieferte ausgefeilte Algorithmen und prägnante Datenstrukturen, um Sequenzsammlungen im Petabyte-Massstab effizient zu komprimieren und zu durchsuchen. Durch die Verringerung von Redundanzen werden Kompressionsraten von bis zu 1000 erreicht, wodurch die Daten nicht nur leichter zugänglich, sondern auch wesentlich kostengünstiger zu speichern sind.
  • Die Entwicklung von Strategien für die Suche und Darstellung von biomedizinischen Sequenzierungsdaten ist notwendig und zeitgemäss. Hätten die Ergebnisse dieses Projekts vor der Covid-19-Pandemie zur Verfügung gestanden, wäre das Portfolio der Sequenzanalysemethoden um ein leistungsfähiges Instrument erweitert gewesen, das dazu beigetragen hätte, genomische Abstammungslinien zu identifizieren und die Daten der genomischen Überwachung durchsuchbar und zugänglich zu machen.

Welche wissenschaftlichen Implikationen sehen Sie?

Die Menge an biomedizinischen Sequenzierungsdaten wird weiterhin exponentiell ansteigen. Schon bald können nicht mehr alle gemessenen Daten für die künftige Nutzung gespeichert werden. Wir empfehlen daher, die Forschung zur Abstraktion von Sequenzierungsdaten sowie zu Streaming- und Online-Methoden zur Relevanzerfassung zu verstärken. Dabei kann es sich um Kompressionsansätze, aber auch um probabilistische Methoden handeln, die relevante Daten aus einem gegebenen Datenstrom mit einer sehr hohen Wahrscheinlichkeit identifizieren. Dies geschieht natürlich unter der Annahme, dass die Menge der relevanten Daten unter allen gemessenen Daten ausreichend klein ist.

Welche Empfehlungen hat Ihr Projekt?

Die Arbeit mit Big Data unterscheidet sich vom traditionellen Konzept der wissenschaftlichen Datennutzung. Insbesondere die Arbeit mit Daten in der Grössenordnung von mehreren Petabytes erfordert einen unverhältnismässig hohen technischen und infrastrukturellen Aufwand. Dieser Aspekt sollte bei künftigen Förderprogrammen berücksichtigt werden, um ausreichende Ressourcen für die Integration von Daten- und Softwareingenieurinnen und -ingenieuren in die Projektpläne bereitzustellen. Wenn nur Doktorierende und Postdocs diese Last bewältigen müssen, sind die Forschungsergebnisse wahrscheinlich viel geringer als in einem Umfeld, in dem diese Aufgaben von Fachpersonal gelöst werden.

Zudem schlagen wir vor, bestehende oder neue Finanzierungsmöglichkeiten zu erweitern, aber auch neue Anreize für die Arbeit an der (automatisierten) Kuratierung und Pflege bestehender Datensammlungen zu schaffen. Nur mit vollständigen und vertrauenswürdigen Metadaten und der Möglichkeit, bestehende Datenelemente kontinuierlich zu kuratieren, können (öffentliche) Datenrepositorien ihr wahres Potenzial für die wissenschaftliche Forschung entfalten. Dies schliesst ausdrücklich auch die Finanzierung von Massnahmen ein, die darauf abzielen, bestehende Daten, die sich in Institutionen befinden, in Bereiche umzuwandeln, die für die Forschungsgemeinschaft (oder die Öffentlichkeit) zugänglich sind. Solche Bemühungen umfassen Datenkuratierung, Formatierung, Kodierung, Standardisierung und andere Massnahmen.

Zum Projekt

Weiterführende Links