BioSODA: An intuitive search function for bioinformatics databases

Bioinformatik-Datenbanken: Abfragen in natürlicher Sprache

Autor
Prof. Kurt Stockinger
ZHAW

Gespräch mit dem Projektleiter des NFP75-Projekts.

Was war das Ziel Ihres Projekts?

Die rasanten Fortschritte bei der DNA-Sequenzierung machen die Biowissenschaften zu einer sehr datenintensiven Disziplin. Riesige Mengen an Bioinformatikdaten werden in komplexen Datenbanken gespeichert, die auf leistungsstarken Technologien aufbauen, aber auch ein hohes Mass an informationstechnischem Hintergrundwissen erfordern, wenn es um die Abfrage geht. Es werden neue Suchtechnologien benötigt, um Dutzende von Bioinformatik-Datenbanken effizient zu analysieren. Ziel Ihres Projekts war es, neuartige Google-ähnliche Suchoptionen zu entwickeln, die es Forschenden ermöglichen, Datenbanken intuitiv abzufragen und sich auf wissenschaftliche Fragen zu konzentrieren.

Was sind die Resultate?

Vor dem Start des BioSODA-Projekts erforderte der Zugriff auf die grossen Bioinformatik-Datenbanken, dass die Nutzerinnen und Nutzer die Abfragesprache SPARQL beherrschten und die zugrunde liegende Struktur der Datenbanken kannten. Da die meisten Nutzerinnen und Nutzer nicht über ausreichende Kenntnisse verfügten, konnten sie die Unmengen von Informationsquellen nicht effektiv abfragen oder waren auf die Hilfe einiger weniger Spezialistinnen und Spezialisten angewiesen, um auf ihre Daten zuzugreifen. Dieser Prozess war sowohl zeitaufwändig als auch ineffizient, da die Forschenden ihre kostbare Zeit mit der Datenrecherche verbrachten, anstatt sich der wissenschaftlichen Forschung zu widmen.

Das Projekt BioSODA legte erfolgreich den Grundstein für die Anwendung des entwickelten Systems und des Forschungsansatzes weit über die Life Sciences hinaus. So wird BioSODA nun auch in dem im Rahmen des EU-Programms Horizon 2020 geförderten Projekt INODE – Intelligent Open Data Exploration (www.inode-project.eu) eingesetzt. Das Ziel von BioSODA in INODE ist es, die Abfrage von Datensätzen in natürlicher Sprache in drei verschiedenen wissenschaftlichen Bereichen zu ermöglichen, nämlich in der Krebs-Biomarkerforschung, der Forschungs- und Innovationspolitik und der Astrophysik.

Die Hauptaussagen

  1. In den letzten Jahren sind die Digitalisierungsbemühungen in allen Wissensbereichen rasch vorangekommen. Um jedoch das volle Potenzial der Digitalisierung auszuschöpfen – Fachleute in die Lage zu versetzen, routinemässig Erkenntnisse und wissenschaftliche Ergebnisse aus Big Data zu gewinnen –, müssen wir die gemeinsame Nutzung und Integration von Daten sowie benutzerfreundliche Schnittstellen zur Abfrage dieser Daten verbessern.
  2. Das BioSODA-Projekt hat gezeigt, wie Bioinformatik-Datensätze aus traditionell unverbundenen Bereichen der vergleichenden Genomik interoperabel gemacht werden können. Das Projekt veranschaulichte anhand von realen Anwendungsbeispielen die Vorteile der Datenintegration, die leistungsfähigere semantische Abfragen als bisher ermöglichen.
  3. BioSODA hat einen wesentlichen Beitrag dazu geleistet, mit Datenbanken fast wie mit einem Menschen zu sprechen, indem es einen intuitiven Zugriff auf komplexe Bioinformatik-Datenbanken in natürlicher Sprache ermöglicht – und gleichzeitig das beträchtliche Potenzial für weitere Verbesserungen aufzeigt, wenn es um die Durchführung komplexer Abfragen über mehrere Ressourcen hinweg geht.

Ihr Projekt hat Empfehlungen für die Politik. Welche sind dies?

Behörden, Fördereinrichtungen, Fachzeitschriften und Konferenzen müssen der angewandten, interdisziplinären Forschung, die weit über die theoretische Forschung hinausgeht, einen stärkeren Anreiz bieten. Nur durch den Aufbau solider Forschungsprototypen, die in der Praxis erprobt werden, kann der Technologietransfer in die Industrie erfolgreich sein.

Eine konkrete Empfehlung lautet, die Finanzierung der angewandten Forschung stärker in den Vordergrund zu stellen und den grossen Konferenzen und Fachzeitschriften einen eigenen Track für angewandte Forschung oder Erfahrungsberichte hinzuzufügen. Ausserdem sollte es einen starken Anreiz geben, den Quellcode zur Verfügung zu stellen, damit die Forschungsgemeinschaft die Forschungsergebnisse leichter nachvollziehen kann. Der Zugang zum Quellcode kann auch den Technologietransfer und die Zusammenarbeit mit der Industrie fördern.

Big Data ist ein sehr vager Begriff. Können Sie uns erklären, was Big Data für Sie bedeutet?

Big Data wird oft durch die drei Vs definiert, nämlich «volume» (grosse Daten), «velocity» (schnelle Daten) und «variety» (heterogene Daten). Die ersten beiden Vs wurden sowohl im akademischen Bereich als auch in der Industrie bereits hinreichend durch den Aufbau skalierbarer Systeme angegangen, die grosse Mengen moderner Prozessortechnologien nutzen. Das dritte V, die Datenvielfalt, ist jedoch immer noch ein weitgehend ungelöstes Problem, das auch im Mittelpunkt von BioSODA steht.

Der Grund dafür ist, dass Integration und Abfrage verschiedener Arten von Datensätzen mit heterogenen Ontologien sehr schwer zu automatisieren ist, da im Grunde jedes Datenintegrationsproblem etwas anders ist. Daher gibt es keine einfache Möglichkeit, maschinelle Lernsysteme zu trainieren, um diese Aufgabe automatisch durchzuführen. Wie auch der Turing-Preisträger Michael Stonebraker betont, werden diese Herausforderungen, die von der akademischen Welt oft erheblich unterschätzt werden, als der «800 pound gorilla in the corner» angesehen und erfordern gemeinsame Anstrengungen von akademischer Welt und Industrie.

Um dieses Problem zu lösen, müssen neue Algorithmen entwickelt werden, die aus kleinen Mengen von Trainingsdaten oder sogar ganz ohne Trainingsdaten lernen können. Transferlernen oder selbstüberwachtes Lernen könnten ein vielversprechender Weg sein. Anders als in der Bildverarbeitung mit grossen Mengen an Benchmark-Daten gibt es keine solchen gross angelegten Benchmarks für reale Datenintegrations- und Datenbereinigungsprobleme.

Ausserdem müssten neue Algorithmen den Menschen einbeziehen, um das Problem zu starten und sich im Laufe der Zeit iterativ zu verbessern. Die grösste Herausforderung besteht darin, die Zeit zu minimieren, die ein Mensch benötigt, um einen Algorithmus in Gang zu setzen, und die richtigen Informationen bereitzustellen, damit die Algorithmen mit Hilfe des Menschen gemeinsam lernen können. Kurz gesagt: Es ist eine Kombination aus künstlicher und menschlicher Intelligenz erforderlich – sowohl für die Datenintegration als auch für die Beantwortung von Fragen und das Verstehen natürlicher Sprache.

Wir glauben, dass BioSODA einen wichtigen Beitrag zur Bewältigung der wichtigsten Herausforderung der 3 Vs in Big Data geleistet hat – nämlich im Bereich «variety».

Zum Projekt

Weiterführende Links