BioSODA: An intuitive search function for bioinformatics databases

BioSODA: Eine intuitive Suchfunktion für Bioinformatikdatenbanken

Autor
Dr. Heinz Stockinger
SIB Swiss Institute of Bioinformatics

Forscher in den Lebenswissenschaften nutzen verschiedene biologische Datenbanken, um ihre wissenschaftliche Arbeit zu unterstützen. Die verschiedenen Datenbanken haben oft komplexe oder fehlende Schemata, die es für den Wissenschaftler schwierig machen, sie effizient abzufragen. Bio-SODA stellt eine intuitive Abfragefunktion zur Verfügung, die es Wissenschaftlern ermöglicht, einfach Ergebnisse aus komplexen biologischen Datenbanken zu erhalten.

Rasante Fortschritte bei der DNA-Sequenzierung und anderen Hochdurchsatz-Technologien verwandeln die biologischen Wissenschaften in eine datenintensive Disziplin. Dank einer offenen Datenkultur in der Biologie ist ein Grossteil dieser Daten in einer breiten Palette von Datenbanken öffentlich verfügbar. Die Schweiz ist führend in der Bereitstellung bioinformatischer Ressourcen und beherbergt mehrere der weltweit führenden Datenbanken (einschließlich UniProtKB/Swiss-Prot, neXtProt, OMA oder Bgee), die über das SIB Schweizerische Institut für Bioinformatik bereitgestellt werden. Während diese Datenbanken jedoch einzeln über Webschnittstellen, APIs, Datenarchive und Querverweise abgefragt werden können, bleiben sie weitgehend als unabhängige Datenquellen mit begrenzten Referenzen zueinander organisiert.

Ein grosses und vielversprechendes Potenzial für die Analyse von Big Data liegt in der gleichzeitigen Auswertung mehrerer Datenquellen. Dies muss für Bioinformatik-Ressourcen noch realisiert werden. Es wurde versucht, datenbankübergreifende Suchfunktionen bereitzustellen (z. B. über Ressourcen des SIB Schweizerischen Instituts für Bioinformatik über das Portal ExPASy.org). Erste Ansätze solcher semantischen Schnittstellen ermöglichen es Benutzern jedoch nur, rudimentäre Abfragen durchzuführen.

Das Projekt «BioSODA» zielt darauf ab, anspruchsvolle semantische Abfragen über grosse, dezentralisierte und heterogene Datenbanken über eine intuitive Schnittstelle zu ermöglichen. Das System wird es Wissenschaftlern ermöglichen, ohne vorherige Schulung leistungsstarke Abfragen in natürlicher Sprache über Ressourcen in einer Weise durchzuführen, die nicht vorhersehbar ist und daher weit über die Abfragefunktionalität von spezialisierten Wissensbasen hinausgeht.

Die Hauptaufgabe des Projekts besteht darin, Abfragen in natürlicher Sprache effizient in jene formale Abfragesprache zu übersetzen, die von der zugrunde liegenden Datenbank verstanden wird. Das Problem ähnelt dem automatischen Übersetzen von einer natürlichen Sprache wie Englisch zu Deutsch oder Französisch. Der Hauptunterschied besteht jedoch darin, dass die Zielsprache keine natürliche Sprache ist, sondern eine Computersprache, die die möglichen Aussagen stark einschränkt.

Zum Projekt

Weiterführende Links