Genomvergleich: schnellere Analyse

Autoren
Prof. Nicolas Salamin, Prof. Christophe Dessimoz, Prof. Marc Robinson-Rechavi, Prof. Bastien Chopard
Universität Lausanne, Universität Genf

Gespräch mit den Projektleitern des NFP75-Projekts.

Was war das Ziel Ihres Projekts «Effiziente Analytik genomischer Daten»?

The aim of our project was to develop new computational approaches Ziel dieses Projekts war die Entwicklung neuer Rechenkonzepte zur Verarbeitung genomischer Daten mit schwankender Qualität für einen Vergleich des Erbguts unterschiedlicher Organismen. Mithilfe von Methoden des maschinellen Lernens wollen wir die Interaktionen zwischen den Genen modellieren, um beispielsweise die Entwicklung der Gengruppen zu verstehen, die an Stoffwechselvorgängen beteiligt sind.

Resultate des Projekts?

Unser Projekt «Effiziente Analytik genomischer Daten» hat zwei Hauptresultate erzielt.

Zur effizienten und robusten Verarbeitung von Proteinsequenzen, die aus neu sequenzierten Genomen stammen, haben wir OMAmer entwickelt, ein neuartiges alignementfreies Verfahren zur Klassifizierung von Proteinfamilien und -unterfamilien, das sich für phylogenomische Datenbanken mit Tausenden von Genomen eignet. Wir demonstrierten auch die Anwendbarkeit dieses Ansatzes auf reale Probleme der vergleichenden Genomik. Solche Datensätze werden mit den neuen Bemühungen um eine gross angelegte vergleichende Genomik immer zahlreicher, und wir erwarten, dass OMAmer und die daraus abgeleiteten Werkzeuge eine wichtige Rolle dabei spielen werden, sie für die Beantwortung biologischer Fragen nutzbar zu machen.

Wir haben Fortschritte bei der Nutzung von Big Data gemacht, um mit modernsten Methoden der künstlichen Intelligenz subtile Signale der Koevolution in biologischen Sequenzen zu erkennen. Obwohl sich dieses Projekt auf die Koevolution konzentrierte, kann der von uns entwickelte Ansatz des maschinellen Lernens auch auf andere molekulare Prozesse angewendet werden, z. B. auf die Erkennung von Selektion. Der nächste Schritt in diese Richtung ist die Verwendung der Selectome-Datenbank (einer Ressource für positive Selektion in Wirbeltiergenomen), die wir im Rahmen dieses Projekts aktualisiert haben.

Was sind die Hauptaussagen des Projekts?

  • Effiziente Algorithmen können die zunehmende Menge an Genomdaten nutzen, die für Nicht-Modellorganismen zur Verfügung stehen, um einige der wichtigsten Fragen der Evolutionsbiologie besser zu verstehen.
  • Techniken des maschinellen Lernens werden zunehmend eingesetzt, um die grossen Datenmengen zu verarbeiten, die durch neue Techniken der Genom-Sequenzierung erzeugt werden, aber die Forschenden sollten sicherstellen, dass die Algorithmen korrekt auf die Beantwortung der spezifischen Fragen zugeschnitten sind. Die neuen Entwicklungen werden einen wichtigen Einfluss auf das Gebiet der Evolutionsbiologie haben.
  • Im Rahmen unseres Projekts wurden einige wichtige Konzepte in Bezug auf zu entwickelnde Algorithmen und neuartige Untersuchungsansätze identifiziert und computergestützte Ressourcen geschaffen, die neue Richtungen für künftige Arbeiten vorgeben, um die sehr grossen Datenmengen, die im kommenden Jahrzehnt und darüber hinaus für Nicht-Modellorganismen verfügbar werden, vollständig zu erfassen.

Welche wissenschaftlichen Implikationen sehen Sie?

Die Ausweitung der Unterstützung für Nicht-Modellorganismen bei den derzeitigen Bemühungen um die Erzeugung und Auswertung genomischer Daten ist von wesentlicher Bedeutung. Obwohl die Fortschritte in der Humangenetik neue Instrumente und Ressourcen hervorgebracht haben, die von der gesamten Forschungsgemeinschaft genutzt werden, gibt es wichtige Unterschiede zwischen der Art der Daten, die für Humanstudien gesammelt werden, und der für andere Organismen. Zu diesen Organismen gehören jedoch die Ziele des Naturschutzes, die neuen Modelle für Krankheiten oder Umweltprobleme und ganz allgemein die gesamte biologische Vielfalt. Computergestützte Methoden sind ein Schlüsselelement, um einen effizienten Wissenstransfer zwischen diesen verschiedenen Forschungsbereichen zu ermöglichen, und unser Projekt hat einige interessante Strategien skizziert, um vorhandene grossmassstäbliche Daten zu nutzen und die Informationen, die durch die enormen Anstrengungen zur Sequenzierung der biologischen Vielfalt auf der Erde insgesamt zur Verfügung stehen werden, nutzbar zu machen.

Welche Empfehlungen hat Ihr Projekt?

Covid-19 hat gezeigt, wie wichtig schnelle und genaue evolutionäre Analysen bei sehr grossen Datensätzen sind. Die Biodiversitätsgenomik wird noch grössere rechnerische Herausforderungen mit sich bringen. Wir empfehlen, dass die Schweiz die Initiativen zur Biodiversitätsgenomik (ERGA) und zur Pathogengenomik unterstützt, unter anderem mit Berechnungsmethoden, die für die Auswertung sehr grosser Vergleichsdaten geeignet sind, und mit der entsprechenden IT-Infrastruktur.

Big Data ist ein sehr vager Begriff. Können Sie uns erklären, was Big Data für Sie bedeutet?

Die Biologie hat mit einigen Sozialwissenschaften oder sogar Internetunternehmen die Notwendigkeit gemeinsam, Daten sinnvoll zu nutzen, die sowohl sehr umfangreich sind als auch aus einer Vielzahl von experimentellen Verfahren für eine Vielzahl von Zielen generiert werden, anders als z. B. die grossen Daten der Hochenergiephysik. Wir haben gezeigt, wie ein Grundgerüst aus hochwertigen Informationen genutzt werden kann, um diese Menge an Daten geringerer Qualität effizient zu ordnen und sinnvoll zu nutzen.

Zum Projekt

Weiterführende Links