Genetic big data: une indexation puissante

Auteurs
Prof. Gunnar Rätsch et Dr Andre Kahles
ETH Zurich

Entretien avec les responsables du projet PNR 75.

Quel était l’objectif de votre projet?

L’objectif principal de notre projet était de trouver des solutions techniques au problème d’accès et de manipulation du volume toujours croissant des données de séquençage biologique, qui sont stockées dans des référentiels publics et verrouillés.

Quels résultats ont été obtenus?

Pour nous attaquer directement au problème d’inaccessibilité des séquences dans les grandes archives publiques, nous avons développé un cadre logiciel modulaire (MetaGraph) capable d’indexer n’importe quelle donnée de séquençage à l’échelle d’une péta-base. À l’aide de ce cadre, nous avons calculé un index comprenant plus de quatre millions d’échantillons de séquençage et l’avons rendu public. Outre les indices précalculés, nous avons également développé une plateforme interactive permettant d’interroger directement ces indices via une interface Web (https://metagraph.ethz.ch/search) ou une API accessible au public (https://metagraph.ethz.ch/static/docs/api.html).

Parmi toutes les contributions de notre projet, les points forts suivants sont selon nous les plus influents et les plus pertinents pour le domaine de la science des données biomédicales:

  1. Nous avons indexé et rendues publiques plus de 3 pétabases de données de séquençage à haut débit, ce qui a permis pour la première fois d’effectuer une recherche en texte intégral dans des grandes parties de contenu des archives de lecture de séquençage (SRA) du NCBI. Nous considérons cette contribution comme un tremplin vers une indexation continue et complète de toutes les données de séquençage générées.
  2. Au lieu de fournir uniquement des résultats précalculés, nous avons conçu et soigneusement documenté une structure logicielle entièrement modulaire pour l’indexation et l’analyse des données de séquençage à l’échelle de la pétabase. Le cadre MetaGraph permet non seulement aux utilisatrices et utilisateurs de reproduire nos expériences, mais également d’appliquer la même méthodologie à leurs propres données, de contextualiser leurs résultats dans des analyses interactives ou d’étendre les fonctionnalités du cadre en fonction de leurs propres besoins.
  3. De nombreuses fonctionnalités de MetaGraph s’appuient sur nos contributions théoriques au domaine de la bioinformatique séquentielle. En particulier nos travaux sur la compression des matrices binaires creuses, les concepts de polychromie d’un graphe de Bruijn, l’estimation de distance sans alignement sur la base de méthodes approximatives, et les méthodes d’alignement séquence-graphe, sont des contributions importantes pour lesquelles nous envisageons des applications plus générales en dehors de la science des données biomédicales.

Quels sont les principaux messages du projet?

  • Le potentiel du Big Data (dans le contexte biomédical) ne peut être exploité efficacement que si les données sont disponibles dans des formats compatibles, valides et à faible erreur, sont interopérables au niveau sémantique, peuvent être partagées et traitées efficacement, et sont constamment mises à jour et améliorées. Il est important de ne plus considérer les stocks de données comme des dépôts, mais plutôt comme des ressources scientifiques vivantes. Pour cela, les données doivent être FAIR: findable, accessible, interoperable, and reusable (trouvable, accessible, interopérable et réutilisable). Le cadre MetaGraph développé dans le cadre de notre projet répond à ces besoins et offre une solution générale pour rendre FAIR les données de séquences volumineuses.
  • La croissance rapide des capacités de séquençage mondiales génère chaque mois des pétaoctets de nouvelles données. Notre projet s’est penché sur ce problème et a fourni des algorithmes sophistiqués ainsi que des structures de données concises permettant de compresser et de rechercher efficacement des collections de séquences à l’échelle du pétaoctet. La réduction des redondances permet d’atteindre des taux de compression allant jusqu’à 1000, ce qui rend les données non seulement plus faciles d’accès, mais aussi beaucoup moins coûteuses à stocker.
  • Le développement de stratégies pour la recherche et la présentation des données de séquençage biomédical est nécessaire et d’actualité. Si nous avions disposé des résultats de ce projet avant la pandémie de Covid 19, le portefeuille des méthodes d’analyse de séquences aurait été enrichi d’un outil puissant qui aurait contribué à identifier les lignées génomiques et à rendre les données de surveillance génomique consultables et accessibles.

Quelles sont selon vous les implications scientifiques?

Le volume des données de séquençage biomédical va continuer à augmenter de manière exponentielle. Bientôt, il ne sera plus possible de stocker toutes les données mesurées en vue d’une utilisation ultérieure. C’est pourquoi nous recommandons d’intensifier la recherche sur l’abstraction des données de séquençage ainsi que sur les méthodes en streaming et en ligne de détection de la pertinence. Il peut s’agir d’approches de compression, mais aussi de méthodes probabilistes qui identifient les données pertinentes dans un flux de données avec une probabilité très élevée. Cela présuppose bien entendu que la quantité de données pertinentes parmi toutes les données mesurées soit suffisamment petite.

Quelles sont les recommandations de votre projet?

Le travail mené avec le Big Data se distingue du concept traditionnel d’utilisation des données scientifiques. En particulier, le travail sur des données de l’ordre de plusieurs pétaoctets requiert un investissement technique et infrastructurel excessivement élevé. Cet aspect devrait être pris en considération dans les futurs programmes de subventions afin d’allouer suffisamment de ressources pour l’intégration des ingénieurs en données et logiciels dans les plans du projet. Si les doctorant.e.s et les post-doctorant.e.s doivent assumer seul.e.s cette charge, les résultats de la recherche seront probablement moins nombreux que dans un environnement où ces tâches sont accomplies par du personnel qualifié.

De plus, nous proposons d’élargir les possibilités de financement existantes ou nouvelles, ainsi que de créer de nouvelles incitations pour le travail de conservation (automatisée) et de gestion des collections de données existantes. Ce n’est qu’avec des métadonnées complètes et fiables et la possibilité de conserver des éléments de données existants que les référentiels de données (publics) pourront réaliser pleinement leur potentiel pour la recherche scientifique. Cela inclut explicitement de financer des mesures visant à transformer les données existantes au sein d’institutions en domaines accessibles à la communauté des chercheurs (ou au public). De tels efforts incluent la conservation des données, le formatage, la codification, la standardisation et d’autres mesures.

A propos du projet

Liens supplémentaires