Comparaison de génomes: des analyses plus rapides

Auteurs
Prof. Nicolas Salamin, Prof. Christophe Dessimoz, Prof. Marc Robinson-Rechavi, Prof. Bastien Chopard
Université de Lausanne, Université de Genève

Entretien avec les responsables du projet PNR 75.

Quel était l’objectif de votre projet «Analyse efficace des données génomiques»?

Ce projet visait à développer de nouvelles approches computationnelles à même de traiter des données génomiques de qualité variable afin de comparer les génomes de différents organismes. À l’aide de méthodes d’apprentissage automatique, nous voulions modéliser les interactions entre les gènes pour comprendre l’évolution de groupes de gènes impliqués, par exemple, dans les voies métaboliques.

Quels résultats ont été obtenus?

Notre projet «Analyse efficace des données génomiques» a permis d’obtenir deux résultats majeurs.

Pour traiter efficacement et rigoureusement les séquences protéiques dérivées de génomes nouvellement séquencés, nous avons développé OMAmer, une nouvelle méthode de classification des familles et sous-familles de protéines sans alignement, adaptée aux bases de données phylogénomiques contenant des milliers de génomes. Nous avons également démontré l’applicabilité de cette approche aux problèmes concrets de la génomique comparative. Les ensembles de données sont de plus en plus nombreux du fait des nouveaux efforts déployés en génomique comparative à grande échelle, et nous comptons sur OMAmer et ses outils dérivés pour jouer un rôle essentiel en rendant ces ensembles pertinents pour les questions biologiques.

Nous avons progressé dans l’utilisation du Big Data pour identifier les signaux subtils de coévolution dans les séquences biologiques à l’aide de méthodes d’intelligence artificielle avancées. Même si ce projet était axé sur la coévolution, l’approche d’apprentissage automatique que nous avons développée peut également s’appliquer à d’autres processus moléculaires tels que la détection de la sélection. L’étape suivante consiste à poursuivre dans cette direction en utilisant la base de données Selectome (une ressource de sélection positive dans le génome des vertébrés) que nous avons mise à jour dans le cadre de ce projet.

Quels sont les principaux messages du projet?

  • Des algorithmes efficaces peuvent tirer parti de la quantité croissante de données génomiques disponibles pour les organismes non-modèles afin de mieux comprendre certaines des questions les plus importantes de la biologie évolutive.
  • Les techniques d’apprentissage automatique sont de plus en plus utilisées pour traiter les grandes quantités de données générées par les nouvelles techniques de séquençage du génome, mais les chercheuses et chercheurs doivent s’assurer que les algorithmes sont correctement adaptés pour répondre aux questions spécifiques. Les nouveaux développements auront un impact important dans le domaine de la biologie évolutive.
  • Notre projet a permis d’identifier certains concepts importants en termes d’algorithmes à développer et de nouvelles approches d’analyse, ainsi que de créer des ressources informatiques qui définissent de nouvelles orientations pour les travaux futurs, afin d’appréhender pleinement les très grandes quantités de données qui seront disponibles pour les organismes non-modèles lors de la prochaine décennie et au-delà.

Votre projet comporte-t-il des implications scientifiques?

Il est essentiel d’étendre le soutien aux organismes non-modèles dans le cadre des efforts actuels de production et d’évaluation de données génomiques. Bien que les progrès de la génétique humaine aient donné naissance à de nouveaux outils et ressources utilisés par l’ensemble de la communauté de chercheuses et de chercheurs, il existe des différences importantes entre le type de données collectées pour les études humaines et celles collectées pour d’autres organismes. Pourtant, ces organismes incluent les objectifs de protection de la nature, les nouveaux modèles de maladies ou de problèmes environnementaux et, plus généralement, la biodiversité dans son ensemble. Les méthodes assistées par ordinateur sont un élément clé pour permettre un transfert efficace des connaissances entre ces différents domaines de recherche. Notre projet a défini des stratégies intéressantes pour utiliser les données existantes à grande échelle et exploiter les informations qui seront disponibles grâce aux énormes efforts de séquençage de la biodiversité terrestre en général.

Quelles sont les recommandations de votre projet?

Le Covid-19 a démontré l’importance d’analyses évolutives rapides et précises sur de très grands ensembles de données. La génomique de la biodiversité posera des défis informatiques encore plus importants. Nous recommandons que la Suisse soutienne les initiatives de génomique de la biodiversité (ERGA) et de génomique des pathogènes, notamment par des méthodes de calcul adaptées à l’évaluation de très grandes données comparatives et par une infrastructure informatique correspondante.

La notion de «Big Data» est très vague. Pouvez-vous nous expliquer ce qu’elle signifie pour vous?

La biologie partage, avec certaines sciences sociales ou même avec certaines sociétés Internet, la nécessité d’utiliser judicieusement des données qui sont à la fois très volumineuses et générées à partir d’une multitude de procédures expérimentales pour une multitude d’objectifs, contrairement par exemple aux mégadonnées de la physique des hautes énergies. Nous avons démontré comment utiliser une structure de base d’informations de haute qualité afin d’organiser efficacement et d’utiliser judicieusement cette quantité de données de moindre qualité.

A propos du projet

Liens supplémentaires