BioSODA: An intuitive search function for bioinformatics databases

Bases de données bioinformatiques: recherches en langage naturel

Auteur
Prof. Kurt Stockinger
ZHAW

Entretien avec le responsable du projet PNR 75.

Quel était l’objectif de votre projet?

De par les progrès fulgurants réalisés dans le séquençage de l’ADN, les sciences du vivant génèrent un très grand volume d’informations bioinformatiques enregistrées dans des banques de données complexes. Bien qu’elles se basent sur des technologies performantes, leur consultation nécessite des connaissances approfondies en informatique. De nouvelles technologies de recherche sont donc nécessaires pour analyser efficacement des dizaines de bases de données bioinformatiques. L’objectif du projet était de développer des outils comparables au moteur de recherche Google afin que les chercheuses et chercheurs puissent consulter les banques de données de manière intuitive et se concentrer sur des questions scientifiques.

Quels résultats ont été obtenus?

Avant le lancement du projet BioSODA, l’accès aux principales bases de données bioinformatiques exigeait des utilisatrices et utilisateurs qu’ils maîtrisent le langage d’interrogation SPARQL et connaissent la structure sous-jacente des bases de données. La plupart des utilisatrices et utilisateurs ne disposaient pas toutefois des compétences suffisantes, ce qui les empêchait de consulter efficacement les innombrables sources d’informations ou les contraignait à demander de l’aide à des spécialistes pour accéder à leurs données. Ce processus était à la fois laborieux et inefficace car les chercheuses et chercheurs consacraient leur temps précieux à la manipulation de données plutôt qu’à la recherche scientifique.

Le projet BioSODA a su jeter les bases permettant d’appliquer le système développé et l’approche de recherche bien au-delà des sciences de la vie. Par exemple, BioSODA est désormais appliqué dans le cadre du projet INODE – Intelligent Open Data Exploration (www.inode-project.eu) – financé par le programme Horizon 2020 de l’Union européenne. L’objectif de BioSODA dans INODE est de permettre l’interrogation en langage naturel d’ensembles de données de trois domaines scientifiques différents, à savoir la recherche sur les biomarqueurs du cancer, l’élaboration de politiques de recherche et d’innovation, et l’astrophysique.

Les principaux messages

  1. Ces dernières années, les efforts de numérisation ont rapidement progressé dans tous les domaines de la connaissance. Toutefois, pour exploiter pleinement le potentiel de la numérisation – en permettant aux experts d’extraire systématiquement des connaissances et des résultats scientifiques à partir des mégadonnées, nous devons améliorer le partage et l’intégration des données, ainsi que les interfaces conviviales permettant d’interroger ces données.
  2. Le projet BioSODA a démontré comment rendre interopérables des ensembles de données bioinformatiques issus de domaines traditionnellement distincts de la génomique comparative. Le projet a illustré, par des cas d’utilisation réels, les avantages de l’intégration de données en permettant d’effectuer des requêtes sémantiques plus puissantes qu’auparavant.
  3. BioSODA a permis dans une large mesure de s’adresser aux banques de données quasiment comme à un être humain en permettant un accès intuitif en langage naturel à des banques de données bioinformatiques complexes, tout en soulignant l’énorme potentiel d’amélioration lorsqu’il s’agit d’exécuter des requêtes complexes dans plusieurs ressources.

Votre projet comporte des recommandations politiques. Quelles sont-elles?

Les autorités, les organismes de financement, les revues spécialisées et les conférences doivent encourager davantage la recherche appliquée et interdisciplinaire, qui va bien au-delà de la recherche théorique. Ce n’est qu’en construisant des prototypes de recherche solides, testés dans la pratique, que le transfert technologique vers l’industrie peut réussir. Une recommandation concrète est de mettre davantage l’accent sur le financement de la recherche appliquée et d’ajouter, aux grandes conférences et aux revues spécialisées, une section dédiée à la recherche appliquée ou aux rapports d’expériences. De plus, il faudrait inciter fortement à rendre le code source disponible pour que la communauté des chercheuses et chercheurs puisse retracer plus facilement les résultats de la recherche. L’accès au code source peut également favoriser le transfert de technologie et la collaboration avec l’industrie.

La notion de «Big Data» est très vague. Pouvez-vous nous expliquer ce qu’elle signifie pour vous?

La notion de Big Data est souvent définie par les trois V, à savoir «volume» (données volumineuses), «velocity» (données rapides) et «variety» (données hétérogènes). Les deux premiers V ont déjà été suffisamment abordés, tant dans le domaine universitaire que dans l’industrie, par la construction de systèmes évolutifs utilisant de grandes quantités de technologies de processeur modernes. Le troisième V, à savoir la variété, reste cependant un problème loin d’être résolu, qui est également au cœur de BioSODA.

La raison en est que l’intégration et l’interrogation de différents types d’ensembles de données avec des ontologies hétérogènes sont très difficiles à automatiser, car chaque problème d’intégration de données est légèrement différent. Il n’existe donc pas de manière simple de former les systèmes d’apprentissage automatique à effectuer cette tâche automatiquement. Comme le souligne Michael Stonebraker, lauréat du prix Turing, ces défis qui sont souvent sous-estimés par le monde universitaire, sont considérés comme le «800 pound gorilla in the corner» et demandent des efforts concertés de la part du monde universitaire et de l’industrie.

Pour résoudre ce problème, il faut développer de nouveaux algorithmes capables d’apprendre à partir de petites quantités de données d’apprentissage, voire sans aucune donnée d’apprentissage. L’apprentissage par transfert ou l’apprentissage auto-supervisé pourrait s’avérer une voie prometteuse. Contrairement au traitement des images où il existe de grandes quantités de données de référence, il n’existe pas de références à grande échelle pour les problèmes réels d’intégration et de nettoyage des données.

De plus, les nouveaux algorithmes devraient impliquer l’homme pour amorcer le problème et s’améliorer de manière itérative au fil du temps. Le principal défi consiste à minimiser le temps nécessaire à l’homme pour lancer un algorithme et fournir les bonnes informations pour que les algorithmes puissent apprendre conjointement avec l’aide de l’homme. En bref, une combinaison d’intelligence artificielle et d’intelligence humaine est nécessaire, tant pour intégrer les données que pour répondre aux questions et comprendre le langage naturel.

Nous pensons que BioSODA a grandement contribué à relever le défi le plus important des 3 V du Big Data, à savoir «variety».

A propos du projet

Liens supplémentaires