Détection d’inondation: géolocalisation automatique de vidéos crowdsourcées

Auteure
Prof. Susanne Bleisch
Fachhochschule Nordwestschweiz

Entretien avec la responsable du projet PNR 75.

Quel était l’objectif de votre projet?

L’objectif était de développer et de tester des méthodes et des algorithmes permettant de sélectionner et de traiter des informations issues de vidéos de témoins oculaires afin de prendre en charge différentes applications, notamment la gestion des crises. L’un des défis consistait à évaluer la pertinence des vidéos, puis à les analyser en fonction de leur contenu et enfin à les positionner et les orienter correctement sur le plan géographique. L’élaboration d’un traitement visuel approprié garantit la possibilité d’intégrer les résultats de façon efficace et profitable dans les processus opérationnels.

Quels résultats ont été obtenus?

Les premiers entretiens avec des expert.e.s ont permis d’expliquer la gestion des crises et les questions de recherche détaillées. S’agissant de la pertinence, il a été démontré que les contenus vidéo localisés de manière fiable sont potentiellement pertinents et que la contextualisation des vidéos avec d’autres données de zone cartographiées est avantageuse.

Généralement, les algorithmes de classification vidéo sont appris avec des ensembles de données étiquetés. Pour les rendre plus résistants aux vidéos non visionnées, des algorithmes ont été développés et testés afin d’effectuer l’apprentissage non supervisé de la physique intuitive et de la «raison au moyen d’une décomposition centrée sur l’objet» en utilisant des vidéos non étiquetées. Contrairement aux approches précédentes, ces méthodes apprennent directement à partir d’images visuelles brutes, sans supervision, afin de découvrir des objets, des pièces et leurs relations. Elles distinguent explicitement plusieurs niveaux d’abstraction et sont plus performantes pour modéliser des vidéos synthétiques et réelles d’actions humaines.

Quelles autres recherches avez-vous menées?

Afin de localiser plus précisément les contenus vidéo, des sous-parties du pipeline de localisation visuelle ont été analysées. La localisation fine a été améliorée à l’aide d’une estimation de pose d’image basée sur une approche Structure from Motion, qui s’appuie sur des connaissances approximatives de la position et des images de référence. Des tests effectués sur différentes vidéos ont démontré que la qualité de l’estimation de pose était influencée par les différences de perspective et les changements d’apparence de l’environnement. Le pipeline de traitement a ensuite été adapté et développé afin d’améliorer la résistance aux changements de l’environnement. Les changements de perspective, quant à eux, demeurent un défi.

Afin de contextualiser les images vidéo avec d’autres données et de prendre en considération la nature multigranulaire des événements, des visualisations et des interactions ont été développées pour permettre l’intégration visuelle de données spatiales qui contiennent des informations pertinentes à différentes échelles. De plus, une interface pluridimensionnelle a été conçue et testée pour relier mentalement les images au niveau des rues et les données cartographiées.

Quels sont les principaux messages du projet?

  • Les algorithmes devraient apprendre davantage comme les humains: les approches visant à apprendre des représentations centrées sur les objets et les relations à partir de vidéos brutes (non étiquetées) sont prometteuses pour obtenir des modèles d’apprentissage automatique robustes et interprétables avec une forte généralisation dans différents scénarios.
  • La localisation précise des données vidéo ou image «aléatoires» bénéficie de références appropriées: la grande disponibilité des images au niveau des rues offre un potentiel de création de services pour les activités de localisation visuelle, qui peuvent aussi aider les organismes/autorités dans les situations d’urgence.
  • Les visualisations permettent de visualiser les informations (avec parfois quelques entraves): l’intégration de représentations à différentes échelles et sous différentes perspectives dans des visualisations, avec des possibilités d’interaction correspondantes, contribue à l’interprétation et à la compréhension, à condition toutefois que les incertitudes soient suffisamment faibles.

Quelles sont les implications scientifiques selon vous?

L’accès aux futurs ensembles de données et leur collecte requièrent quelques lignes directrices et éventuellement des efforts concertés. Pour la collecte d’images et de vidéos, en particulier des images au niveau de la rue, qui peuvent servir non seulement à l’observation mais également en tant qu’informations (de référence), il est important de collecter, de stocker et de rendre accessibles des méta-informations pertinentes (telles que la position, le type de caméra, l’angle de vue, etc.).

Quelles sont les recommandations de votre projet?

Une analyse pratique des vidéos de crowdsourcing, qui convient à la gestion des crises, ne fonctionnera pas avec des vidéos téléchargées au hasard sur des plateformes s’il n’existe pas de directives claires ni de communications concernant l’objectif et l’utilisation. Une action concertée peut donc s’avérer nécessaire pour définir les exigences relatives aux vidéos. De plus, la collecte de données doit avoir lieu sur une plateforme nationale (de confiance) largement connue. La littérature rapporte que les gens aiment offrir leur aide, par exemple en téléchargeant certaines images sur une plateforme fiable (p. ex. dans le cadre de projets de sciences citoyennes).

La notion de «Big Data» est très vague. Pouvez-vous nous expliquer ce qu’elle signifie pour vous?

Le terme Big Data a plusieurs significations. Pour nous, il désigne de grandes quantités de données qui nécessitent des approches spécifiques, car il est difficile/impossible d’examiner, de traiter et d’analyser l’ensemble des données en une seule fois, etc. Cette définition implique également que la définition «précise» du Big Data évolue avec le développement du matériel et des logiciels.

Les collections de grandes données vidéo (numériques) sont potentiellement des Big Data. Notre projet s’appuie sur le fait que la recherche ou la visualisation de données vidéo, même en petites quantités, prend beaucoup de temps. C’est pourquoi nous nous sommes fixés pour objectif de définir, de sélectionner et de présenter des données vidéo pertinentes dans un but précis (par exemple, des événements de crise). Grâce au développement de nouveaux algorithmes, nous avons fait un pas de plus vers l’analyse automatique de collections de vidéos et la sélection de vidéos pertinentes à des fins spécifiques.

Une partie de notre projet, consacrée à la localisation de données vidéo sélectionnées, était axée en particulier sur les grandes données de référence. Les données géographiques sont de longue date des Big Data et les possibilités actuelles de collecte de données d’images mobiles ou de balayage laser génèrent de grandes quantités de données. Le processus de localisation définit des données de description d’images hyperdimensionnelles qui permettent de comparer des images sélectionnées (p. ex., des images d’événements) avec de grandes collections de données de référence. Tandis qu’une indication approximative de la position d’une vidéo peut réduire l’espace géographique de recherche, la comparaison englobe encore de grands ensembles de données de descripteurs. Dans le cadre de notre projet, nous avons aussi examiné des solutions permettant un stockage et une récupération efficaces de ces données. Les évolutions futures vers une plus grande robustesse concernant les différents angles de vue vont encore accroître les exigences relatives à une définition, un stockage et une récupération efficaces et effectives.

La visualisation du Big Data est un défi et, par définition (voir ci-dessus), impossible. Lorsque l’espace de l’écran est suffisant pour le visualiser, il ne s’agit plus de Big Data. Cela présuppose qu’une sélection ait été effectuée au préalable ou en cours d’utilisation (par le biais d’interactions) et que cette sélection peut être modifiée de manière interactive pour naviguer de manière fluide dans l’espace de données. Mais le principal défi consiste à visualiser simultanément des données de taille et de granularité différentes afin de faciliter la détection des corrélations et la vision globale des données. Dans ce contexte, notre projet a permis de développer et d’implémenter des formes de visualisation améliorées et des possibilités d’interaction pertinentes qui permettent, si nécessaire, d’analyser visuellement à la fois une vue d’ensemble et des détails pour aider à la compréhension des données ayant une dimension spatiale et une granularité variable.

L’équipe du projet

Le projet «Eyewitness videos as an aid to crisis management» dans le cadre du PNR 75 était un partenariat de recherche interdisciplinaire entre des groupes de recherche de la FHNW (Susanne Bleisch, Daria Hollenstein, Stephan Nebiker, Daniel Rettenmund, Severin Rhyner et Ursula Kälin) et de l’IDSIA (Aleksandar Stanić et Jürgen Schmidhuber).

A propos du projet

Liens supplémentaires