Hochwassererkennung: automatisches Geotagging von Crowdsourced-Videos

Autorin
Prof. Susanne Bleisch
Fachhochschule Nordwestschweiz

Gespräch mit der Projektleiterin des NFP75-Projekts.

Was war das Ziel Ihres Projekts?

Unser Ziel war es, Methoden und Algorithmen zu entwickeln und zu erproben, um Informationen aus Augenzeugenvideos auszuwählen und aufzubereiten, die verschiedene Anwendungen, z. B. Krisenmanagement, unterstützen können. Eine Herausforderung bestand darin, die Videos bezüglich ihrer Relevanz zu beurteilen, sie inhaltlich zu analysieren und sie geografisch richtig zu positionieren und auszurichten. Die Entwicklung einer geeigneten visuellen Aufbereitung stellt sicher, dass die Resultate effizient und nutzbringend in die Arbeitsabläufe integriert werden können.

Was waren die Resultate?

In ersten Interviews mit Expertinnen und Experten wurden das Krisenmanagement und die detaillierten Forschungsfragen erläutert. Hinsichtlich der Relevanz konnten wir zeigen, dass zuverlässig lokalisierte Videoinhalte potenziell relevant sind und dass die Kontextualisierung von Videos mit anderen kartierten Bereichsdaten von Vorteil ist.

Algorithmen zur Videoklassifizierung werden meist mit markierten Datensätzen trainiert. Um sie robuster gegenüber ungesehenen Videos zu machen, wurden Algorithmen entwickelt und getestet, die sogenanntes Unsupervised Learning von intuitiver Physik und «Vernunft über objektzentrierte Dekomposition» unter Verwendung von unmarkierten Videos durchführen. Im Gegensatz zu früheren Ansätzen lernen diese Methoden auf unüberwachte Weise direkt von visuellen Rohbildern, um Objekte, Teile und ihre Beziehungen zu entdecken. Sie unterscheiden explizit mehrere Abstraktionsebenen und sind besser bei der Modellierung synthetischer und realer Videos menschlicher Handlungen.

Welche weitere Forschung haben Sie gemacht?

Um Videoinhalte genauer zu lokalisieren, wurden Teilbereiche der visuellen Lokalisierungspipeline untersucht. Die Feinlokalisierung wurde mit einer Bildposenschätzung verbessert, die auf einem Structure-from-Motion-Ansatz basiert, der sich auf ungefähre Positionskenntnisse und Referenzbilder stützt. Tests mit verschiedenen Videos haben gezeigt, dass die Qualität der Posenschätzung von den Unterschieden in den Blickwinkeln und den Veränderungen im Erscheinungsbild der Umgebung beeinflusst wird. Die Verarbeitungspipeline wurde daraufhin angepasst und erweitert, um die Robustheit gegenüber Veränderungen in der Umgebung zu verbessern. Änderungen des Blickwinkels stellen weiterhin eine Herausforderung dar.

Um Videobilder mit anderen Daten zu kontextualisieren und die multigranulare Natur der Ereignisse zu berücksichtigen, wurden Visualisierungen und Interaktionen entwickelt, die eine visuelle Integration räumlicher Daten ermöglichen, die relevante Informationen auf verschiedenen Massstabs-Ebenen enthalten. Ausserdem haben wir eine multiperspektivische Schnittstelle für die mentale Verknüpfung von Bildern auf Strassenebene und kartierten Daten entworfen und evaluiert.

Was sind die Hauptaussagen des Projekts?

  • Algorithmen sollten mehr wie Menschen lernen: Ansätze zum Lernen von objekt- und beziehungszentrierten Repräsentationen aus (unmarkierten) Rohvideos sind vielversprechend, um robuste, interpretierbare maschinelle Lernmodelle mit starker Generalisierung auf verschiedene Szenarien zu erhalten.
  • Die präzise Lokalisierung von «zufälligen» Video- oder Bilddaten profitiert von geeigneten Referenzen: Die weit verbreitete Verfügbarkeit von Bildern auf Strassenebene bietet Potenzial für die Schaffung von Diensten für visuelle Lokalisierungsaufgaben, die Organisationen/Behörden auch in Notfallsituationen helfen können.
  • Visualisierungen ermöglichen das Sehen von Informationen (was aber leicht behindert wird): Die Integration von Darstellungen in verschiedenen Massstäben und aus verschiedenen Perspektiven in Visualisierungen mit entsprechenden Interaktionsmöglichkeiten unterstützen die Interpretation und das Verständnis, derzeit aber nur, wenn die Unsicherheiten gering genug sind.

Welche wissenschaftlichen Implikationen sehen Sie?

Zugang zu und Sammlung von künftigen Datensätzen erfordern einige Leitlinien und möglicherweise auch konzertierte Anstrengungen. Für die Erfassung von Bild- und Videomaterial, insbesondere von Bildern auf Strassenebene, die nicht nur zur Betrachtung, sondern auch als (Referenz-)Information dienen können, ist es wichtig, relevante Metainformationen (wie Position, Kameratyp, Blickwinkel usw.) zu erfassen, zu speichern und zugänglich zu machen.

Welche Empfehlungen hat Ihr Projekt?

Eine praxisnahe Analyse von Crowdsourcing-Videos, die sich für den Einsatz beim Krisenmanagement eignet, wird nicht mit zufällig auf beliebige Plattformen hochgeladenen Videos funktionieren, wenn keine klaren Richtlinien und keine Kommunikation über Zweck und Verwendung vorliegen. Möglicherweise ist eine konzertierte Aktion erforderlich, um die Anforderungen an die Videos zu definieren. Zudem sollte die Datenerfassung auf einer (vertrauenswürdigen) nationalen Plattform erfolgen, die weithin bekannt ist. In der Literatur wird berichtet, dass Menschen gerne ihre Hilfe anbieten, indem sie beispielsweise bestimmte Bilder auf eine vertrauenswürdige Plattform hochladen (z. B. bei Citizen-Science-Projekten).

Big Data ist ein sehr vager Begriff. Können Sie uns erklären, was Big Data für Sie bedeutet?

Big Data hat eine Reihe von Bedeutungen, aber wir interpretieren den Begriff so, dass damit grosse Datenmengen gemeint sind, die spezifische Ansätze erfordern, da es schwierig/unmöglich ist, den gesamten Datensatz auf einmal zu betrachten, zu verarbeiten, zu analysieren usw. Diese Definition impliziert auch, dass sich die «genaue» Definition von Big Data mit der Entwicklung von Hardware und Software ändert.

Sammlungen grosser (digitaler) Videodaten sind potenziell Big Data. Unser Projekt basiert auf der Tatsache, dass die Suche in bzw. das Betrachten von Videodaten, selbst von kleinen Datenmengen, sehr zeitaufwändig ist. Daher haben wir uns zum Ziel gesetzt, relevante Videodaten für einen bestimmten Zweck (z. B. Krisenereignisse) zu definieren, auszuwählen und zu präsentieren. Mit der Entwicklung neuartiger Algorithmen sind wir der automatischen Analyse von Videosammlungen und der Auswahl relevanter Videos für bestimmte Zwecke einen Schritt nähergekommen.

Ein Teil unseres Projekts, das sich mit der Lokalisierung ausgewählter Videodaten befasste, war speziell auf grosse Referenzdaten ausgerichtet. Geografische Daten haben eine lange Tradition als Big Data und die heutigen Möglichkeiten der mobilen Bild- oder Laserscanning-Datenerfassung erzeugen sicherlich grosse Datenmengen. Der Lokalisierungsprozess definiert hyperdimensionale Bildbeschreibungsdaten, die den Abgleich ausgewählter Bilder (z. B. Ereignisbilder) mit grossen Sammlungen von Referenzdaten ermöglichen. Während eine grobe Positionsangabe des Videos den geografischen Suchraum reduzieren könnte, umfasst der Abgleich immer noch grosse Deskriptordatensätze. In unserem Projekt haben wir auch Lösungen für effiziente Speicherung und Abruf dieser Daten untersucht. Zukünftige Entwicklungen für mehr Robustheit in Bezug auf unterschiedliche Blickwinkel werden die Anforderungen an eine effiziente und effektive Definition, Speicherung und Abfrage noch weiter erhöhen.

Die Visualisierung von Big Data ist eine Herausforderung und per Definition (s.o.) unmöglich. Wenn der Bildschirmplatz ausreicht, um sie zu visualisieren, handelt es sich nicht mehr um Big Data. Dies setzt jedoch voraus, dass zuvor oder im laufenden Betrieb (durch Interaktionen) eine gewisse Auswahl getroffen wurde, die auch interaktiv geändert werden kann, um den Datenraum fliessend zu navigieren. Die zentrale Herausforderung besteht jedoch in der gleichzeitigen Visualisierung von Daten unterschiedlichen Umfangs und unterschiedlicher Granularität, um die Erkennung von Zusammenhängen und den Gesamteinblick in die Daten zu unterstützen. In diesem Zusammenhang wurden im Rahmen unseres Projekts verbesserte Formen der Visualisierung und zweckmässige Interaktionsmöglichkeiten entwickelt und implementiert, die es ermöglichen, bei Bedarf sowohl eine Übersicht als auch Details visuell zu analysieren, um das Verständnis von Daten mit unterschiedlicher räumlicher Ausdehnung und Granularität zu unterstützen.

Zum Projektteam

Das Projekt «Eyewitness videos as an aid to crisis management» im Rahmen des NFP 75 war eine interdisziplinäre Forschungszusammenarbeit zwischen Forschungsgruppen der FHNW (Susanne Bleisch, Daria Hollenstein, Stephan Nebiker, Daniel Rettenmund, Severin Rhyner und Ursula Kälin) und des IDSIA (Aleksandar Stanić und Jürgen Schmidhuber).

Zum Projekt

Weiterführende Links