Abstract:
Visuelle Geolokalisierung (VGL) beschreibt das Problem, den Aufnahmeort eines Fotos zu bestimmen, indem es mit einem georegistrierten Modell der Welt, z.B. einer Datenbank von Referenzbildern, abgeglichen wird. VGL stellt eine mögliche Alternative zu globalen Navigationssatellitensystemen (GNSS) dar, welche von der Verfügbarkeit eines externen Signals abhängig sind, und typischerweise nur eine Genauigkeit von einigen Metern erreichen.
In der Forschung werden seit langem Bilder aus einer Straßenansicht als Referenzdaten genutzt, z.B. solche, die über die Plattform Google Street-view bereitgestellt werden. ... mehrDie spärliche Verfügbarkeit dieser Daten stellt jedoch eine erhebliche Einschränkung hinsichtlich der Skalierbarkeit und Kosteneffizienz dieses Ansatzes dar.
Luftbilder bilden eine mögliche Alternative für die Referenzdatenbank, gegen die Fotos aus einer Straßenansicht lokalisiert werden. Ihre weltweite und dichte Verfügbarkeit bietet das Potenzial, VGL auf viel größere Regionen zu skalieren und eine vollständigere Abdeckung zu erreichen als mit Fotos aus Straßenansicht in der Praxis möglich ist.
Die Aufgabe, Straßenansichtsbilder mit Luftbildern abzugleichen, stellt jedoch eine erhebliche Herausforderung dar, da entsprechende Methoden in der Lage sein müssen, den drastischen Perspektiv- und Maßstabsunterschied zwischen den Bildern zu überwinden. Das Problem wurde daher als Cross-view Geolokalisierung (CVGL) bezeichnet.
Bestehende Arbeiten in der Forschung nutzen einige einschränkende Annahmen, die zwar die Komplexität des Problems verringern, aber auch ihre Anwendbarkeit in realistischen Szenarios stark begrenzen. Darüber hinaus konzentrieren sie sich auf kleine Suchregionen in der Größenordnung einzelner Städte, für die die Geolokalisierung mittels Referenzdaten aus Straßenansicht bereits weit verbreitet ist und genutzt wird.
In dieser Arbeit betrachten wir die Aufgabenstellung der CVGL von Grund auf neu, und präsentieren neue Methoden, Datensätze und Erkenntnisse, die die Grenzen des Machbaren in Bezug auf Skalierbarkeit, Genauigkeit und Anwendbarkeit unter realistischen Szenarios erheblich vorantreiben. Wir gehen die Aufgabe durch eine Zerlegung in zwei Teilprobleme, Suche und Posen-Schätzung, wie folgt an.
Um Fotos in großen Suchbereichen zu lokalisieren, stellen wir eine neue Problemformulierung für die Suche vor, bei der das Gebiet in gleichmäßig große und nicht überlappende geographische Zellen unterteilt wird. Jede Zelle stellt eine Hypothese für die Kameraposition dar und wird durch Luftbilder auf mehreren Auflösungsstufen repräsentiert. Ein Bild aus einer Straßenansicht wird dann lokalisiert, indem die zu ihm ähnlichste Zelle über ein Nearest-Neighbor Verfahren in einem gelernten Embedding-Raum bestimmt wird.
Unsere Arbeit ermöglicht es erstmals, Bilder aus einer Straßenansicht zu lokalisieren (1) in Suchregionen mit der Größenordnung ganzer Bundesstaaten wie Massachusetts mit 23000km^2, (2) unter realen Bedingungen mit handelsüblichen Kameras, (3) in the wild, d.h. ohne Informationen über Kameraeigenschaften wie die Brennweite, Linsenverzerrung oder Orientierung, und (4) ohne Zugriff auf Straßenansichtsbilder aus der Suchregion. So schafft es unsere Methode beispielsweise 60,6% aller nicht-panoramischen Fotos, die von Nutzern der Crowd-Sourcing Plattform Mapillary hochgeladen wurden, im Bundesstaat Massachusetts auf 50m Genauigkeit zu lokalisieren.
Um die genaue metrische Position und Orientierung einer Kamera zu finden, stellen wir ein neues, Ende-zu-Ende trainierbares Modell vor, das Fotos mit einem einzelnen, lokalen Luftbild abgleicht, um eine Wahrscheinlichkeitsverteilung über mögliche Posen auf dem Bild vorherzusagen. Wir führen ein zeitliches Filter ein, das die multimodalen Vorhersagen des Modells fortlaufend integriert, und so die langfristige Trajektorie einer Plattform schätzt.
Unsere Arbeit ermöglicht es erstmals, die geo-registrierte Ego-Pose und langfristige Ego-Trajektorie einer Plattform zu bestimmen (1) ausschließlich mit Luftbildern als Referenzdatenbank und ohne Zugriff auf Straßenansichtsbilder aus der Testregion, (2) unter Nutzung nur von visuellen Informationen und ohne Erforderlichkeit anderer Sensoren wie Lidar, Radar oder GNSS, und (3) mit einer Genauigkeit von unter einem Meter. Die Methode erreicht beispielsweise im Median einen Posen-Fehler von 0,87m auf dem Ford AV Datensatz, und im Durchschnitt einen Trajektorien-Fehler von 0,78m auf KITTI-360.
Motiviert durch die Gemeinsamkeiten unserer Methoden zur Suche und Posen-Schätzung, schlagen wir schließlich eine neue Perspektive auf CVGL vor, bei der das Suchproblem als eine unüberwachte Posen-Schätzungsaufgabe dargestellt wird. Wir integrieren diese Methode in einem Retrieve-and-Rerank Ansatz, der die Leistung von existierenden Methoden zum Suchproblem signifikant verbessert und sich besonders in anspruchsvolleren Umgebungen als effektiv erweist. Bemerkenswerterweise lernt das Modell genaue Kameraposen vorherzusagen, obwohl es während des Trainings keine Posen-Grundwahrheit gesehen hat, und erreicht sogar eine vergleichbare Leistung mit aktuellen überwachten Verfahren.
Abstract (englisch):
VGL aims to estimate the geolocation from which a photo is taken by matching it against a geo-registered model of the world, e.g. a database of reference images. ac:VGL presents a potential alternative to GNSS which require the availability of an external signal and offer only a limited accuracy of a few meters.
Research on VGL has long focused on using geo-registered street-view images from platforms such as Google Street-view as reference data. However, their sparse availability over different regions across the globe represents a significant limitation on both the scalability and cost-effectiveness of this approach.
... mehr
Aerial imagery represents a possible alternative for the reference data against which street-view photos are localized. Their dense coverage of outdoor regions across the globe offers the potential to scale VGL to much larger regions and rival the sparse nature of street-view reference data.
However, this task represents a significant challenge due to the drastic change in viewpoint and scale between street-view and aerial perspective that methods have to overcome. It has consequently been labeled CVGL. Existing works rely on assumptions about the input data and controlled benchmark environments that reduce the complexity of the problem, but also severely limit their real-world applicability. They further focus on small search regions for which SVGL is already widely adopted.
In this thesis, we revisit CVGL and provide novel methods, datasets and insight that push the boundaries of VGL in terms of scalability, accuracy and real-world applicability. We address the task via a decomposition into two independent sub-problems, i.e. retrieval and pose estimation, as follows.
To localize photos in large ROI, we propose a novel problem formulation for cross-view retrieval that partitions the ROI into consistently sized and non-overlapping geographical cells. Each cell represents a hypothesis for the camera location, and is assigned an embedding representation using aerial images at multiple LOD. A street-view photo is localized by retrieving the most similar cell in the embedding space via an efficient nearest neighbor approach.
Our work for the first time allows localizing street-view photos (1) in state-sized search regions such as Massachusetts with 23000km^2, (2) under real-world conditions with consumer-grade devices, (3) in the wild, i.e. without requiring information about the camera's intrinsics, lens distortion or orientation, and (4) without access to street-view images from the search region. For instance, our method localizes 60.6% of all non-panoramic photos uploaded to the crowd-sourcing platform Mapillary in the state of Massachusetts to within 50m of their ground-truth location.
To find the exact metric position and orientation of a camera around a prior pose estimate, we present a novel end-to-end trainable model that matches photos against a single aerial image to predict a probability distribution over possible poses on the image. We introduce a filtering framework that integrates the model's multi-modal predictions over time to estimate the long-term trajectory of a platform.
Our work for the first time allows determining the geo-registered ego-pose and long-term ego-trajectory of a platform (1) using only aerial imagery as reference database without access to street-view data from the test region, (2) in a purely vision-based manner without requiring range scanners such as lidar or radar, or external signals such as GNSS, and (3) with sub-meter accuracy. The method for instance achieves a median pose error of 0.87m on the Ford AV dataset, and a mean trajectory error of 0.78m on KITTI-360.
Finally, motivated by the common ground between retrieval and pose estimation, we propose a novel view on CVGL that addresses the retrieval problem by representing it as an unsupervised pose estimation task. We integrate the method in a retrieve-and-rerank pipeline which significantly improves the recall of state-of-the-art methods, and is particularly effective in more challenging settings. Remarkably, the model learns to predict accurate camera poses despite never seeing pose ground-truth during training, and even achieves competitive performance with recent supervised approaches.