Options
January 24, 2025
Doctoral Thesis
Title
Visual Cross-view Geolocalization
Abstract
Visuelle Geolokalisierung (VGL) beschreibt das Problem, den Aufnahmeort eines Fotos zu bestimmen, indem es mit einem georegistrierten Modell der Welt, z.B. einer Datenbank von Referenzbildern, abgeglichen wird. VGL stellt eine mögliche Alternative zu globalen Navigationssatellitensystemen (GNSS) dar, welche von der Verfügbarkeit eines externen Signals abhängig sind, und typischerweise nur eine Genauigkeit von einigen Metern erreichen.
In der Forschung werden seit langem Bilder aus einer Straßenansicht als Referenzdaten genutzt, z.B. solche, die über die Plattform Google Street-view bereitgestellt werden. Die spärliche Verfügbarkeit dieser Daten stellt jedoch eine erhebliche Einschränkung hinsichtlich der Skalierbarkeit und Kosteneffizienz dieses Ansatzes dar.
Luftbilder bilden eine mögliche Alternative für die Referenzdatenbank, gegen die Fotos aus einer Straßenansicht lokalisiert werden. Ihre weltweite und dichte Verfügbarkeit bietet das Potenzial, VGL auf viel größere Regionen zu skalieren und eine vollständigere Abdeckung zu erreichen als mit Fotos aus Straßenansicht in der Praxis möglich ist.
Die Aufgabe, Straßenansichtsbilder mit Luftbildern abzugleichen, stellt jedoch eine erhebliche Herausforderung dar, da entsprechende Methoden in der Lage sein müssen, den drastischen Perspektiv- und Maßstabsunterschied zwischen den Bildern zu überwinden. Das Problem wurde daher als Cross-view Geolokalisierung (CVGL) bezeichnet.
Bestehende Arbeiten in der Forschung nutzen einige einschränkende Annahmen, die zwar die Komplexität des Problems verringern, aber auch ihre Anwendbarkeit in realistischen Szenarios stark begrenzen. Darüber hinaus konzentrieren sie sich auf kleine Suchregionen in der Größenordnung einzelner Städte, für die die Geolokalisierung mittels Referenzdaten aus Straßenansicht bereits weit verbreitet ist und genutzt wird.
In dieser Arbeit betrachten wir die Aufgabenstellung der CVGL von Grund auf neu, und präsentieren neue Methoden, Datensätze und Erkenntnisse, die die Grenzen des Machbaren in Bezug auf Skalierbarkeit, Genauigkeit und Anwendbarkeit unter realistischen Szenarios erheblich vorantreiben. Wir gehen die Aufgabe durch eine Zerlegung in zwei Teilprobleme, Suche und Posen-Schätzung, wie folgt an.
Um Fotos in großen Suchbereichen zu lokalisieren, stellen wir eine neue Problemformulierung für die Suche vor, bei der das Gebiet in gleichmäßig große und nicht überlappende geographische Zellen unterteilt wird. Jede Zelle stellt eine Hypothese für die Kameraposition dar und wird durch Luftbilder auf mehreren Auflösungsstufen repräsentiert. Ein Bild aus einer Straßenansicht wird dann lokalisiert, indem die zu ihm ähnlichste Zelle über ein Nearest-Neighbor Verfahren in einem gelernten Embedding-Raum bestimmt wird.
Unsere Arbeit ermöglicht es erstmals, Bilder aus einer Straßenansicht zu lokalisieren (1) in Suchregionen mit der Größenordnung ganzer Bundesstaaten wie Massachusetts mit 23000km^2, (2) unter realen Bedingungen mit handelsüblichen Kameras, (3) in the wild, d.h. ohne Informationen über Kameraeigenschaften wie die Brennweite, Linsenverzerrung oder Orientierung, und (4) ohne Zugriff auf Straßenansichtsbilder aus der Suchregion. So schafft es unsere Methode beispielsweise 60,6% aller nicht-panoramischen Fotos, die von Nutzern der Crowd-Sourcing Plattform Mapillary hochgeladen wurden, im Bundesstaat Massachusetts auf 50m Genauigkeit zu lokalisieren.
Um die genaue metrische Position und Orientierung einer Kamera zu finden, stellen wir ein neues, Ende-zu-Ende trainierbares Modell vor, das Fotos mit einem einzelnen, lokalen Luftbild abgleicht, um eine Wahrscheinlichkeitsverteilung über mögliche Posen auf dem Bild vorherzusagen. Wir führen ein zeitliches Filter ein, das die multimodalen Vorhersagen des Modells fortlaufend integriert, und so die langfristige Trajektorie einer Plattform schätzt.
Unsere Arbeit ermöglicht es erstmals, die geo-registrierte Ego-Pose und langfristige Ego-Trajektorie einer Plattform zu bestimmen (1) ausschließlich mit Luftbildern als Referenzdatenbank und ohne Zugriff auf Straßenansichtsbilder aus der Testregion, (2) unter Nutzung nur von visuellen Informationen und ohne Erforderlichkeit anderer Sensoren wie Lidar, Radar oder GNSS, und (3) mit einer Genauigkeit von unter einem Meter. Die Methode erreicht beispielsweise im Median einen Posen-Fehler von 0,87m auf dem Ford AV Datensatz, und im Durchschnitt einen Trajektorien-Fehler von 0,78m auf KITTI-360.
Motiviert durch die Gemeinsamkeiten unserer Methoden zur Suche und Posen-Schätzung, schlagen wir schließlich eine neue Perspektive auf CVGL vor, bei der das Suchproblem als eine unüberwachte Posen-Schätzungsaufgabe dargestellt wird. Wir integrieren diese Methode in einem Retrieve-and-Rerank Ansatz, der die Leistung von existierenden Methoden zum Suchproblem signifikant verbessert und sich besonders in anspruchsvolleren Umgebungen als effektiv erweist. Bemerkenswerterweise lernt das Modell genaue Kameraposen vorherzusagen, obwohl es während des Trainings keine Posen-Grundwahrheit gesehen hat, und erreicht sogar eine vergleichbare Leistung mit aktuellen überwachten Verfahren.
In der Forschung werden seit langem Bilder aus einer Straßenansicht als Referenzdaten genutzt, z.B. solche, die über die Plattform Google Street-view bereitgestellt werden. Die spärliche Verfügbarkeit dieser Daten stellt jedoch eine erhebliche Einschränkung hinsichtlich der Skalierbarkeit und Kosteneffizienz dieses Ansatzes dar.
Luftbilder bilden eine mögliche Alternative für die Referenzdatenbank, gegen die Fotos aus einer Straßenansicht lokalisiert werden. Ihre weltweite und dichte Verfügbarkeit bietet das Potenzial, VGL auf viel größere Regionen zu skalieren und eine vollständigere Abdeckung zu erreichen als mit Fotos aus Straßenansicht in der Praxis möglich ist.
Die Aufgabe, Straßenansichtsbilder mit Luftbildern abzugleichen, stellt jedoch eine erhebliche Herausforderung dar, da entsprechende Methoden in der Lage sein müssen, den drastischen Perspektiv- und Maßstabsunterschied zwischen den Bildern zu überwinden. Das Problem wurde daher als Cross-view Geolokalisierung (CVGL) bezeichnet.
Bestehende Arbeiten in der Forschung nutzen einige einschränkende Annahmen, die zwar die Komplexität des Problems verringern, aber auch ihre Anwendbarkeit in realistischen Szenarios stark begrenzen. Darüber hinaus konzentrieren sie sich auf kleine Suchregionen in der Größenordnung einzelner Städte, für die die Geolokalisierung mittels Referenzdaten aus Straßenansicht bereits weit verbreitet ist und genutzt wird.
In dieser Arbeit betrachten wir die Aufgabenstellung der CVGL von Grund auf neu, und präsentieren neue Methoden, Datensätze und Erkenntnisse, die die Grenzen des Machbaren in Bezug auf Skalierbarkeit, Genauigkeit und Anwendbarkeit unter realistischen Szenarios erheblich vorantreiben. Wir gehen die Aufgabe durch eine Zerlegung in zwei Teilprobleme, Suche und Posen-Schätzung, wie folgt an.
Um Fotos in großen Suchbereichen zu lokalisieren, stellen wir eine neue Problemformulierung für die Suche vor, bei der das Gebiet in gleichmäßig große und nicht überlappende geographische Zellen unterteilt wird. Jede Zelle stellt eine Hypothese für die Kameraposition dar und wird durch Luftbilder auf mehreren Auflösungsstufen repräsentiert. Ein Bild aus einer Straßenansicht wird dann lokalisiert, indem die zu ihm ähnlichste Zelle über ein Nearest-Neighbor Verfahren in einem gelernten Embedding-Raum bestimmt wird.
Unsere Arbeit ermöglicht es erstmals, Bilder aus einer Straßenansicht zu lokalisieren (1) in Suchregionen mit der Größenordnung ganzer Bundesstaaten wie Massachusetts mit 23000km^2, (2) unter realen Bedingungen mit handelsüblichen Kameras, (3) in the wild, d.h. ohne Informationen über Kameraeigenschaften wie die Brennweite, Linsenverzerrung oder Orientierung, und (4) ohne Zugriff auf Straßenansichtsbilder aus der Suchregion. So schafft es unsere Methode beispielsweise 60,6% aller nicht-panoramischen Fotos, die von Nutzern der Crowd-Sourcing Plattform Mapillary hochgeladen wurden, im Bundesstaat Massachusetts auf 50m Genauigkeit zu lokalisieren.
Um die genaue metrische Position und Orientierung einer Kamera zu finden, stellen wir ein neues, Ende-zu-Ende trainierbares Modell vor, das Fotos mit einem einzelnen, lokalen Luftbild abgleicht, um eine Wahrscheinlichkeitsverteilung über mögliche Posen auf dem Bild vorherzusagen. Wir führen ein zeitliches Filter ein, das die multimodalen Vorhersagen des Modells fortlaufend integriert, und so die langfristige Trajektorie einer Plattform schätzt.
Unsere Arbeit ermöglicht es erstmals, die geo-registrierte Ego-Pose und langfristige Ego-Trajektorie einer Plattform zu bestimmen (1) ausschließlich mit Luftbildern als Referenzdatenbank und ohne Zugriff auf Straßenansichtsbilder aus der Testregion, (2) unter Nutzung nur von visuellen Informationen und ohne Erforderlichkeit anderer Sensoren wie Lidar, Radar oder GNSS, und (3) mit einer Genauigkeit von unter einem Meter. Die Methode erreicht beispielsweise im Median einen Posen-Fehler von 0,87m auf dem Ford AV Datensatz, und im Durchschnitt einen Trajektorien-Fehler von 0,78m auf KITTI-360.
Motiviert durch die Gemeinsamkeiten unserer Methoden zur Suche und Posen-Schätzung, schlagen wir schließlich eine neue Perspektive auf CVGL vor, bei der das Suchproblem als eine unüberwachte Posen-Schätzungsaufgabe dargestellt wird. Wir integrieren diese Methode in einem Retrieve-and-Rerank Ansatz, der die Leistung von existierenden Methoden zum Suchproblem signifikant verbessert und sich besonders in anspruchsvolleren Umgebungen als effektiv erweist. Bemerkenswerterweise lernt das Modell genaue Kameraposen vorherzusagen, obwohl es während des Trainings keine Posen-Grundwahrheit gesehen hat, und erreicht sogar eine vergleichbare Leistung mit aktuellen überwachten Verfahren.
Thesis Note
Karlsruhe, Karlsruher Institut für Technologie (KIT), Diss., 2024