Meeß, HenriNischwitz, AlfredSpieler, DavidGross, MarkusMarkusGross2022-12-142022-12-142022-06-13https://publica.fraunhofer.de/handle/publica/429946Die vorliegende Arbeit adressiert das Gebiet der kamerabasierten Umfelderkennung für mobile Systeme wie bspw. autonome Fahrzeuge. Speziell wird dabei das Thema der monokularen Tiefenschätzung untersucht, bei der auf Basis von 2D-Bildern einer einzigen Kamera, 3D-Informationen der Umwelt extrahiert werden. Der aktuelle Stand der Forschung nutzt hierfür Self-Supervised Deep Learning, wobei neben der monokularen Tiefenschätzung parallel das Problem der visuellen Odometrie gelöst wird, wodurch die Bewegung des mobilen Systems durch den Raum bestimmt wird. Da die Schätzungen der Tiefe und der Odometrie lediglich auf Basis von 2D-Bildern stattfinden, kann der absolute (reale) Maßstab der Szene nicht rekonstruiert werden, was als Scale Ambiguity bezeichnet wird. Um das Problem der Scale Ambiguity zu lösen, nutzen aktuelle Lösungsansätze meist Entfernungssensoren, durch die der reale Maßstab der Szene rekonstruiert werden kann. Allerdings sind derartige Sensoren oftmals teuer, erfordern zusätzlichen Bauraum, müssen kalibriert werden und die Zusammenführung der Daten erfordert eine anschließende Sensordatenfusion. Um diesen Nachteilen entgegenzuwirken, wird in dieser Arbeit die maßstabsgetreue Tiefenschätzung mittels inertialen Messeinheiten (IMUs) durchgeführt, die aufgrund vielfältiger Einsatzmöglichkeiten ohnehin in den meisten mobilen Systemen verbaut sind. Die Ergebnisse dieser Arbeit zeigen, dass die Informationen von Inertialsensoren in einem Self-Supervised-Learning-Setup genutzt werden können, um die Schätzung der monokularen Tiefenschätzung und visuellen Odometrie in einem absoluten Maßstab durchzuführen, wodurch externe Entfernungssensorik vermieden werden kann. Für mobile Systeme, die bereits über Entfernungssensorik verfügen, kann der in dieser Arbeit vorgestellte Ansatz als redundante Operation betrachtet werden, was im Kontext risikoreicher Anwendungen als erstrebenswert zu betrachten ist. Darüber hinaus benötigt der Ansatz dieser Arbeit lediglich eine einzige Kamera und eine IMU. Dies führt nicht nur zu einer hohen Anwendungsbreite in verschiedensten Domänen, sondern ermöglicht auch einen kostengünstigen Einsatz der zudem einen vergleichsweise geringen Bauraum benötigt.This thesis addresses the field of camera-based environment perception for mobile systems such as autonomous vehicles. Specifically, it explores the topic of monocular depth estimation, where 2D images from a single camera are used to extract 3D information of the environment. The current state of the art uses selfsupervised deep learning for this purpose, where in addition to monocular depth estimation, the visual odometry problem is solved, which aims to determine the motion of the mobile system through space. Since the depth and odometry estimates are based only on 2D images, the absolute (real) scale of the scene cannot be reconstructed, which is referred to as scale ambiguity. To solve the scale ambiguity problem, current solutions usually use range sensors through which the real scale of the scene can be reconstructed. However, such sensors are often expensive, require additional installation space, must be calibrated and require subsequent sensor data fusion. To address these drawbacks, this work performs absolute depth estimation using inertial measurement units (IMUs), which are already built into most mobile systems due to a wide range of applications. The results of this work show that information from inertial sensors can be used in a self-supervised learning setup to perform monocular depth estimation and visual odometry estimation on an absolute scale, thereby avoiding external range sensing. For mobile systems that already have range sensing capabilities, the approach presented in this work can be considered a redundant operation, which is desirable in the context of high-risk applications. Moreover, the approach of this work requires only a single camera and a single IMU. This not only leads to a high range of applications in a wide variety of domains, but also enables a cost-effective deployment that requires only a small installation space.deSelf-Supervised Deep LearningUmfelderkennungautonomes Fahrenscale ambiguityTiefenschätzungSelf-Supervised Deep Learning für visuelle Odometrie und monokulare Tiefenschätzung in absolutem Maßstabmaster thesis