Kuijper, ArjanBerkei, SarahDornauf, AresAresDornauf2022-12-222022-12-222022https://publica.fraunhofer.de/handle/publica/430387Die Arbeit dieser Thesis beschäftigt sich mit der Entwicklung und anschließenden Evaluierung eines Verfahrens zur Rekonstruktion von Innenräumen mithilfe einer herkömmlichen Kamera im Kontext von Streamen der räumlichen Umgebung. Im Gegensatz zu alternativen Methoden, die sich neuronaler Netze bedienen, richtet sich der Fokus auf geometrisch basierte Verfahren. Die Vorgehensweise der Durchführung wird nach den Anforderungen des Streaming-Kontextes ausgerichtet, welcher eine zeitliche Komponente zusätzlich zur üblichen Genauigkeits-Übereinstimmung zwischen Modell und Rekonstruktion beinhaltet. Grundlage für die Rekonstruktion ist ein Simultaneous Localization and Mapping (SLAM)-Verfahren, welches ebenjene Bedingungen vorwiegend erfüllt. Hierbei wird eine Variante einer direkten SLAM Architektur - Direct Sparse Odometry - gewählt, welche darüber hinaus für die spezifischen Ziele angepasst und mit neuen Charakteristiken erweitert wird. Als anschließendes Evaluierungsverfahren wird der F-Score und dessen Komponenten Recall (Trefferquote) und Precision (Präzision) als geometrische sowie das Verhältnis von Rekonstruktionsrate auf Kamerarate als zeitliche Maße verwendet. Zu beobachten ist, dass das gewählte Verfahren trotz spärlicher Punktwolken-Rekonstruktion mit entsprechender Parameter-Anpassung eine hohe Trefferquote erreichen kann, ohne die die Präzision maßgeblich zu senken. Damit kann es mit ausgewählten Deep Learning-basierten Verfahren mithalten und in einigen Bereichen wie detaillierter Objektrekonstruktion sogar übertreffen.This thesis discusses the development and subsequent evaluation of an architecture designed to reconstruct indoor scenes with a conventional camera in the context of streaming the surrounding environment. Contrary to alternative methods making use of neural networks, the focus lies on geometric approaches. The implementation is guided by the requirements of the streaming context, which includes a temporal component in addition to the usual accuracy match between model and reconstruction. The basis for the reconstruction is a Simultaneous Localization and Mapping (SLAM) method, which predominantly fulfills these conditions. Here, a variant of a direct SLAM architecture - Direct Sparse Odometry - is chosen, which is furthermore adapted for the specific goals and extended with new characteristics. As a subsequent evaluation procedure the F-Score and its components Recall and Precision are used as geometric measures, while the ratio of reconstruction to camera rate represents the temporal measure. It can be observed that despite being a sparse point cloud reconstruction, the selected method can achieve a recall rate with appropriate parameter adjustment without significantly lowering the precision. Following this, it can keep up with selected Deep Learning-based methods and even outperform them in some areas like detailed object reconstruction.enLead Topic: Visual Computing as a ServiceResearch Line: Computer vision (CV)Research Line: Human computer interaction (HCI)Simultaneous localization and mapping (SLAM)Digital media streaming3D Computer vision3D Reconstruction of Static Indoor Scenes and Objects with Monocular Image Sequencesmaster thesis