Options
2024
Master Thesis
Title
Learning latent Geometry Representations for Zero-Shot 6D Pose Estimation
Abstract
The topic of 6D pose estimation with RGB only is an important topic in many applications, due to its fast applicability without the usage of any additional sensor, other than the camera itself. Especially the topic of generalizable 6D pose estimation is of interest, if one does not want to train a deep learning model for each new object or object class. Recent approaches like GigaPose have significantly sped up the process of pose estimation of unknown objects in RGB images, while requiring only RGB and a high quality 3D model to work. However since the method is only RGB based, it does not incorporate information about the object geometry as effectively as it would have with RGBD inputs. This work proposes to learn an additional latent representation of the RGB input that captures geometric features in the input image, by training an encoder-decoder model with large amounts of synthetic data. This representation is used as additional input to template-matching and 2D-2D correspondence matching of the used approach and Evaluation has shown, that learning to extract additional geometry features leads to an increase in accuracy in most of the BOP-datasets.
;
Das Thema der 6D Posenschätzung ist ein wichtiges und interessantes Thema, aufgrund seiner schnellen Andwendbarkeit, da keine zusätzlichen Sensoren benötigt werden. Insbesondere generalisierbare 6D posenschätzung ist dabei von Interesse, da keinerlei Training eines Neuronalen Netzes benötigt wird um auf die Pose von neuen Objekten oder Objekt-Klassen zu bestimmen. Aktuelle Ansätze wie GigaPose haben den Prozess der Pose-Schätzung von unbekannten Objekten in RGB-Bildern erheblich beschleunigt, während sie nur ein RGB und ein hochwertiges 3D Modell benötigen, um zu funktionieren. Da die Methode jedoch nur auf RGB basiert, berücksichtigt sie nicht so effektiv Informationen über die Objektgeometrie, wie es bei RGBD-Eingaben der Fall wäre. In dieser Arbeit schlage ich vor eine zusätzliche latente Repräsentation des RGB-Inputs zu lernen, welche es ermöglicht geometrische Eigenschaften des Input Bildes zu bestimmen, indem ein Encoder-Decoder Modell mit großen synthetischen Datenmengen trainiert wird. Die gelernte Repräsentation wir als zusätzlicher Input für den Template-Matching und 2D-2D Correspondence-Matching Teil des verwendeten Ansatzes eingesetzt und die Evaluation hat gezeigt, dass das Lernen der Extraktion von zusätzlichen Geometrie-Features zu einer Erhöhung der Genauigkeit in nahezu allen BOP-Datasets führt.
Thesis Note
Darmstadt, TU, Master Thesis, 2024
Language
English
Keyword(s)
Branche: Automotive Industry
Branche: Healthcare
Branche: Cultural and Creative Economy
Research Line: Computer graphics (CG)
Research Line: Computer vision (CV)
Research Line: Human computer interaction (HCI)
Research Line: Machine learning (ML)
LTA: Interactive decision-making support and assistance systems
LTA: Machine intelligence, algorithms, and data structures (incl. semantics)
3D Computer vision
Machine learning
Pattern recognition
3D Object localisation