• English
  • Deutsch
  • Log In
    Password Login
    Research Outputs
    Fundings & Projects
    Researchers
    Institutes
    Statistics
Repository logo
Fraunhofer-Gesellschaft
  1. Home
  2. Fraunhofer-Gesellschaft
  3. Abschlussarbeit
  4. Learning latent Geometry Representations for Zero-Shot 6D Pose Estimation
 
  • Details
  • Full
Options
2024
Master Thesis
Title

Learning latent Geometry Representations for Zero-Shot 6D Pose Estimation

Abstract
The topic of 6D pose estimation with RGB only is an important topic in many applications, due to its fast applicability without the usage of any additional sensor, other than the camera itself. Especially the topic of generalizable 6D pose estimation is of interest, if one does not want to train a deep learning model for each new object or object class. Recent approaches like GigaPose have significantly sped up the process of pose estimation of unknown objects in RGB images, while requiring only RGB and a high quality 3D model to work. However since the method is only RGB based, it does not incorporate information about the object geometry as effectively as it would have with RGBD inputs. This work proposes to learn an additional latent representation of the RGB input that captures geometric features in the input image, by training an encoder-decoder model with large amounts of synthetic data. This representation is used as additional input to template-matching and 2D-2D correspondence matching of the used approach and Evaluation has shown, that learning to extract additional geometry features leads to an increase in accuracy in most of the BOP-datasets.

; 

Das Thema der 6D Posenschätzung ist ein wichtiges und interessantes Thema, aufgrund seiner schnellen Andwendbarkeit, da keine zusätzlichen Sensoren benötigt werden. Insbesondere generalisierbare 6D posenschätzung ist dabei von Interesse, da keinerlei Training eines Neuronalen Netzes benötigt wird um auf die Pose von neuen Objekten oder Objekt-Klassen zu bestimmen. Aktuelle Ansätze wie GigaPose haben den Prozess der Pose-Schätzung von unbekannten Objekten in RGB-Bildern erheblich beschleunigt, während sie nur ein RGB und ein hochwertiges 3D Modell benötigen, um zu funktionieren. Da die Methode jedoch nur auf RGB basiert, berücksichtigt sie nicht so effektiv Informationen über die Objektgeometrie, wie es bei RGBD-Eingaben der Fall wäre. In dieser Arbeit schlage ich vor eine zusätzliche latente Repräsentation des RGB-Inputs zu lernen, welche es ermöglicht geometrische Eigenschaften des Input Bildes zu bestimmen, indem ein Encoder-Decoder Modell mit großen synthetischen Datenmengen trainiert wird. Die gelernte Repräsentation wir als zusätzlicher Input für den Template-Matching und 2D-2D Correspondence-Matching Teil des verwendeten Ansatzes eingesetzt und die Evaluation hat gezeigt, dass das Lernen der Extraktion von zusätzlichen Geometrie-Features zu einer Erhöhung der Genauigkeit in nahezu allen BOP-Datasets führt.
Thesis Note
Darmstadt, TU, Master Thesis, 2024
Author(s)
Weyel, Johannes
Advisor(s)
Kuijper, Arjan  orcid-logo
Fraunhofer-Institut für Graphische Datenverarbeitung IGD  
Pöllabauer, Thomas  orcid-logo
Fraunhofer-Institut für Graphische Datenverarbeitung IGD  
Language
English
Fraunhofer-Institut für Graphische Datenverarbeitung IGD  
Keyword(s)
  • Branche: Automotive Industry

  • Branche: Healthcare

  • Branche: Cultural and Creative Economy

  • Research Line: Computer graphics (CG)

  • Research Line: Computer vision (CV)

  • Research Line: Human computer interaction (HCI)

  • Research Line: Machine learning (ML)

  • LTA: Interactive decision-making support and assistance systems

  • LTA: Machine intelligence, algorithms, and data structures (incl. semantics)

  • 3D Computer vision

  • Machine learning

  • Pattern recognition

  • 3D Object localisation

  • Cookie settings
  • Imprint
  • Privacy policy
  • Api
  • Contact
© 2024