• English
  • Deutsch
  • Log In
    Password Login
    Research Outputs
    Fundings & Projects
    Researchers
    Institutes
    Statistics
Repository logo
Fraunhofer-Gesellschaft
  1. Home
  2. Fraunhofer-Gesellschaft
  3. Abschlussarbeit
  4. Advancing Machine Learning Algorithms for Object Localization in Data-Limited Scenarios: Techniques for 6DoF Pose Estimation and 2D Localization with limited Data
 
  • Details
  • Full
Options
2025
Doctoral Thesis
Title

Advancing Machine Learning Algorithms for Object Localization in Data-Limited Scenarios: Techniques for 6DoF Pose Estimation and 2D Localization with limited Data

Abstract
Recent successes of Machine Learning (ML) algorithms have profoundly influenced many fields, particularly Computer Vision (CV). One longstanding problem in CV is the task of determining the position and orientation of an object as depicted in an image in 3D space, relative to the recording camera sensor. Accurate pose estimation is essential for domains, such as robotics, augmented reality, autonomous driving, quality inspection in manufacturing, and many more. Current state-of-the-art pose estimation algorithms are dominated by Deep Learning-based approaches. However, adoption of these best in class algorithms to real-world tasks is often constrained by data limitations, such as not enough training data being available, existing data being of insufficient quality, data missing annotations, data having noisy annotations, or no directly suitable training data being available at all. This thesis presents contributions on both 6D object pose estimation, as well as on alleviating the restrictions of data limitations, for pose estimation, and for related CV problems such as classification, segmentation, and 2D object detection. It offers a range of solutions to enhance quality and efficiency of these tasks under different kinds of data limitations. The first contribution enhances a state-of-the-art pose estimation algorithm to predict a probability distribution of poses, instead of a single pose estimate. This approach allows to sample multiple, plausible poses for further refinement and outperforms the baseline algorithm even when sampling only the most likely pose. In our second contribution, we drastically improve runtime and reduce resource requirements to bring state-of-the-art pose estimation to low power edge devices, such as modern augmented and extended reality devices. Finally, we extend a pose estimator based on dense-feature prediction to incorporate additional views and illustrate its performance benefits in the stereo use case. The second set of two contributions focuses on data generation for ML-based CV tasks. High quality training data is a crucial component for best performance. We introduce a novel yet simple setup to record physical objects and generate all necessary annotations in a fully automated way. Evaluated on the 2D object detection use case, training on our data performs favourably with more complex data generation processes, such as real-world recordings and physically-based rendering. In a follow-up paper, we further improve upon the results by introducing a novel postprocessing step based on denoising diffusion probabilistic models (DDPM). At the intersection of 6D pose estimation and data generation methods, a final group of three contributions focuses on solving or circumventing the data problem with a range of different approaches. First, we demonstrate the use of physically-based, photorealistic, and non-photorealistic rendering to localize objects on Microsoft HoloLens 2, without needing any real-world images for training. Second, we extend a zero-shot pose estimation method by predicting geometric features, thereby improving estimation quality with almost no additional runtime. Third, we demonstrate pose estimation of objects with unseen appearances based on a 3D scene representation, allowing robust mesh-free pose estimation. In summary, this thesis advances the fields of 6D object pose estimation and alleviates some common data limitations for pose estimation and similar Machine Learning algorithms in Computer Vision problems, such as 2D detection and segmentation. The solutions proposed include several extensions to state-of-the-art 6D pose estimators and address the challenges of limited or poor quality training data, paving the way for more accurate, efficient, and accessible pose estimation technologies across various industries and fields.

; 

Jüngste Erfolge im Maschinellen Lernen (Machine Learning, ML) haben viele Disziplinen in der Informatik tiefgreifend beeinflusst, insbesondere die Computer Vision (CV). Eine bedeutsame Herausforderung in der CV ist die Aufgabe, gegeben ein Bild eines Objekts, die Position und Orientierung besagten Objekts im 3D-Raum, relativ zum aufnehmenden Kamerasensor, zu bestimmen. Die akkurate Lösung dieser Aufgabe ist essenziell für Bereiche wie Robotik, Augmentierte Realität (Augmented Reality), autonomes Fahren, Qualitätsinspektion in der Fertigung und viele weitere. Aktuelle Algorithmen zur Posenschätzung werden von Deep Learning-basierten Ansätzen dominiert. Die Anwendung dieser Algorithmen auf reale Aufgaben wird jedoch oft durch datenspezifische Einschränkungen limitiert. Beispiele für diese Einschränkungen sind etwa das Fehlen ausreichender Trainingsdaten, die unzureichende Qualität vorhandener Daten, fehlende oder fehlerhafte Annotationsdaten oder das vollständige Fehlen direkt nutzbarer Trainingsdaten, in der Regel Bilder. Diese Thesis präsentiert Beiträge sowohl zur 6D-Objektposenschätzung, als auch zum Umgang mit Einschränkungen durch Probleme mit dem Datenbestand, spezifisch für die Anwendung Posenschätzung, als auch angewandt auf verwandte CV-Probleme wie Klassifikation, Segmentierung und 2D-Objekterkennung. Sie bietet eine Reihe von Lösungen zur Steigerung der Qualität und Effizienz dieser Aufgaben unter verschiedenen, üblichen Arten von Dateneinschränkungen. Der erste Beitrag dieser Thesis verbessert einen Posenschätzer am aktuellen Stand der Wissenschaft, indem er anstelle einer einzigen Schätzung der Objektpose eine Wahrscheinlichkeitsverteilung vorhersagt. Dieser Ansatz ermöglicht es, mehrere plausible Posenkandidaten zur weiteren Verfeinerung zu gewinnen und übertrifft den Basisalgorithmus selbst dann, wenn nur die wahrscheinlichste Pose gesampelt wird. In unserem zweiten Beitrag verbessern wir die Laufzeit drastisch und reduzieren die Ressourcenanforderungen, um Posenschätzung auf dem Stand der Technik auf stromsparende Edge-Geräte, etwa moderne Augmented und Extended Reality Geräte zu bringen. Schließlich erweitern wir einen Posenschätzer, um zusätzliche Ansichten einzubeziehen, und demonstrieren dessen Leistungsfähigkeit mit Stereoaufnahmen. Das zweite Set mit zwei Beiträgen konzentriert sich auf die Datengenerierung für ML-basierte CV-Aufgaben. Hochwertige Trainingsdaten sind entscheidend für gute Leistung. Wir stellen ein neuartiges, aber einfaches Setup vor, um physische Objekte aufzunehmen und alle notwendigen Annotationen vollständig automatisiert zu generieren. Wie evaluieren am Anwendungsfall der 2D-Objekterkennung und können zeigen, dass unser Ansatz im Vergleich zu viel komplexeren Datengenerierungsprozessen, zum Beispiel reale Aufnahmen und physikalisch basiertes Rendering, gute Ergebnisse bei drastisch reduziertem Aufwand erzielt. In einem Folgepapier verbessern wir die Ergebnisse weiter, indem wir einen neuartigen Nachbearbeitungsschritt basierend auf denoising diffusion probabilistic models (DDPM) einführen. An der Schnittstelle von 6D-Posenschätzung und Datengenerierungsmethoden konzentriert sich eine letzte Gruppe mit drei Beiträgen darauf, das Datenproblem mit verschiedenen Ansätzen zu lösen oder gänzlich zu umgehen. Erstens demonstrieren wir den Einsatz von physikalisch basieretem, fotorealistischem und nicht-fotorealistischem Rendering zur Posenschätzung auf einer Microsoft HoloLens 2, gänzlich ohne reale Bilder zum Training zu nutzen. Zweitens erweitern wir eine Zero-Shot-Posenschätzer durch die zusätzliche Abschätzung von geometrischen Merkmalen und verbessern dadurch die Schätzqualität ohne die Laufzeit nennenswert zu verschlechtern. Drittens zeigen wir die Posenschätzung von Objekten mit unbekannten Erscheinungen basierend auf einer 3D-Szenenrekonstruktion basierend auf Neural Radiance Fields (NeRFs), was eine robuste, 3D-Mesh-freie Posenschätzung ermöglicht. Zusammenfassend verbessert diese Thesis die Anwendungsfelder der 6D-Objektposenschätzung und reduziert den Einfluss einiger gängiger Datenbeschränkungen, für Posenschätzung und ähnliche Machine Learning Algorithmen in Computer Vision Problemen, wie etwa 2D Objektdetektion und Segmentierung. Die vorgeschlagenen Lösungen beinhalten mehrere Erweiterungen zu aktuellen 6D-Posenschätzern und adressieren die Herausforderungen von begrenzten oder qualitativ schlechten Trainingsdaten, wodurch genauere, effizientere und in einem größeren Feld an Anwendungen nutzbare Posenschätzalgorithmen für verschiedene Branchen und Anwendungsfelder ermöglicht werden.
Thesis Note
Darmstadt, TU, Diss., 2024
Author(s)
Pöllabauer, Thomas  orcid-logo
Fraunhofer-Institut für Graphische Datenverarbeitung IGD  
Advisor(s)
Kuijper, Arjan  orcid-logo
Fraunhofer-Institut für Graphische Datenverarbeitung IGD  
Fellner, Dieter
Fraunhofer-Institut für Graphische Datenverarbeitung IGD  
Felsberg, Michael
Linköping University  
Open Access
DOI
10.26083/tuprints-00029350
10.24406/publica-4283
File(s)
Pöllabauer_diss.pdf (4.67 MB)
Rights
CC BY 4.0: Creative Commons Attribution
Language
English
Fraunhofer-Institut für Graphische Datenverarbeitung IGD  
Keyword(s)
  • Branche: Automotive Industry

  • Branche: Healthcare

  • Branche: Information Technology

  • Branche: Cultural and Creative Economy

  • Research Line: Computer graphics (CG)

  • Research Line: Computer vision (CV)

  • Research Line: Human computer interaction (HCI)

  • Research Line: Modeling (MOD)

  • Research Line: Machine learning (ML)

  • LTA: Monitoring and control of processes and systems

  • LTA: Machine intelligence, algorithms, and data structures (incl. semantics)

  • LTA: Generation, capture, processing, and output of images and 3D models

  • 3D Computer vision

  • Computer vision

  • 3D Feature extraction

  • Pattern recognition

  • Deep learning

  • Machine learning

  • Artificial intelligence (AI)

  • Industrial automation

  • 3D Scene reconstruction

  • Object detection

  • Object localisation

  • Data acquisition

  • Data analysis

  • Automation

  • Cookie settings
  • Imprint
  • Privacy policy
  • Api
  • Contact
© 2024