Options
2022
Master Thesis
Title
Dense Stereo Object Pose Estimation
Abstract
Fast, accurate, and robust estimation of 6D poses of objects remains a challenging problem. Such estimators could enable seamless augmented reality experiences or smooth robotic manipulations that are unattainable today. Recently, methods for direct pose regression from RGB images using dense features have been introduced. These approaches are promising: direct regression enables fast inference and dense features increase accuracy. Only direct regression methods are in the range of real-time requirements for the RGB modality. Nevertheless, accuracy is poor compared to state-of-the-art methods such as
refinement-based estimators. In addition, dense RGB methods are limited to estimating single images, as the dense features are inherently predicted in image space. Stereo vision provides an additional view of the object from a different perspective, reducing the potential for pose ambiguity and minimizing occlusion. The distance of an object can be inferred directly from stereo images, whereas this is impossible with mono-vision without internalized knowledge of the size of the object. Therefore, stereo vision offers a great opportunity to improve the accuracy of dense pose estimation. We extend the state-of-the-art in dense 6D object pose estimation to stereo vision and create a dense stereo dataset. By comparing our method to the state-of-the-art in direct regression for mono-images, we show the potential for dense estimators with stereo modality. Achieving more than twice the accuracy of the baseline on a difficult object, we show a path for dense methods to close the gap in accuracy, enabling real-time 6D Object Pose estimation from images.
refinement-based estimators. In addition, dense RGB methods are limited to estimating single images, as the dense features are inherently predicted in image space. Stereo vision provides an additional view of the object from a different perspective, reducing the potential for pose ambiguity and minimizing occlusion. The distance of an object can be inferred directly from stereo images, whereas this is impossible with mono-vision without internalized knowledge of the size of the object. Therefore, stereo vision offers a great opportunity to improve the accuracy of dense pose estimation. We extend the state-of-the-art in dense 6D object pose estimation to stereo vision and create a dense stereo dataset. By comparing our method to the state-of-the-art in direct regression for mono-images, we show the potential for dense estimators with stereo modality. Achieving more than twice the accuracy of the baseline on a difficult object, we show a path for dense methods to close the gap in accuracy, enabling real-time 6D Object Pose estimation from images.
;
Die schnelle, genaue und robuste Schätzung von 6D-Posen von Objekten ist nach wie vor ein schwieriges Problem. Solche Schätzer könnten nahtlose Augmented-Reality-Erlebnisse oder geschmeidige Robotermanipulationen ermöglichen, wie sie heute unerreichbar sind. Kürzlich wurden Methoden zur direkten Posenregression aus RGB-Bildern unter Verwendung Dense Features vorgestellt. Diese Ansätze sind vielversprechend: Die direkte Regression ermöglicht schnelle Inferenz und Dense Features erhöhen die Genauigkeit. Unter der RGB-Modalität liegen nur die direkten Regressionsmethoden liegen im Bereich der Echtzeitanforderungen. Dennoch ist die Genauigkeit im Vergleich zu State-of-theart Methoden wie erfeinerungsbasierten Schätzern gering. Darüber hinaus sind Dense RGB-Methoden auf die Schätzung von Einzelbildern beschränkt, da die Dense Features von Natur aus im Bildraum vorhergesagt werden. Stereovision bietet eine zusätzliche Ansicht des Objekts aus einer anderen Perspektive, wodurch das Potenzial für Posenmehrdeutigkeit reduziert und die Verdeckung minimiert wird. Die Entfernung eines Objekts kann direkt aus Stereobildern abgeleitet werden, während dies bei Mono-Vision ohne verinnerlichtes Wissen über die Größe des Objekts unmöglich ist. Daher bietet Stereo eine große Chance, die Genauigkeit der Dense Posenschätzung zu verbessern. Wir erweitern den State-of-the-art in der Dense 6D-Objektposenschätzung auf Stereo und erstellen einen Dense Stereodatensatz. Durch den Vergleich unserer Methode mit dem State-of-the-art bei der direkten Regression für Monobilder zeigen wir das Potenzial für Dense Schätzer mit Stereomodalität. Indem wir bei einem schwierigen Objekt eine mehr als doppelt so hohe Genauigkeit erreichen, zeigen wir einen Weg auf, wie Dense Methoden die Lücke in der Genauigkeit schließen und eine 6D-Objektposenschätzung aus Bildern in Echtzeit ermöglichen können.
Thesis Note
Darmstadt, TU, Master Thesis, 2022