Fraunhofer-Gesellschaft

Publica

Hier finden Sie wissenschaftliche Publikationen aus den Fraunhofer-Instituten.

A user-oriented, comprehensive system for the 6 DoF recognition of arbitrary rigid household objects

Ein anwenderorientiertes, umfassendes System zur Erkennung von starren Objekten in 6 Freiheitsgraden
 
: Fischer, Jan
: Verl, Alexander; Wörn, Heinz

:
Volltext urn:nbn:de:bsz:93-opus-101277 (5.7 MByte PDF)
MD5 Fingerprint: 9becce161a30d76153058f88609e12c8
Erstellt am: 6.10.2015

:

Stuttgart: Fraunhofer Verlag, 2015, XXII, 133 S.
Zugl.: Stuttgart, Univ., Diss., 2015
Stuttgarter Beiträge zur Produktionsforschung, 44
ISBN: 978-3-8396-0891-3
ISBN: 3-8396-0891-0
URN: urn:nbn:de:bsz:93-opus-101277
Englisch
Dissertation, Elektronische Publikation
Fraunhofer IPA ()
computer vision; object recognition; object modeling; Objektmodellierung; Merkmalsextraktion; Sensorfusion; Haushaltsgerät; Positionsbestimmung; Lageerkennung; sensor fusion; Sensorfusion; Objekterkennung; Bildverarbeitung; Bilderkennung; Datenverarbeitung

Abstract
Ziel der Arbeit ist die Entwicklung eines intuitiv nutzbaren, umfassenden Systems zur Wahrnehmung von typischen Haushaltsgegenständen in Lage und Position. Im Rahmen dieser Arbeit wird der zugrundeliegende Wahrnehmungsprozess in die drei Teilgebiete Datenaufnahme, Objektmodellierung und Objekterkennung untergliedert. Mit dem Ziel, den Wahrnehmungsprozess in seiner Gesamtheit zu optimieren, werden spezifische Entwicklungen in den einzelnen Teilgebieten vorgestellt und evaluiert.
Als Grundlage der Wahrnehmung dienen korrespondierende Bilddaten von Farbkameras und 2.5-D Tiefendaten einer Tiefenbildkamera. Das Teilgebiet der Datenaufnahme wird oftmals nicht genauer untersucht, da im Allgemeinen angenommen wird, dass Kameradaten durch entsprechende Kamerasysteme unmittelbar zur Verfügung stehen. Jedoch ist es möglich, durch Verfahren der Sensordatenfusion, verschiedene Kamerasysteme zu kombinieren, um eine Verbesserung der Kameradaten z.B. hinsichtlich räumlicher Abdeckung und Genauigkeit der Tiefendaten zu erzielen. Im Rahmen dieser Arbeit wird ein Verfahren entwickelt, um die Daten eines Stereokamerasystems mit den Daten einer Tiefenbildkamera zu kombinieren. Dabei werden die Daten der Einzelsysteme durch Aufstellung einer gemeinsamen Kostenfunktion mittels Belief Propagation kombiniert. Es wird gezeigt, dass dadurch die räumliche Abdeckung und Genauigkeit der Tiefendaten im Vergleich zu den genutzten Einzelsystemen gesteigert werden kann.
Im Bereich der Objektmodellierung stellt diese Arbeit eine Methode vor, die es ermöglicht, Objekte intuitiv mittels eines Robotersystems einzulernen. Dabei wird das Objekt im Greifer des Roboters platziert, worauf dieser das Objekt autonom modelliert. Relevante Daten zum Greifen und Erkennen des Objektes werden hierbei berechnet und in einem Objektmodell abgespeichert. Zusätzlich wird das Einlernen von Objekten mittels eines Drehtellers sowie mittels eines Schachbretts vorgestellt, um das Erstellen von Objektmodellen auch ohne Robotersystem zu ermöglichen. Eine grundlegende Arbeit zur Modellierung von Objekten wurde bereits in [AFV10] publiziert. Im Rahmen dieser Arbeit wird dieses Verfahren unter Benutzung des Bundle Adjustment Algorithmus weiter entwickelt. Des Weiteren entwickelt diese Arbeit zwei neue binäre Deskriptoren zur Modellierung und Erkennung von texturierten sowie texturlosen Objekten. Diese ermöglichen durch die Benutzung von einfachen Bit-Operationen das schnelle Berechnen von deskriptiven Merkmalen. In Bezug auf die Erkennung von texturierten Objekten wird ein neuer Deskriptor vorgestellt. Dieser basiert auf den Entwicklungen von Rublee et al. [RRKB11], besitzt jedoch neben der Invarianz gegenüber Änderungen in der Orientierung und Beleuchtung auch Invarianz gegenüber Änderungen in der Skale. Teile dieser Arbeiten wurden bereits in [FABV12] publiziert. In Bezug auf die Erkennung von texturlosen Objekten stellt diese Arbeit einen histogramm-basierten Deskriptor vor. Dieser berechnet mittels binären Operationen 2-D und 3-D Informationen, welche gemeinsam zur Beschreibung von Objektmerkmalen verwendet werden. Teile dieser Arbeiten wurden in [FBAV13] veröffentlicht.
Im Teilgebiet der Objekterkennung werden die vorgestellten Deskriptoren zur Erkennung unterschiedlicher Objekte verwendet. Um die Erkennungsrate zu verbessern, werden im Verlauf der Datenassoziation räumliche Beschränkungen eingeführt. Dadurch wird die räumliche Ausdehnung eines Objektes explizit beachtet. Um texturlose Objekte zu erkennen, wird ein adaptives Sliding Window Verfahren entwickelt, welches die Größe des Suchfensters basierend auf den gemessenen Tiefendaten sowie der bekannten Größe des Objektes dynamisch bestimmt.
Die vorgestellten Algorithmen sind eingebettet in ein modulares Softwaresystem, welches auf dem Serviceroboter Care-O-bot 3 sowie auf separaten Einzelsystemen lauffähig ist. Die Einzelkomponenten werden unter Verwendung von Standard-Datensätzen sowie selbst erstellten Aufnahmen von typischen Haushaltsgegenständen separat evaluiert.

 

The objective of this thesis is to develop a model-based object recognition system for 6 DoF localization of typical rigid household objects that explicitly enables an intuitive teaching of new objects. When considering the perceptual process of object recognition in its entirety, it may be divided into the three main areas: data acquisition, object modeling and object localization. The different areas are examined individually and distinct contributions to each of them are presented and evaluated.
The originating conditions for the recognition process system are one-shot images of range and color data. Considering data acquisition, it is most often taken for granted that a sensor delivers directly 2.5D data or color information. However, when combining different sensor modalities, it is possible to exceed the data quality of a single sensor. The thesis follows this idea and presents a novel sensor fusion technique for data acquisition that combines the 2.5D input data from a stereo and a range imaging system.
Regarding object modeling, the thesis presents a method for dense object modeling directly on the robot using its manipulator and camera system. Additionally, two stand-alone training setups are introduces which avoid the explicit need of a robotic manipulator for object modeling. One is using a turn table to rotate the object in front of the camera system and the other one is using a chessboard where the camera is manually moved around a stationary object. Initial work conducted within the scope of this thesis and published in [AFV10] proposes a fastSLAM-based in-gripper object modeling approach which is able to cope with multi-occurrences of similar textures on the object’s surface. This approach is further developed and the information filter is replaced by a Bundle Adjustment algorithm that enables a faster registration of the individual object views.
This thesis proposes two novel binary descriptors for textured and texture-less object modeling that enable the usage of rapid bit operations to accelerate the descriptor computations. When addressing textured objects, recent fast-to-compute descriptors achieving remarkable recognition rates have been presented. This thesis proposes a scale invariant extension of the binary feature descriptor ORB [RRKB11], which is fast to compute while still being as descriptive as SURF. The presented results have been published in [FABV12]. In order to distinctly describe texture-less objects, a global histogram-based descriptor is presented, that aggregates 2D and 3D gradient information from a local binary descriptor. Compared to the current state-of-the art, the descriptor exhibits scale and rotation invariance. Additionally, the underlying binary descriptor is computed faster than competing methods by the use of dynamic programming. The presented results have been published in [FBAV13].
In order to increase the robustness of texture-less object recognition, data association is subject to a spatial constraint to take account for the spatial expansion of an object. The thesis proposes an adaptive sliding window approach to build up a probability map for prominent object locations. Based on a non-maximum suppression algorithm, the dominant object locations are selected. The presented approach has been published in [FBAV13]. The different components have been integrated in a software framework for 6 DoF object recognition that has been implemented on the service robot Care-O-bot 3 using the middleware ROS. The software components for data acquisition, object modeling and object recognition are evaluated individually using standard datasets and typical real world household objects like plates, bottles or cups.

: http://publica.fraunhofer.de/dokumente/N-360238.html