Options
2024
Bachelor Thesis
Title
Transparent Object Detection in the Wild
Other Title
Transparente Objekterkennung in natürlichen Umgebungen
Abstract
In unserem Alltag spielen transparente Gegenstände oder durchsichtige Materialien eine wichtige Rolle, indem sie es dem menschlichen Auge ermöglichen, hindurchzusehen und die Umgebung wahrzunehmen. Gleichzeitig stellen sie jedoch auch Herausforderungen für visuelle Assistenzsysteme und Erkennungsalgorithmen dar. Mit dem Fortschritt von Deep-Learning-Methoden konnten in den letzten Jahren viele Anwendungen in Bereichen
der Computer Vision realisiert werden. Dennoch bleibt die Segmentierung transparenter Objekte aus einfachen RGB-Bildern eine offene Fragestellung. Es mangelt zum einen an geeigneten Modellarchitekturen und zum anderen sind Datensätze, die sich auf transparente Objekte fokussieren, limitiert.
Das Ziel dieser Arbeit ist es daher, den aktuellen Stand der Forschung bezüglich der Detektion transparenter Objekte für den Einsatz in realistischen Umgebungen zu untersuchen. Hierfür wurden moderne Deep-Learning-Methoden und vergleichbare Datensätze, die unterschiedliche Klassen transparenter Objekte enthalten, systematisch evaluiert. Zusätzlich wurde ein neuer Datensatz namens TODitW entwickelt, der 951 manuell annotierte RGB-Bilder und semantische Segmentierungsmasken in natürlichen Innen- und Außenbereichen umfasst. Die enthaltenen Objekte wie Fenster, Türen, Flaschen, Gläser oder
Verpackungen wurden sorgfältig aus verschiedenen Bereichen des Alltags ausgewählt. Mehrere State-of-the-Art (SOTA) Modelle wie RFENEt, EBLNet und Trans2Seg wurden sowohl auf TODitW als auch auf vergleichbaren Datensätzen wie GSD, HSO, GSD-S und Trans10k trainiert. Ziel war es, Stärken und Schwächen der Methoden sowie die Eignung von TODitW für den praktischen Einsatz zu analysieren. Durch einen direkten Vergleich der Vorhersagegenauigkeiten auf unterschiedlichen Datensätzen konnten wichtige Erkenntnisse zur Segmentierung transparenter Objekte gewonnen werden. Die Ergebnisse sollen den Stand der Technik voranbringen und robustere Lösungen ermöglichen.
der Computer Vision realisiert werden. Dennoch bleibt die Segmentierung transparenter Objekte aus einfachen RGB-Bildern eine offene Fragestellung. Es mangelt zum einen an geeigneten Modellarchitekturen und zum anderen sind Datensätze, die sich auf transparente Objekte fokussieren, limitiert.
Das Ziel dieser Arbeit ist es daher, den aktuellen Stand der Forschung bezüglich der Detektion transparenter Objekte für den Einsatz in realistischen Umgebungen zu untersuchen. Hierfür wurden moderne Deep-Learning-Methoden und vergleichbare Datensätze, die unterschiedliche Klassen transparenter Objekte enthalten, systematisch evaluiert. Zusätzlich wurde ein neuer Datensatz namens TODitW entwickelt, der 951 manuell annotierte RGB-Bilder und semantische Segmentierungsmasken in natürlichen Innen- und Außenbereichen umfasst. Die enthaltenen Objekte wie Fenster, Türen, Flaschen, Gläser oder
Verpackungen wurden sorgfältig aus verschiedenen Bereichen des Alltags ausgewählt. Mehrere State-of-the-Art (SOTA) Modelle wie RFENEt, EBLNet und Trans2Seg wurden sowohl auf TODitW als auch auf vergleichbaren Datensätzen wie GSD, HSO, GSD-S und Trans10k trainiert. Ziel war es, Stärken und Schwächen der Methoden sowie die Eignung von TODitW für den praktischen Einsatz zu analysieren. Durch einen direkten Vergleich der Vorhersagegenauigkeiten auf unterschiedlichen Datensätzen konnten wichtige Erkenntnisse zur Segmentierung transparenter Objekte gewonnen werden. Die Ergebnisse sollen den Stand der Technik voranbringen und robustere Lösungen ermöglichen.
;
Transparent objects and materials play an important role in everyday life by allowing the human visual system to see through them and perceive the surrounding environment. However, they also pose unique challenges for computer vision systems. With recent advances in deep learning, many applications in diverse domains have become feasible. Nevertheless, segmenting transparent objects from simple RGB images remains an open problem due to limited model architectures and datasets specifically tailored for this task. The goal of this work is to comprehensively survey the state-of-the-art in transparent
object detection for realistic scenarios. To this end, current deep learning methods and datasets containing different transparent object classes were systematically evaluated. A novel dataset called TODitW (Transparent Object Detection in the Wild) was introduced, comprising 951 manually annotated RGB images and semantic segmentation masks collected in natural indoor and outdoor scenes. The included objects were carefully selected from various areas of everyday private and public life. Example classes are windows, doors, bottles, drinking glasses, glass cabinets, mugs, bowls, containers, packaging, eyeglasses,
lamps and smaller glass or plastic items. Several modern deep learning models (RFENEt, EBLNet, Trans2Seg) were trained on comparable datasets such as GSD, HSO, GSD-S and Trans10k. These, along with the proposed TODitW dataset, were utilized to analyze the strengths and limitations of state-of-the-art approaches as well as the suitability of TODitW for practical applications. Additionally, the prediction accuracy of models was evaluated by direct comparison on different datasets. Through this systematic benchmark, important insights into transparent object segmentation were gained. The findings aim to advance the field towards more robust and generalized solutions.
object detection for realistic scenarios. To this end, current deep learning methods and datasets containing different transparent object classes were systematically evaluated. A novel dataset called TODitW (Transparent Object Detection in the Wild) was introduced, comprising 951 manually annotated RGB images and semantic segmentation masks collected in natural indoor and outdoor scenes. The included objects were carefully selected from various areas of everyday private and public life. Example classes are windows, doors, bottles, drinking glasses, glass cabinets, mugs, bowls, containers, packaging, eyeglasses,
lamps and smaller glass or plastic items. Several modern deep learning models (RFENEt, EBLNet, Trans2Seg) were trained on comparable datasets such as GSD, HSO, GSD-S and Trans10k. These, along with the proposed TODitW dataset, were utilized to analyze the strengths and limitations of state-of-the-art approaches as well as the suitability of TODitW for practical applications. Additionally, the prediction accuracy of models was evaluated by direct comparison on different datasets. Through this systematic benchmark, important insights into transparent object segmentation were gained. The findings aim to advance the field towards more robust and generalized solutions.
Thesis Note
Darmstadt, TU, Bachelor Thesis, 2024
Language
German
Keyword(s)
Branche: Information Technology
Research Line: Computer vision (CV)
Research Line: Machine learning (ML)
LTA: Machine intelligence, algorithms, and data structures (incl. semantics)
LTA: Generation, capture, processing, and output of images and 3D models
Machine learning
Transparency computation
Object recognition