Options
2024
Master Thesis
Title
Detection and Segmentation of Transparent and Opaque Glasses with the Help of Zero-Shot Learning
Other Title
Detektierung and Segmentierung von Transparenten und Opaken Gläsern mit der Hilfe von Zero-Shot Learning
Abstract
Drinking glasses are a ubiquitous part of our lives and can be found in every household. They come in many different shapes and sizes. Recognizing and segmenting them in pictures can be very challenging, as transparent glasses in particular are difficult to distinguish from the background. In addition, due to the diversity of the glasses, one needs a lot of data to train a neural network. It may also happen that no images are available for glass categories because they are rarely used. To overcome these challenges, two different models for semantic segmentation are trained and evaluated using zero-shot learning.
For this purpose, a general network called ZegClip and a modified version of CaGNet are trained on a dataset which was newly created for this task. Three different scenarios are evaluated: all classes seen, one class unseen with a focus on the category goblet and four classes unseen. It is shown that the modified version of CaGNet mostly outperforms ZegClip while ZegClip produces better results for the unseen class. Both models struggle with four unseen classes.
For this purpose, a general network called ZegClip and a modified version of CaGNet are trained on a dataset which was newly created for this task. Three different scenarios are evaluated: all classes seen, one class unseen with a focus on the category goblet and four classes unseen. It is shown that the modified version of CaGNet mostly outperforms ZegClip while ZegClip produces better results for the unseen class. Both models struggle with four unseen classes.
;
Trinkgläser sind ein allgegenwärtiger Teil unseres Lebens und sie können in jedem Haushalt gefunden werden. Es gibt sie in ganz vielen unterschiedlichen Formen und Größen. Diese in Bildern zu erkennen und zu segmentieren kann sehr schwierig sein, da gerade transparente Gläser schwierig von dem Hintergrund zu unterscheiden sind. Außerdem benötigt man auf Grund der Vielfältigkeit der Gläser sehr viele Daten, um ein neuronales Netz zu trainieren. Gegebenenfalls kann es auch passieren, dass für Glaskategorien keine Bilder vorhanden sind, da sie nur selten verwendet werden. Um diese Herausforderungen zu meistern, werden im Folgenden zwei verschiedene Modelle für die semantische Segmentierung mit der Hilfe von Zero-shot Learning trainiert und evaluiert. Dafür wird ein allgemeines Netz namens ZegClip sowie eine modifizierte Version von CaGNet auf einem Datensatz trainiert, der eigens für diese Aufgabe neu erstellt wurde. Drei verschiedene Szenarien werden ausgewertet: alle Klassen sind im Trainingsdatensatz, eine Klasse ist ungesehen mit Fokus auf die Kategorie Kelch und vier Klassen sind ungesehen. Es zeigt sich, dass die modifizierte Version von CaGNet meist besser für die gesehenen Klassen abschneidet, während ZegClip bessere Ergebnisse für die ungesehene Klasse liefert. Keines der beiden Modelle produziert zufriedenstellende Ergebnisse für vier ungesehen Klassen.
Thesis Note
Darmstadt, TU, Master Thesis, 2024
Language
English
Keyword(s)
Branche: Information Technology
Branche: Cultural and Creative Economy
Research Line: Computer vision (CV)
Research Line: Machine learning (ML)
LTA: Machine intelligence, algorithms, and data structures (incl. semantics)
LTA: Generation, capture, processing, and output of images and 3D models
Transparency computation
Perception
Human factors
Artificial intelligence (AI)