Options
2025
Master Thesis
Title
Kontinuierliches Lernen in ML: Bewältigung des katastrophalen Vergessens durch gezieltes Retraining mit Pflanzenbilddaten
Abstract
Das im Bereich des ML lange bekannte Phänomen des Catastrophic Forgetting (CF) beschreibt den Verlust von bereits erlangtem Wissen, durch das Überschreiben von Modellparametern beim Lernen von neuem Wissen. In der Praxis werden als Konsequenz ML-Modelle oft von Grund auf neu trainiert. Dieses Vorgehen ist ressourcenintensiv und das Vorhalten aller Trainingsdaten ist nicht immer praktikabel. Daher befasst sich diese Arbeit mit der Fragestellung, wie das CF (dt. katastrophale Vergessen), für den Anwendungsfall des Trainings eines neuronalen Netzes zur Pflanzenbilderkennung, reduziert werden kann. Für eine mögliche Lösung werden Methoden gegen das Vergessen herangezogen und an verschiedenen Datensätzen, wie MNIST, CIFAR und den Pflanzenbilddaten getestet. Um das Problem langfristig lösen zu können, strebt diese Arbeit einen ganzheitlichen Ansatz an, indem die Methoden in eine Machine Learning Pipeline integriert werden. Diese Arbeit konzipiert Container-Komponenten, um den Ablauf des Continual Learning (CL), die Auswertung von Metriken und das Aufbereiten von Pflanzenbilddaten zu automatisieren und führt diese Komponenten zu einer ML-Pipeline zusammen. Die konzipierte ML-Pipeline ist nicht isoliert, sondern ist an ein Ökosystem aus Softwarediensten wie Container-Registry, Git-Server und Objectstorage angeschlossen, um mit Ausblick auf einen praktischen Betrieb ohne menschliches Eingreifen funktionieren zu können. Für die Umsetzung der Pipeline wird die MLPlattform Kubeflow eingesetzt und für die Implementierung der CL-Methoden die Python-Bibliothek Avalanche verwendet. In der Arbeit wird deutlich, dass eine ML-Pipeline ein vielversprechender Ansatz ist, um unter Anwendung von CL-Methoden ein automatisiertes Training durchzuführen. Als mögliche CL-Methoden gegen das Vergessen werden wiedergabebasierte, parameterregulierende und parameterisolierende Verfahren verglichen. In den Tests auf den verschiedenen Datensätzen zeigt sich, dass wiedergabebasierte Verfahren wie iCaRL wirksam gegen das CF auf Bilddaten sind. Auf dieser Erkenntnis aufbauend, verwendet diese Arbeit abschließend ein modernes wiedergabebasiertes Verfahren (DER), um das katastrophale Vergessen zu reduzieren.
Thesis Note
Wismar, Hochschule, Master Thesis, 2025
Author(s)
Advisor(s)
Language
German
Keyword(s)
Branche: Information Technology
Branche: Bioeconomics
Research Line: Computer vision (CV)
Research Line: Machine learning (ML)
LTA: Scalable architectures for massive data sets
LTA: Machine intelligence, algorithms, and data structures (incl. semantics)
Machine learning
Computer vision
Distributed systems
Virtual machines