Options
2024
Bachelor Thesis
Title
Automatische Generierung von Tabellendrillingen unter Beibehaltung originärer Metadaten
Abstract
Die gesamte Welt ist voll von Informationen in Form von Daten. Eine Möglichkeit diese Daten zu erfassen ist, sie in Form von Tabellen zu speichern. Diese Art der Datenspeicherung ermöglicht eine strukturierte Gruppierung von Datensätzen, welche leichter zu betrachten sind und gut weiterverarbeitet werden
können. Alle Tabellen besitzen einen strukturellen Aufbau von Informationen, welche in Zeilen und Spalten gegliedert sind. Sie unterscheiden sich nicht nur inhaltlich, sondern auch in ihrer Größe, dem Kontext, ihrer Beschriftung, sowie weiterer veränderbaren Faktoren wie der Anzahl an leeren, oder numerischen
Feldern. Sind die Unterschiede gering, ergibt sich ein größeres Maß an Ähnlichkeit zwischen verschiedenen Tabellen. So nutzt unter anderem Google Tabellen mit ähnlichen Informationen zur Erweiterung der Suchergebnisse in ihrer Suchmaschine [3, 1]. Durch Finden eines solchen Ähnlichkeitsmaßes wird es möglich, Tabellen um Werte einer zu ihrer ähnlichen Tabelle zu erweitern (Tabellen Augmentation). Somit kann zum Beispiel eine Tabelle durch eine
Wertvorhersage automatisch vervollständigt, oder gelöschte Einträge nachträglich wiederhergestellt werden. Aktuell existieren viele Verfahren zur Schätzung von Tabellenähnlichkeit, aber keine systematische Übersicht existiert. Geschweige denn eine akzeptierte "Best Practice", welches die Ähnlichkeit zwischen
zwei oder mehreren Tabellen beschreibt [15]. Jedoch gibt es bereits mehrere verschiedene Ansätze wie Tabsim [6] um einen Ähnlichkeitswert zu errechnen, oder Tabbie [7] um Tabellen-Strukturen zu erkennen und Vorhersagen dazu treffen zu können. In den letzten Jahren wurde unter anderem der Einfluss von oben genannten Tabellenfeatures auf die Güte von Tabellenähnlichkeitsmaßen [12] am Fraunhofer Institut für Graphische Datenverarbeitung IGD
weiter untersucht und verschiedene Modelle auf automatisch generierten Datensätzen durch Trainieren von einem Deep Learning Algorithmus auf ihre Genauigkeit evaluiert. Die Qualität der Ergebnisse dieser Evaluation hängen sehr stark von den generierten Datensätzen ab, so ist es nicht nur wichtig,
dass die Datensätze korrekt sind, sondern auch, dass sie in einer ausreichenden Menge vorhanden sind. Ein pragmatischer Ansatz im maschinellen Lernen ist der, dass selbst ein schlechter Algorithmus einen sehr guten schlagen kann, wenn er genügend Daten zum Lernen bereitgestellt bekommt [4].
Dadurch gewinnt die automatische Generierung der Datensätze sehr an Relevanz, womit sich diese Arbeit genauer befasst. In der Vorgängerarbeit "Evaluation von Tabellenfeatures und ihr Einfluss auf die Güte von Tabellenähnlichkeitsmaßen" [12] wurde ein Verfahren entwickelt, um die Performance von Tabellenähnlichkeitsmodellen zu vergleichen. Dazu wurden Tabellen-Triplets (siehe Definition 3.4 über Triplets) automatisch generiert und ausgewertet, ob das zu untersuchende Modell die relativen Distanzen korrekt schätzt. Die automatische Generation von Triplets wurde durch wiederholte Anwendung verschiedener Manipulationsoperatoren realisiert. Im Zuge der Arbeit wurden bereits Operationen zur Permutation von Reihen und Spalten sowie dem Löschen von Reihen, Spalten und Zellen. Das Löschen von Zeilen oder Spalten verändert jedoch die Metadaten einer Tabelle, wodurch das Modell sich auf diese Änderung und weniger auf die weiteren unabhängigen Variablen der Tabellen beziehen kann und dadurch bestimmte Modelle besser bewertet werden als andere.
können. Alle Tabellen besitzen einen strukturellen Aufbau von Informationen, welche in Zeilen und Spalten gegliedert sind. Sie unterscheiden sich nicht nur inhaltlich, sondern auch in ihrer Größe, dem Kontext, ihrer Beschriftung, sowie weiterer veränderbaren Faktoren wie der Anzahl an leeren, oder numerischen
Feldern. Sind die Unterschiede gering, ergibt sich ein größeres Maß an Ähnlichkeit zwischen verschiedenen Tabellen. So nutzt unter anderem Google Tabellen mit ähnlichen Informationen zur Erweiterung der Suchergebnisse in ihrer Suchmaschine [3, 1]. Durch Finden eines solchen Ähnlichkeitsmaßes wird es möglich, Tabellen um Werte einer zu ihrer ähnlichen Tabelle zu erweitern (Tabellen Augmentation). Somit kann zum Beispiel eine Tabelle durch eine
Wertvorhersage automatisch vervollständigt, oder gelöschte Einträge nachträglich wiederhergestellt werden. Aktuell existieren viele Verfahren zur Schätzung von Tabellenähnlichkeit, aber keine systematische Übersicht existiert. Geschweige denn eine akzeptierte "Best Practice", welches die Ähnlichkeit zwischen
zwei oder mehreren Tabellen beschreibt [15]. Jedoch gibt es bereits mehrere verschiedene Ansätze wie Tabsim [6] um einen Ähnlichkeitswert zu errechnen, oder Tabbie [7] um Tabellen-Strukturen zu erkennen und Vorhersagen dazu treffen zu können. In den letzten Jahren wurde unter anderem der Einfluss von oben genannten Tabellenfeatures auf die Güte von Tabellenähnlichkeitsmaßen [12] am Fraunhofer Institut für Graphische Datenverarbeitung IGD
weiter untersucht und verschiedene Modelle auf automatisch generierten Datensätzen durch Trainieren von einem Deep Learning Algorithmus auf ihre Genauigkeit evaluiert. Die Qualität der Ergebnisse dieser Evaluation hängen sehr stark von den generierten Datensätzen ab, so ist es nicht nur wichtig,
dass die Datensätze korrekt sind, sondern auch, dass sie in einer ausreichenden Menge vorhanden sind. Ein pragmatischer Ansatz im maschinellen Lernen ist der, dass selbst ein schlechter Algorithmus einen sehr guten schlagen kann, wenn er genügend Daten zum Lernen bereitgestellt bekommt [4].
Dadurch gewinnt die automatische Generierung der Datensätze sehr an Relevanz, womit sich diese Arbeit genauer befasst. In der Vorgängerarbeit "Evaluation von Tabellenfeatures und ihr Einfluss auf die Güte von Tabellenähnlichkeitsmaßen" [12] wurde ein Verfahren entwickelt, um die Performance von Tabellenähnlichkeitsmodellen zu vergleichen. Dazu wurden Tabellen-Triplets (siehe Definition 3.4 über Triplets) automatisch generiert und ausgewertet, ob das zu untersuchende Modell die relativen Distanzen korrekt schätzt. Die automatische Generation von Triplets wurde durch wiederholte Anwendung verschiedener Manipulationsoperatoren realisiert. Im Zuge der Arbeit wurden bereits Operationen zur Permutation von Reihen und Spalten sowie dem Löschen von Reihen, Spalten und Zellen. Das Löschen von Zeilen oder Spalten verändert jedoch die Metadaten einer Tabelle, wodurch das Modell sich auf diese Änderung und weniger auf die weiteren unabhängigen Variablen der Tabellen beziehen kann und dadurch bestimmte Modelle besser bewertet werden als andere.
Thesis Note
Darmstadt, TU, Bachelor Thesis, 2024
Language
German