Options
2023
Master Thesis
Title
Hierarchical Clustering of Table Columns
Other Title
Hierarchisches Clustering von Tabellenspalten
Abstract
Aufgrund der anhalten technischen Entwicklung der letzten Jahrzehnte hat sich die Anzahl an verarbeitbaren Daten immer weiter erhöht. Um die Daten zu speichern und zu verbreiten, wird häufig ein Tabellenformat gewählt. Für den Menschen hat die detailreiche tabellarische Darstellung aber Nachteile und es ist schwer Zusammenhänge oder relevante Abschnitte in neuen Tabellen zu finden. Daher kann man davon ausgehen, dass in vielen Tabellen noch unentdecktes Wissen und Potenzial liegt, das bisher nicht erkannt und nutzbar gemacht wurde. Im Rahmen dieser Arbeit soll erforscht werden, wie man die Sichtung von großen unbekannten tabellarischen Datensätzen verbessern kann. Dazu soll untersucht werden, ob man hierarchische Strukturen innerhalb der Tabellenspalten dazu nutzen kann, um den Benutzern eine bessere Übersicht über die Daten zu geben. Im Rahmen dieser Arbeit wurde eine Visualisierung entworfen, implementiert und evaluiert. Deren Ziel ist, Tabellenspalten hierarchisch zu clustern und diese Hierarchie dem Nutzer als interaktive Visualisierung darzustellen. Dazu wurden zwei Versionen implementiert, wobei die erste sich auf die Visualisierung konzentriert hat und quantitative und qualitative evaluiert wurde. Das Feedback bestätigt, dass das gewählte Design dazu in der Lage ist, dem Nutzer den Zusammenhang zwischen den hierarchisch geclusterten Tabellenspalten und der Tabelle dazustellen. Die zweite Version hat das Feedback der Evaluation eingearbeitet und sich auf die Generierung und Verbreitung der Hierarchie konzentriert.
;
Due to the ongoing technical advancements over the last few decades, the amount of processable data has continued to increase. To store and process the data, a tabular format is often chosen. However, the detailed tabular representation has disadvantages for humans and it is difficult to find connections or relevant sections in new tables. It can therefore be assumed that there is still undiscovered knowledge and potential in many tables that has not yet been recognized and made usable. The goal of this work is to research how the screening of large, unknown tabular data sets can be improved. The aim is to investigate whether hierarchical structures within the table columns can be used to give users a better overview of the data. As part of this work, a visualization was designed, implemented and evaluated. The goal is to cluster table columns hierarchically and to present this hierarchy to the user as an interactive visualization. Two versions were implemented, with the first focusing on visualization. It was evaluated quantitatively and qualitatively. The feedback confirms that the chosen design is able to convey the connection between the hierarchically clustered table columns and the table to the user. The second version incorporated the feedback from the evaluation and focused on the generation and processing of the hierarchy.
Thesis Note
Darmstadt, TU, Master Thesis, 2023
Language
English