Options
2025
Bachelor Thesis
Title
Computing Similarity of Multivariate Event Sequences
Abstract
This thesis covers multivariate event sequences and the calculation of similarities between such sequences with the application of weighted distance metrics for increased precision. Through the application of the weighted approach to different distance metrics, the precision of said metrics can be improved which shows in the clustering of data. In this paper, three main research questions are addressed. Namely, how the weighted concept can be transferred to different metrics, whether the new metric shows an increase in precision, and how robust the new metric is across different domains. To address these research questions, the paper highlights related works and concepts, and briefly introduces a range of similarity and distance metrics. The research mainly uses the weighted Levenshtein distance, Jaccard similarity, LCS, and DLCSS. This paper then proposes a new metric which is based on the Jaccard similarity to which the weighted concept is transferred. The hypothesis is that this approach will increase the precision of the Jaccard similarity which is shown throughout
the thesis. Thus, it shows that the application of the weighted concept to various kinds of distance metrics can be achieved, and, further, that the inclusion of weights is essential for increased precision in measuring distances. Because the datasets that are used in this thesis derive from two different domains, they reflect the wide area of application of research. While this approach is not without limitations, this research achieved promising results and provides a number of topics for future research.
the thesis. Thus, it shows that the application of the weighted concept to various kinds of distance metrics can be achieved, and, further, that the inclusion of weights is essential for increased precision in measuring distances. Because the datasets that are used in this thesis derive from two different domains, they reflect the wide area of application of research. While this approach is not without limitations, this research achieved promising results and provides a number of topics for future research.
;
Diese Bachelorarbeit befasst sich mit multivariaten Ereignissequenzen und der Berechnung von Ähnlichkeiten zwischen solchen Sequenzen unter Anwendung gewichteter Distanzmetriken zur Verbesserung der Genauigkeit. Durch die Anwendung des ’weighted concepts’ auf verschiedene Distanzmetriken kann die Genauigkeit dieser Metriken verbessert werden. In dieser Bachelorarbeit werden drei zentrale Forschungsfragen behandelt. Nämlich, wie das ’weighted concept’ auf verschiedene Metriken übertragen werden kann, ob die neue Metrik eine Erhöhung der Genauigkeit aufweist und wie robust die neue Metrik in verschiedenen Domänen ist. Um diese Forschungsfragen zu beantworten, werden in der Bachelorarbeit verwandte Arbeiten und Konzepte hervorgehoben und eine Reihe von Ähnlichkeit- und Distanzmetriken kurz vorgestellt. Die Forschung verwendet hauptsächlich die gewichtete Levenshtein-Distanz, die Jaccard Similarity, LCS und DLCSS. Diese Bachelorarbeit schlägt dann eine neue Metrik vor, die auf der Jaccard Similarity basiert, und auf die das ’weighted
concept’ übertragen wird. Die Annahme ist, dass dieser Ansatz die Genauigkeit der Jaccard Similarity steigert, was in dieser Bachelorarbeit auch gezeigt wird. Es wird gezeigt, dass die Anwendung des ’weighted concepts’ auf verschiedene Arten von Distanzmetriken möglich ist und dass die Einbeziehung von ’weights’ für eine höhere Genauigkeit bei der Messung von Distanzen unerlässlich ist. Da die in dieser Arbeit verwendeten Datensätze aus zwei verschiedenen Bereichen stammen, spiegeln sie das breite Anwendungsspektrum von Ereignissequenzen wider. Obwohl dieser Ansatz nicht ohne Einschränkungen ist, hat diese Forschung vielversprechende Ergebnisse erzielt und liefert eine Reihe von Themen für die zukünftige Forschung.
concept’ übertragen wird. Die Annahme ist, dass dieser Ansatz die Genauigkeit der Jaccard Similarity steigert, was in dieser Bachelorarbeit auch gezeigt wird. Es wird gezeigt, dass die Anwendung des ’weighted concepts’ auf verschiedene Arten von Distanzmetriken möglich ist und dass die Einbeziehung von ’weights’ für eine höhere Genauigkeit bei der Messung von Distanzen unerlässlich ist. Da die in dieser Arbeit verwendeten Datensätze aus zwei verschiedenen Bereichen stammen, spiegeln sie das breite Anwendungsspektrum von Ereignissequenzen wider. Obwohl dieser Ansatz nicht ohne Einschränkungen ist, hat diese Forschung vielversprechende Ergebnisse erzielt und liefert eine Reihe von Themen für die zukünftige Forschung.
Thesis Note
Frankfurt/Main, Univ., Bachelor Thesis, 2025
Advisor(s)