Exploring and Adapting Mining Techniques for Weighted and Multidimensional Sequential Data

Christian, Marvin

2025

Master Thesis

Abstract

This thesis explores and adapts mining techniques tailored to two di􀆯erent types of sequential data: weighted DNA sequences and multidimensional football data. Current pattern mining methods, specialized in these topics, do not account for the specifics introduced in this thesis. In the case of DNA, the challenge lies in the integration of weightings for each element in a sequence, enabling an aggregation of local explanations to global ones. Each weighting corresponds to a part of the local explanation, indicating how important each nucleotide is for classifying the entire DNA sequence. The integration of weights enhances pattern discovery and ultimately o􀆯ers a robust global explanation for each DNA class. For football data, the multi-dimensional aspect and the challenge of balancing a similarity measure, required a specialized methodology to mine patterns e􀆯iciently. The similarity measure is the core problem here, originating from the randomness of sports and the scope of the field, leading to the non-existence of exactly equal patterns. The contributions of this work are twofold. First of all, an adaptation of two sequential pattern mining algorithms, specialized in DNA analysis, are proposed. By marginally sacrificing completeness, this approach optimizes e􀆯iciency and enhances pattern identification, thereby prioritizing high-weight patterns. Secondly, a novel approach for pattern mining in ball-centric football data is introduced. This method applies an innovative similarity measure to determine patterns based on core attributes of football passes. It works on regularly sampled ball-coordinate data, encompassing both the spatial and temporal aspects of the data to e􀆯ectively identify patterns. A comprehensive evaluation reveals significantly di􀆯erent results for both algorithms. Both evaluations indicate that domain-specific methods outperform basic and more generalized approaches. The results of the DNA algorithm confirm the possibility and feasibility of aggregating local explanations into global ones via pattern mining. On the other hand, although the novel football algorithm substantially outperforms basic methods, survey results have critiqued the similarity measure's requirements. Ultimately, both algorithms provide a new view on pattern mining by demonstrating higher accuracy and better results than basic algorithms.

;

In dieser Arbeit werden Muster-Erkennungs-Methoden untersucht und angepasst, welche auf zwei verschiedene Arten von sequentiellen Daten zugeschnitten sind: gewichtete DNA-Sequenzen und multidimensionale Fußballdaten. Aktuelle, auf diese Themen spezialisierte Methoden berücksichtigen die in dieser Arbeit vorgestellten Besonderheiten nicht. Im Falle der DNA liegt die Herausforderung in der Einbindung von Gewichtungen für jedes Element einer Sequenz, was eine Aggregation lokaler Erklärungen zu globalen ermöglicht. Jede Gewichtung entspricht einem Element der lokalen Erklärung und gibt an, wie wichtig jedes Nukleotid für die Klassifizierung der gesamten DNA-Sequenz ist. Die Einbindung der Gewichtungen verbessert die Entdeckung von Mustern und bietet schließlich eine robuste globale Erklärung für jede DNA-Klasse. Der mehrdimensionale Aspekt und die Herausforderung eines Ähnlichkeitsmaßes, erforderten eine spezielle Methodik für die Fußball Daten. Das Kernproblem ist hier das Ähnlichkeitsmaß, das sich aus der Zufälligkeit des Sports und der Größe des Feldes ergibt und dazu führt, dass keine exakt gleichen Muster existieren. Diese Arbeit stellt zwei neue Algorithmen bereit. Als erstes wurden zwei auf die DNA-Analyse spezialisierten Algorithmen an die Gegebenheiten der Thesis angepasst. Durch geringfügige Abstriche bei der Vollständigkeit der Ergebnisse, optimiert dieser Ansatz die Eff􀆯izienz und verbessert die Identifizierung von Mustern, wobei er welche mit hoher Gewichtung bevorzugt. Zweitens wird ein neuartiger Ansatz für die Mustererkennung in ballzentrierten Fußballdaten vorgestellt. Diese Methode verwendet ein innovatives Ähnlichkeitsmaß, um Muster auf der Grundlage von Passattributen zu bestimmen. Sie arbeitet mit Ballkoordinatendaten in regelmäßigen zeit-Abständen und umfasst sowohl die räumlichen als auch die zeitlichen Aspekte der Daten, um Muster eff􀆯ektiv zu identifizieren. Eine umfassende Evaluation zeigt deutlich unterschiedliche Ergebnisse für beide Algorithmen. Beide Auswertungen zeigen, dass domänenspezifische Methoden besser sind als einfache und allgemeinere Ansätze. Die Ergebnisse des DNA-Algorithmus bestätigen die Möglichkeit und den Sinn der Aggregation lokaler Erklärungen zu globalen mittels Mustererkennung. Obwohl der neuartige Fußball-Algorithmus die grundlegenden Methoden deutlich übertri􀆯fft, wurden die Anforderungen an das Ähnlichkeitsmaß in Umfragen kritisiert. Letztendlich bieten beide Algorithmen einen neuen Blickwinkel auf die Mustererkennung, da sie eine höhere Genauigkeit und bessere Ergebnisse als die Basisalgorithmen aufweisen.

Thesis Note

Darmstadt, TU, Master Thesis, 2025

Author(s)

Christian, Marvin

Fraunhofer-Institut für Graphische Datenverarbeitung IGD

Advisor(s)

Kohlhammer, Jörn