Methodenvergleich zur Vektorisierung akademischer Expertise aus einem beispielhaften Wissensgraphen

Bernards, Tim

October 20, 2025

Bachelor Thesis

Abstract

Die vorliegende Arbeit vergleicht verschiedene Verfahren zur personenbasierten Vektorisierung akademischer Expertise. Die Datenbasis bildet ein Neo4j-Wissensgraph aus realen wissenschaftlichen Publikationen und Werken. Untersucht werden die Methoden TF-IDF, Word2Vec, SciBERT sowie Node2Vec. Bei der Analyse wird zwischen zwei Textquellen (Keywords, Abstracts) und zwei Aggregationsebenen (Dokument, Person) unterschieden. Die Evaluation erfolgt mit k-Means Clustering, basierend auf zwei verschiedenen Ursprungs k, externen Validitätsmaßen und Retrieval-Metriken. SciBERT liefert konsistent die höchste Übereinstimmung und Retrieval-Qualität. Word2Vec ist eine robuste und effiziente Alternative. TF-IDF bleibt hingegen generischer. Node2Vec erfasst die strukturelle Nähe wie Co-Autorenschaft oder den Zusammenhang über eine Institution, ist allein für thematische Profilierung allerdings ungeeignet. Semantische Aspekte werden über kontextuelle Einbettungen und die qualitative Plausibilisierung der Personen-Keywords reflektiert. Klare Domänen wie bspw. Erdwissenschaften trennen sich gut, breite Felder wie bspw. Sozialwissenschaften zeigen durchmischte Cluster und weite Streuung. Typische Überlappungen bei den analysierten Clustern betreffen Biologie und Medizin sowie Informatik und Ingenieurwissenschaften. Effizienz und Skalierbarkeit erfordern einen Trade-off, SciBERT ist rechenintensiver als die anderen Modelle, zeigt aber generell bessere Ergebnisse. Eine Erweiterung der Labelanzahl sollte die Trennschärfe erhöhen und clusterübergreifende Gebiete sichtbar machen. Zur Bias-Kontrolle werden Volumen-kontollierte Tests skizziert. Für eine praxisnahe Anwendung empfiehlt sich die Priorisierung von Keywords, dabei sollte SciBERT für präzise Domänenerkennung und ein hybrider Ansatz mit Node2Vec für strukturelle Beziehungen verwendet werden.

Thesis Note

Bonn, Hochschule, Bachelor Thesis, 2025

Author(s)

Bernards, Tim

Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI

Advisor(s)

Jacobs, Marc

Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI

Options

Methodenvergleich zur Vektorisierung akademischer Expertise aus einem beispielhaften Wissensgraphen