• English
  • Deutsch
  • Log In
    Password Login
    Research Outputs
    Fundings & Projects
    Researchers
    Institutes
    Statistics
Repository logo
Fraunhofer-Gesellschaft
  1. Home
  2. Fraunhofer-Gesellschaft
  3. Abschlussarbeit
  4. Methodenvergleich zur Vektorisierung akademischer Expertise aus einem beispielhaften Wissensgraphen
 
  • Details
  • Full
Options
October 20, 2025
Bachelor Thesis
Title

Methodenvergleich zur Vektorisierung akademischer Expertise aus einem beispielhaften Wissensgraphen

Title Supplement
Ein empirischer Vergleich symbolischer und subsymbolischer Verfahren anhand eines realen Neo4j-Wissensgraphen
Abstract
Die vorliegende Arbeit vergleicht verschiedene Verfahren zur personenbasierten Vektorisierung akademischer Expertise. Die Datenbasis bildet ein Neo4j-Wissensgraph aus realen wissenschaftlichen Publikationen und Werken. Untersucht werden die Methoden TF-IDF, Word2Vec, SciBERT sowie Node2Vec. Bei der Analyse wird zwischen zwei Textquellen (Keywords, Abstracts) und zwei Aggregationsebenen (Dokument, Person) unterschieden. Die Evaluation erfolgt mit k-Means Clustering, basierend auf zwei verschiedenen Ursprungs k, externen Validitätsmaßen und Retrieval-Metriken. SciBERT liefert konsistent die höchste Übereinstimmung und Retrieval-Qualität. Word2Vec ist eine robuste und effiziente Alternative. TF-IDF bleibt hingegen generischer. Node2Vec erfasst die strukturelle Nähe wie Co-Autorenschaft oder den Zusammenhang über eine Institution, ist allein für thematische Profilierung allerdings ungeeignet. Semantische Aspekte werden über kontextuelle Einbettungen und die qualitative Plausibilisierung der Personen-Keywords reflektiert. Klare Domänen wie bspw. Erdwissenschaften trennen sich gut, breite Felder wie bspw. Sozialwissenschaften zeigen durchmischte Cluster und weite Streuung. Typische Überlappungen bei den analysierten Clustern betreffen Biologie und Medizin sowie Informatik und Ingenieurwissenschaften. Effizienz und Skalierbarkeit erfordern einen Trade-off, SciBERT ist rechenintensiver als die anderen Modelle, zeigt aber generell bessere Ergebnisse. Eine Erweiterung der Labelanzahl sollte die Trennschärfe erhöhen und clusterübergreifende Gebiete sichtbar machen. Zur Bias-Kontrolle werden Volumen-kontollierte Tests skizziert. Für eine praxisnahe Anwendung empfiehlt sich die Priorisierung von Keywords, dabei sollte SciBERT für präzise Domänenerkennung und ein hybrider Ansatz mit Node2Vec für strukturelle Beziehungen verwendet werden.
Thesis Note
Bonn, Hochschule, Bachelor Thesis, 2025
Author(s)
Bernards, Tim
Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI  
Advisor(s)
Jacobs, Marc  
Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI  
Language
German
Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI  
Fraunhofer Group
Fraunhofer-Verbund IUK-Technologie  
Keyword(s)
  • Wissensgraph

  • Natural Language Processing

  • Vektor Embeddings

  • Clustering

  • Cookie settings
  • Imprint
  • Privacy policy
  • Api
  • Contact
© 2024