Fraunhofer-Gesellschaft

Publica

Hier finden Sie wissenschaftliche Publikationen aus den Fraunhofer-Instituten.

Semantische Annotation von Dokumenten in verteilten Unternehmensdatenquellen zur Verbesserung ihrer Durchsuchbarkeit

 
: Wunderlich, Tobias
: Müller, Andreas; Ruth, Thomas

Rostock, 2012, 113 S.
Rostock, Univ., Dipl.-Arb., 2012
Deutsch
Diplomarbeit
Fraunhofer IGD ()
natural language processing; semantic search; indexing; Business Field: Visual decision support; Business Field: Digital society; Research Area: Generalized digital documents

Abstract
Das Ziel dieser Arbeit war das am Fraunhofer Institut für Graphische Datenverarbeitung (IGD) eingesetzte Enterprise-Search-System mit einem Ansatz zur semantischen Verknüpfung von Dokumenten zu erweitern um die Suchunterstützung zu verbessern. Dazu wurde zunächst ein Konzept zur Erkennung und Klassifizierung von Eigennamen in Dokumenten und deren Visualisierung innerhalb der Suchplattform erstellt. Dafür wurden Eigennamensklassen definiert, die potentiell zu einer Suchverbesserung beitragen können. Auf Basis eines bestehenden regelbasierten Ansatzes der Named Enitity Recognition (NER) wurde ein eigenes System mit Fokus auf die Unterstützung von Dokumenten des IGD erstellt. Dieser wurde dann in die Indexierungspipeline der Suchplattform integriert, um dem Nutzer nach einer Suchanfrage alle in den Ergebnisdokumenten enthaltenen Eigennamen als Facetten darstellen zu können. Den Abschluss dieser Arbeit bildet eine Evaluation des eigenen NER-Systems und ein Vergleich mit bestehenden Ansätzen.

 

The goal of this thesis was to create an extension for the Enterprise-Search-System of the Fraunhofer Institute for Computer Graphics Research (IGD), enabling the semantical linking of documents to improve the overall search-quality. For this purpose a concept for recognition and classification of proper names and for their visualization within the search-platform was created. Additionally, classes of proper names were identified, depending on their potential to improve search-quality. Based on an existing rule-based approach of Named Entity Recognition (NER), a new NER-Application, focussed on characteristical documents used at the IGD, was developed. To be able to use the identified proper names as facets in the search-platform, the own NER-approach was integrated into the indexing-pipeline of the search-platform. At the end, the own NER-approach was evaluated and compared to other existing NER-approaches.

: http://publica.fraunhofer.de/dokumente/N-229239.html