Fraunhofer-Gesellschaft

Publica

Hier finden Sie wissenschaftliche Publikationen aus den Fraunhofer-Instituten.

Extraktion und Visualisierung von Relationen in Textdokumentensammlungen auf der Basis einer Wortfeldanalyse

 
: Duchstein, P.
: May, T.

Darmstadt, 2006, 66 pp.
Darmstadt, TU, Dipl.-Arb., 2006
German
Thesis
Fraunhofer IGD ()
clustering; 3d visualization; data visualization; information visualization; electronic document; document analysis; similarity metric

Abstract
In der Arbeit wird ein System zur Analyse und Visualisierung von Dokumentsammlungen auf Basis einer Wortfeldanalyse konzipiert und vorgestellt. Dazu wird eine Menge von Dokumenten aus einem jeweiligen Quellformat zunächst in Klartexte umgewandelt und Metadaten wie Autor und Titel werden extrahiert; Wörter werden auf die korrespondierenden Stammformen abgebildet. Die Dokumente werden dann in ein Vektorraummodell überführt, so dass für jedes Dokument ein Vektor existiert, welcher aus dessen gewichteten Termen besteht. Zur Dimensionalitätsreduktion dieser Vektoren und somit zur Wortfeldanalyse findet die Methodik des Latent Semantic Indexing (LSI) Anwendung, unter Berücksichtigung verschiedener Methoden zur Singulärwertzerlegung; weitere Methoden für eine Dimensionalitätsreduktion werden untersucht. Verschiedene Ähnlichkeitsmaße zwischen Dokumentpaaren werden vorgestellt und analysiert. Die Visualisierung erfolgt sowohl zwei- als auch dreidimensional mit Hilfe von Self-Organizing Maps (SOM). Die dreidimensionale Darstellung erfolgt unter Zuhilfenahme von Volumenrendering. Als weitere Visualisierungsmethode steht ein Plot der Hauptachsen im reduzierten Vektorraummodell zur Verfügung. Weiterhin können die Dokumente anhand ihrer Ähnlichkeit gruppiert und anhand der Partitionierung in den Visualisierungen farblich dargestellt und somit unterschieden werden. Die im Rahmen dieser Arbeit entstandenen Software soll weitere Verwendung in einem allgemeinen Visual Analytics Framework finden.

 

This work presents a system for analysis and visualization of document collections based on lexical fields. A set of documents in any format is first converted to plain text, extracting metadata such as author and title. Stemming algorithms are applied to the resulting word set to map all words on their corresponding principal forms. The documents are then converted into a vector space model, consisting of a vector with weighted terms for each document. To achieve a reduction of dimensionality, and likewise the extraction of lexical fields, latent semantic indexing (LSI) is used, in consideration of several methods for singular value decomposition. Further methods to achieve a dimensionality reduction are presented. Several similarity measures for pairs of documents within the reduced vector space model are presented and analyzed. Visualization occurs in 2d and 3d, making use of Self-Organizing Maps (SOM) to map documents onto a grid. The three dimensional view is carried out using volume rendering. Another visualization method is a twodimensional plot of principal components. Furthermore, documents can be clustered according to their pairwise similarity; documents within the visualizations can be colored on the basis of these clusters to gain an oversight over the set documents, their classes and their relations. The software resulting from this work shall have further applications in a general Visual Analytics framework.

: http://publica.fraunhofer.de/documents/N-52256.html