Automatisierte Kontexterkennung in textbasierten Kommunikationsmedien

Müller, Nico

2008

Diploma Thesis

Abstract

Die zwischenmenschliche Kommunikation ist ein wesentlicher Bestandteil des Lernens im täglichen Leben. Diese Unterhaltungen können beispielsweise von Angesicht zu Angesicht oder im virtuellen Raum stattfinden. Eine Kommunikation mittels Computer wird meist in Form von Log-Dateien mitgeschnitten. In dieser Arbeit wird ein Verfahren vorgestellt, dass es ermöglicht, die verschiedenen Themen in diesen Protokollen zu erkennen und die wesentlichen Kommunikationsabschnitte auszugeben. Dies kann dazu genutzt werden, um private Gesprächsteile automatisiert zu entfernen und den fachbezogenen Teil einem erweiterten Personenkreis zugänglich zu machen. Ein ähnliches Problem stellt sich bei der Analyse von Nachrichten-Threads. Auch hier lassen sich unterschiedliche Themengebiete in einem Dokument finden. Zur Lösung dieses Problems wurden Methoden der Spracherkennung, Textsegmentierung, Textclustering und der Textkategorisierung betrachtet und ein Konzept entwickelt, das ein zu analysierendes Textdokument in seine Themenbereiche aufspaltet und diese mit Hilfe einer Ontologie identifiziert. Das vorgestellte Verfahren ist derzeit nur auf Texte in englischer Sprache ausgerichtet, kann aber um weitere Sprachen erweitert werden.

;

Communication is an important part of learning in the daily life. Conversations may happen for instance face-to-face, or in virtual spaces like e-mail exchanges, news groups or live chats. A communication using computers is usually recorded into special log files. This thesis presents a method that allows the detection of topics in those log files, and to extract the important sections of the communication. This can be used to remove private parts of the communications and provide the relevant parts to a bigger audience. A similar problem exists in the analysis of message threads. A single document may contain multiple topics. Methods of speech recognition as well as text segmentation, clustering, and categorisation have been evaluated and used to create a new method that splits such documents into parts, and identifies the topics of these parts using an ontology. The presented method is currently targeted at texts in English language, but can be extended further to support different languages.

Thesis Note

Rostock, Univ., Dipl.-Arb., 2008

Author(s)

Müller, Nico

Advisor(s)

Aehnelt, Mario

Fraunhofer-Institut für Graphische Datenverarbeitung IGD

Publishing Place

Rostock

Options

Automatisierte Kontexterkennung in textbasierten Kommunikationsmedien