Fraunhofer-Gesellschaft

Publica

Hier finden Sie wissenschaftliche Publikationen aus den Fraunhofer-Instituten.

Automatisierte Kontexterkennung in textbasierten Kommunikationsmedien

 
: Müller, Nico
: Aehnelt, Mario

Rostock, 2008, 91 S.
Rostock, Univ., Dipl.-Arb., 2008
Deutsch
Diplomarbeit
Fraunhofer IGD ()
natural language processing; content analysis; information retrieval; language identification; text segmentation; clustering; indexing

Abstract
Die zwischenmenschliche Kommunikation ist ein wesentlicher Bestandteil des Lernens im täglichen Leben. Diese Unterhaltungen können beispielsweise von Angesicht zu Angesicht oder im virtuellen Raum stattfinden. Eine Kommunikation mittels Computer wird meist in Form von Log-Dateien mitgeschnitten.
In dieser Arbeit wird ein Verfahren vorgestellt, dass es ermöglicht, die verschiedenen Themen in diesen Protokollen zu erkennen und die wesentlichen Kommunikationsabschnitte auszugeben. Dies kann dazu genutzt werden, um private Gesprächsteile automatisiert zu entfernen und den fachbezogenen Teil einem erweiterten Personenkreis zugänglich zu machen.
Ein ähnliches Problem stellt sich bei der Analyse von Nachrichten-Threads. Auch hier lassen sich unterschiedliche Themengebiete in einem Dokument finden. Zur Lösung dieses Problems wurden Methoden der Spracherkennung, Textsegmentierung, Textclustering und der Textkategorisierung betrachtet und ein Konzept entwickelt, das ein zu analysierendes Textdokument in seine Themenbereiche aufspaltet und diese mit Hilfe einer Ontologie identifiziert. Das vorgestellte Verfahren ist derzeit nur auf Texte in englischer Sprache ausgerichtet, kann aber um weitere Sprachen erweitert werden.

 

Communication is an important part of learning in the daily life. Conversations may happen for instance face-to-face, or in virtual spaces like e-mail exchanges, news groups or live chats. A communication using computers is usually recorded into special log files. This thesis presents a method that allows the detection of topics in those log files, and to extract the important sections of the communication. This can be used to remove private parts of the communications and provide the relevant parts to a bigger audience.
A similar problem exists in the analysis of message threads. A single document may contain multiple topics.
Methods of speech recognition as well as text segmentation, clustering, and categorisation have been evaluated and used to create a new method that splits such documents into parts, and identifies the topics of these parts using an ontology. The presented method is currently targeted at texts in English language, but can be extended further to support different languages.

: http://publica.fraunhofer.de/dokumente/N-75173.html