Options
2005
Seminar Paper
Title
Automatische und inhaltsbasierte Metadatengenerierung für E-Learning-Inhalte
Abstract
In den vergangenen Jahren war ein enormer Zuwachs der Menge digitaler Textdokumente im Internet und in digitalen Bibliotheken zu beobachten. Um Dokumente leicht wiederzufinden, ist es wichtig beschreibende Informationen (Metadaten) über diese Dokumente zu ermitteln. Diese Studienarbeit befasst sich mit Verfahren der automatischen Language Identification und Schlüsselwortextraktion speziell im Zusammenhang mit E-Learning-Inhalten. Buchstabenfrequenzen finden Einsatz bei der Language Identification. Momentan ist es möglich, die vier europäischen Sprachen Englisch, Französisch, Spanisch und Deutsch zu erkennen. Zur Schlüsselwortextraktion werden linguistische (basierend auf allgemeinen Wörtern) und statistische (basierend auf Wortfrequenzen) Verfahren genutzt.
;
The development of recent years has shown an enormous growth of the digital text document volume on the internet and in digital libraries. To retrieve documents easily it is important to obtain descriptive information (metadata) from these documents. This study deals with approaches of automatic language identification and keyword extraction especially in the domain of e-learning content. Letter frequencies are used for language identification. At present the system identifies the four languages english, french, spanish and german. To identify keywords linguistic (based on common words) and statistic (based on the word frequencies) approaches are used.
Thesis Note
Rostock, Univ., Studienarbeit, 2005
Publishing Place
Rostock