Options
2005
Diploma Thesis
Title
Ontologiebasierte Extraktion von Metadaten aus Patenten
Abstract
Das Projekt WIDE beschäftigt sich mit der Problematik, das Wissen eines Unternehmens in einer Form abzuspeichern, in der alle Nutzer ohne größere Probleme alle relevanten Informationen zu jeder Zeit auffinden können. Innerhalb des Projekts erfolgt die Suche nach Dokumenten auf Metadatenebene. Die Metadaten werden hierzu mit RDF beschrieben. Um diese RDF-Beschreibungen automatisch zu erstellen, soll im Rahmen der Diplomarbeit eine Softwarekomponente erstellt werden, die die relevanten Metadaten aus vorgegebenen Dokumenten liest und in eine RDF-Datei schreibt. Die Metadaten erhält die Softwarekomponente von einer Ontologie, die ebenfalls im Rahmen der Diplomarbeit erstellt wird. Die Extraktion der Metadaten soll für zwei Dokumenttypen möglich sein. Die Dokumente liegen in einem Microsoft Word-Format vor. Die Dokumenttypen und die dazugehörenden Metadaten wurden in einer Ontologie modelliert. Hierzu wurde der Ontologieeditor Protégé verwendet. Die Softwarekomponente beinhaltet zwei Algorithmen. Der eine dient dem Auffinden der Metadaten innerhalb der Dokumente, die in eine RDF-Datei geschrieben werden sollen. Er berücksichtigt die unterschiedliche Anordnung der Metadaten innerhalb der Patente und Protokolle. Der zweite Algorithmus kommt zum Einsatz, wenn ein Tabellenknoten gefunden wurde. Er extrahiert diejenigen Metadaten aus der Tabelle, die per E-Mail versendet werden sollen.
Thesis Note
Darmstadt, FH, Dipl.-Arb., 2005
Publishing Place
Darmstadt