Fraunhofer-Gesellschaft

Publica

Hier finden Sie wissenschaftliche Publikationen aus den Fraunhofer-Instituten.

Ontologiebasierte Extraktion von Metadaten aus Patenten

 
: Jäger, S.
: Sevilmis, N.

Darmstadt, 2005
Darmstadt, FH, Dipl.-Arb., 2005
Deutsch
Diplomarbeit
Fraunhofer IGD ()
Ontologie; metadata; algorithm; resource description framework (RDF); XML

Abstract
Das Projekt WIDE beschäftigt sich mit der Problematik, das Wissen eines Unternehmens in einer Form abzuspeichern, in der alle Nutzer ohne größere Probleme alle relevanten Informationen zu jeder Zeit auffinden können. Innerhalb des Projekts erfolgt die Suche nach Dokumenten auf Metadatenebene. Die Metadaten werden hierzu mit RDF beschrieben.
Um diese RDF-Beschreibungen automatisch zu erstellen, soll im Rahmen der Diplomarbeit eine Softwarekomponente erstellt werden, die die relevanten Metadaten aus vorgegebenen Dokumenten liest und in eine RDF-Datei schreibt. Die Metadaten erhält die Softwarekomponente von einer Ontologie, die ebenfalls im Rahmen der Diplomarbeit erstellt wird.
Die Extraktion der Metadaten soll für zwei Dokumenttypen möglich sein. Die Dokumente liegen in einem Microsoft Word-Format vor. Die Dokumenttypen und die dazugehörenden Metadaten wurden in einer Ontologie modelliert. Hierzu wurde der Ontologieeditor Protégé verwendet.
Die Softwarekomponente beinhaltet zwei Algorithmen. Der eine dient dem Auffinden der Metadaten innerhalb der Dokumente, die in eine RDF-Datei geschrieben werden sollen. Er berücksichtigt die unterschiedliche Anordnung der Metadaten innerhalb der Patente und Protokolle. Der zweite Algorithmus kommt zum Einsatz, wenn ein Tabellenknoten gefunden wurde. Er extrahiert diejenigen Metadaten aus der Tabelle, die per E-Mail versendet werden sollen.

: http://publica.fraunhofer.de/dokumente/N-29263.html