Now showing 1 - 1 of 1
  • Publication
    An incremental approach to document structure recognition
    (GMD Forschungszentrum Informationstechnik, 1998)
    Xu, Y.
    ;
    Neuhold, E.J.
    ;
    Encarnacao, J.L.
    Verschiedene elektronische Informationsquellen bieten ihre Dokumente in unterschiedlicher Form an. Insbesondere ihre Struktur ist oft nur in anbieterspezifischem Format verfügbar. Für die weitere Bearbeitung, den Austausch und die Archivierung muß diese Struktur extrahiert werden. Diese Dissertation entwickelt einen Ansatz zur automatischen Erkennung der Struktur von elektronischen Dokumenten auf Basis von nur wenigen, manuell strukturierten Beispielsdokumenten. Dazu wird eine regelorientierte Sprache zur Spezifikation von Erkennungsprogrammen eingeführt. Auf dieser Basis werden Techniken des maschinellen Lernens - Versionsraum und Grammatik-Inferenz - entwickelt, die Erkennungsprogramme aus Beispielen generieren.