Options
2013
Conference Paper
Title
Integrierte Medienerschließung in der Staatsbibliothek zu Berlin
Title Supplement
Ein Praxisbericht über die Digitalisierung dreier DDR-Zeitungen
Other Title
Integrated content analytics at Staatsbibliothek zu Berlin. A report on the digitization of three GDR newspapers
Abstract
Die Staatsbibliothek zu Berlin hat im Rahmen eines von der DFG geförderten Projekts drei DDR-Zeitungen digitalisiert, im Volltext erschlossen und für die wissenschaftliche Forschung frei zugänglich und unentgeltlich zur Verfügung gestellt. Das Projekt wurde im Jahr 2009 begonnen, Anfang 2012 konnten die ersten Jahrgänge und Ende Mai 2013 alle Zeitungen vollständig im Portal "DDR-Presse" präsentiert werden. Die Verarbeitung der Zeitungsdigitalisate wurde vom Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme geleistet. Mit einer speziellen Fraunhofer-Technologie wurden die Seitenbilder in einzelne Artikel segmentiert (Optical Layout Recogniton, OLR) und mit optischer Zeichenerkennung (Optical Character Recognition, OCR) verarbeitet. Anschließend hat der Dienstleister ArchivInForm die erzeugten Volltext- und Metadaten manuell nachbearbeitet. Durch diese Kombination von automatischen und manuellen Verfahren konnten Ergebnisse mit sehr geringen Fehlerquoten erreicht werden.
;
In a project of the German Research Foundation (DFG), the Berlin State Library (Staatsbibliothek zu Berlin) digitized and indexed three GDR newspapers and put them online for scientific researchers free of charge. The project started in 2009, in 2012 first issues were presented and in 2013, the whole content was published on the web portal "DDR-Presse". The Fraunhofer Institute for Intelligent Analysis and Information Systems (IAIS) conducted the automatic indexing of the digitized newpapers. By using a unique technology for optical layout recognition (OLR), the newspaper articles were separated and the text content was extracted by means of optical character recognition (OCR). The project partner ArchivInform performed the manual quality assessment and verified the fulltext and metadata results. As a result, the innovative combination of automatic indexing services and manual quality assessment tools managed the article separation with low failure rates.