Zeitliche Alignierung von Audiodaten und Transkripten mit Abweichungen

Turzynski, Juliane

doi:10.24406/publica-fhg-281811

2017

Master Thesis

Abstract

Die folgende Arbeit beschäftigt sich mit der Alignierung von Audiodateien und Transkripten mit Abweichungen. Der Begriff "Abweichung" beschreibt in diesem Zusammenhang, dass der gesprochene Text aus der Audiodatei nicht zwingend die selben Wörter widerspiegeln muss wie es das Transkript tut. Das im Rahmen dieser Arbeit entwickelte System soll es ermöglichen die Stellen im Transkript kenntlich zu machen, die mit dem gesprochenen Text in der Audiodatei übereinstimmen. Die Kenntlichmachung erfolgt dabei mit Hilfe von Zeitmarken, die angeben, wann und wie lange ein Wort in der Audiodatei gesprochen wurde. Für die Ermittlung der Wörter und den dazugehörigen Zeitmarken wird der vom Fraunhofer Institut für intelligente Analyse und Informationssysteme entwickelte Spracherkenner verwendet. Die Zuweisung der Zeitmarken zu den entsprechenden Wörter im Transkript erfolgt durch einen Faktorautomaten. Hierbei handelt es sich um einen speziellen endlichen Automaten, dessen Zustände die Wärter in dem Transkript repräsentieren. Durch die Verwendung eines solchen Automaten für die Alignierung des Transkript, wird der Spracherkenner dazu gezwungen, nur die Wörter zu erkennen, die auch im Transkript vorhanden sind. Eine Evaluation dieses Systems zeigt, dass das im Rahmen dieser Arbeit entwickelte System in Kombination mit dem von Fraunhofer Institut für intelligente Analyse- und Informationssysteme entwickelten Spracherkenner eine Alignierungsgenauigkeit von 91% erzielt.

Thesis Note

Köln, TH, Master Thesis, 2017

Author(s)

Turzynski, Juliane

Person Involved

Pörschmann, Christoph

Schmidt, Christoph Andreas

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Publishing Place

Köln

Options

Zeitliche Alignierung von Audiodaten und Transkripten mit Abweichungen