Options
2016
Conference Paper
Title
Sprachaktivitätserkennung basierend auf Deep Neural Networks für Anwendung in Film und Fernsehen
Abstract
Im Bereich Film und Fernsehen ist häufig eine automatische Bewertung der Sprachverständlichkeit wünschenswert, die jedoch mit heute verfügbaren Werkzeugen nicht allgemeingültig realisierbar ist. Eine wesentliche Voraussetzung hierfür ist es die Anteile des Audiomaterials mit aktiver Sprache zuverlässig zu erkennen. In diesem Beitrag wird daher eine auf deep neural networks (DNN) basierende, automatische Erkennung von Sprachaktivität mit authentischem Fernsehaudiomaterial evaluiert. Dabei werden zwei grundsätzliche Anwendungsfälle unterschieden: im ersten, vermeintlich einfachen Anwendungsfall werden Stems analysiert, die als Sprach- Stem kategorisiert sind, d.h. nur Sprachanteile enthalten sollten, aufnahmebedingt jedoch auch Störgeräusche enthalten können. Im zweiten Anwendungsfall werden gemischte Audiosignale analysiert, die aufgrund der extrem großen Variabilität von möglichen Nebengeräuschen in Film und Fernsehen (Musik, Effekte, Nachhall, Atmosphäre) eine besondere Herausforderung darstellen. Im vorgestellten DNN-basierten Ansatz zur Sprachaktivitätserkennung werden zwei Möglichkeiten untersucht, um die zeitliche Dynamik von Sprache mit einem DNN zu verarbeiten. Im ersten Fall wird Vorwissen über die menschliche Verarbeitung von Amplituden-Modulationsfrequenzen ausgenutzt, im zweiten Fall werden die zeitlichen Eigenschaften von Sprache ausschließlich über maschinelle Lernverfahren erlernt. Der Vergleich des neu entwickelten Ansatzes mit etablierten Verfahren zeigt, dass besonders bei instationären Nebengeräuschen eine erhebliche Verbesserung der Erkennungsleistung erreicht werden kann, was zukünftig als Vorstufe zur verbesserten Messung der Sprachverständlichkeit eingesetzt werden soll.
Conference