• English
  • Deutsch
  • Log In
    or
  • Research Outputs
  • Projects
  • Researchers
  • Institutes
  • Statistics
Repository logo
Fraunhofer-Gesellschaft
  1. Home
  2. Fraunhofer-Gesellschaft
  3. Konferenzschrift
  4. Sprachaktivitätserkennung basierend auf Deep Neural Networks für Anwendung in Film und Fernsehen
 
  • Details
  • Full
Options
2016
  • Konferenzbeitrag

Titel

Sprachaktivitätserkennung basierend auf Deep Neural Networks für Anwendung in Film und Fernsehen

Abstract
Im Bereich Film und Fernsehen ist häufig eine automatische Bewertung der Sprachverständlichkeit wünschenswert, die jedoch mit heute verfügbaren Werkzeugen nicht allgemeingültig realisierbar ist. Eine wesentliche Voraussetzung hierfür ist es die Anteile des Audiomaterials mit aktiver Sprache zuverlässig zu erkennen. In diesem Beitrag wird daher eine auf deep neural networks (DNN) basierende, automatische Erkennung von Sprachaktivität mit authentischem Fernsehaudiomaterial evaluiert. Dabei werden zwei grundsätzliche Anwendungsfälle unterschieden: im ersten, vermeintlich einfachen Anwendungsfall werden Stems analysiert, die als Sprach- Stem kategorisiert sind, d.h. nur Sprachanteile enthalten sollten, aufnahmebedingt jedoch auch Störgeräusche enthalten können. Im zweiten Anwendungsfall werden gemischte Audiosignale analysiert, die aufgrund der extrem großen Variabilität von möglichen Nebengeräuschen in Film und Fernsehen (Musik, Effekte, Nachhall, Atmosphäre) eine besondere Herausforderung darstellen. Im vorgestellten DNN-basierten Ansatz zur Sprachaktivitätserkennung werden zwei Möglichkeiten untersucht, um die zeitliche Dynamik von Sprache mit einem DNN zu verarbeiten. Im ersten Fall wird Vorwissen über die menschliche Verarbeitung von Amplituden-Modulationsfrequenzen ausgenutzt, im zweiten Fall werden die zeitlichen Eigenschaften von Sprache ausschließlich über maschinelle Lernverfahren erlernt. Der Vergleich des neu entwickelten Ansatzes mit etablierten Verfahren zeigt, dass besonders bei instationären Nebengeräuschen eine erhebliche Verbesserung der Erkennungsleistung erreicht werden kann, was zukünftig als Vorstufe zur verbesserten Messung der Sprachverständlichkeit eingesetzt werden soll.
Author(s)
Moritz, Niko
Drefs, Jakob
Baumgartner, Hannah
Rennies-Hochmuth, Jan
Hauptwerk
Fortschritte der Akustik. DAGA 2016. DVD-ROM
Konferenz
Jahrestagung für Akustik (DAGA) 2016
Thumbnail Image
Language
Deutsch
google-scholar
IDMT
  • Cookie settings
  • Imprint
  • Privacy policy
  • Api
  • Send Feedback
© 2022