• English
  • Deutsch
  • Log In
    Password Login
    Research Outputs
    Fundings & Projects
    Researchers
    Institutes
    Statistics
Repository logo
Fraunhofer-Gesellschaft
  1. Home
  2. Fraunhofer-Gesellschaft
  3. Konferenzschrift
  4. Sprachaktivitätserkennung basierend auf Deep Neural Networks für Anwendung in Film und Fernsehen
 
  • Details
  • Full
Options
2016
Conference Paper
Title

Sprachaktivitätserkennung basierend auf Deep Neural Networks für Anwendung in Film und Fernsehen

Abstract
Im Bereich Film und Fernsehen ist häufig eine automatische Bewertung der Sprachverständlichkeit wünschenswert, die jedoch mit heute verfügbaren Werkzeugen nicht allgemeingültig realisierbar ist. Eine wesentliche Voraussetzung hierfür ist es die Anteile des Audiomaterials mit aktiver Sprache zuverlässig zu erkennen. In diesem Beitrag wird daher eine auf deep neural networks (DNN) basierende, automatische Erkennung von Sprachaktivität mit authentischem Fernsehaudiomaterial evaluiert. Dabei werden zwei grundsätzliche Anwendungsfälle unterschieden: im ersten, vermeintlich einfachen Anwendungsfall werden Stems analysiert, die als Sprach- Stem kategorisiert sind, d.h. nur Sprachanteile enthalten sollten, aufnahmebedingt jedoch auch Störgeräusche enthalten können. Im zweiten Anwendungsfall werden gemischte Audiosignale analysiert, die aufgrund der extrem großen Variabilität von möglichen Nebengeräuschen in Film und Fernsehen (Musik, Effekte, Nachhall, Atmosphäre) eine besondere Herausforderung darstellen. Im vorgestellten DNN-basierten Ansatz zur Sprachaktivitätserkennung werden zwei Möglichkeiten untersucht, um die zeitliche Dynamik von Sprache mit einem DNN zu verarbeiten. Im ersten Fall wird Vorwissen über die menschliche Verarbeitung von Amplituden-Modulationsfrequenzen ausgenutzt, im zweiten Fall werden die zeitlichen Eigenschaften von Sprache ausschließlich über maschinelle Lernverfahren erlernt. Der Vergleich des neu entwickelten Ansatzes mit etablierten Verfahren zeigt, dass besonders bei instationären Nebengeräuschen eine erhebliche Verbesserung der Erkennungsleistung erreicht werden kann, was zukünftig als Vorstufe zur verbesserten Messung der Sprachverständlichkeit eingesetzt werden soll.
Author(s)
Baumgartner, Hannah
Moritz, Niko
Drefs, Jakob
Rennies, Jan  
Mainwork
Fortschritte der Akustik. DAGA 2016. DVD-ROM  
Conference
Jahrestagung für Akustik (DAGA) 2016  
Language
German
Fraunhofer-Institut für Digitale Medientechnologie IDMT  
  • Cookie settings
  • Imprint
  • Privacy policy
  • Api
  • Contact
© 2024