Fraunhofer-Gesellschaft

Publica

Hier finden Sie wissenschaftliche Publikationen aus den Fraunhofer-Instituten.

Flexible Multi-Microphone Acquisition and Processing of Spatial Sound Using Parametric Sound Field Representations

Flexible Aufnahme und Verarbeitung von räumlichem Schall mit mehreren Mikrofonen basierend auf parametrischen Schallfeldbeschreibungen
 
: Thiergart, O.

:
Fulltext ()

Erlangen: Friedrich-Alexander-Universität Erlangen-Nürnberg, 2015, 253 pp.
Erlangen-Nürnberg, Univ., Diss., 2015
URN: urn:nbn:de:bvb:29-opus4-67304
English
Dissertation, Electronic Publication
Fraunhofer IIS ()

Abstract
This thesis deals with the efficient and flexible acquisition and processing of spatial sound using multiple microphones. In spatial sound acquisition and processing, we use multiple microphones to capture the sound of multiple sources being simultaneously active at a reverberant recording side and process the sound depending on the application at the application side. Typical applications include source extraction, immersive spatial sound reproduction, or speech enhancement.



A flexible sound acquisition and processing means that we can capture the sound with almost arbitrary microphone configurations without constraining the application at the application side. This means that we can realize and adjust the different applications independently of the microphone configuration used at the recording side. For example in spatial sound reproduction, where we aim at reproducing the sound such that the listener perceives the same impression as if he or she was present at the recording side, the listener can freely adjust the loudspeaker setup at the far-end side independently of how the sound was recorded at the near-end side. In source extraction, where we aim at extracting sounds from specific preferred directions while attenuating interfering sounds from other directions, the user at the application side can freely adjust the preferred direction and extract the sounds with arbitrary spatial responses, which can be adjusted in real-time.



Efficient sound acquisition and processing means that we need to transmit only few audio signals, compared to the number of microphones used, from the recording side to the applications side (e.g., via network or storage media), while still being able to realize the different applications with the flexibility mentioned before. This includes that the recording side has to deal with the major computational load which enables low-power and battery- driven devices at the application side. Alternatively, when the computational complexity at the recording side is heavily restricted, we can transmit the microphones signals to the application side at the expense of higher bandwidth or storage capacity required.
To realize the efficient and flexible sound acquisition and processing, we use a parametric description of the spatial sound. We assume that for each time and frequency, the sound field at the recording location can be decomposed into a sum of a few direct sound components plus a diffuse sound component, where the direct components model the direct sound of the sources while the diffuse component models the reverberation. In contrast to State-Of-the-Art (SOA) approaches in parametric sound processing, we consider multiple direct components per time and frequency to reduce the model violations which strongly limit the performance of the SOA approaches. The direct sounds together with the diffuse sound and parametric side information, namely the Direction-Of-Arrival (DOA) of the direct sounds, form a general and compact description of the spatial sound which can be efficiently transmitted and from which we can realize the different applications mentioned before.



The estimation of the multiple direct sounds and diffuse sound represents one major part of this thesis. The direct sound extraction is carried out using classical single-channel or multi- channel filters. However, these filters are computed using instantaneous information on the underlying parametric sound field model, such as the instantaneous DOA or Diffuse-to-Noise Ratio (DNR). Incorporating this information allows us to obtain filters with the desired spatial response that adapt quickly to changes in the acoustic scene which is paramount in our applications where multiple sources are active at the same time in a reverberant environment. The diffuse sound extraction in the presence of multiple direct sounds is only little addressed in literature and only few single-channel filters are available. Therefore, we develop different optimal single-channel and multi-channel filters which allow us to accurately extract the diffuse sound while reducing the direct sounds and noise. These filters allow us to realize applications where an immersive and natural sound reproduction is highly desired.



Computing the different filters requires to estimate specific parameters of the underlying sound field model. These parameters include the number of sources and their DOA, the direct and diffuse Power Spectral Densities (PSDs), or the DNR and Signal-to-Diffuse Ratio (SDR). The estimation of these parameters represents a second major part of the thesis. The proposed estimators can be efficiently implemented in our parametric framework and provide a higher accuracy than related SOA approaches.



The last part of the thesis deals with the applications that can be realized with the para- metric representation of the spatial sound. We discuss the application to source extraction, immersive spatial sound reproduction, and acoustical zooming. This part of the thesis also contains an extensive evaluation of the different estimators and filters based on simulations and measured data and including listening tests. The experimental results show that with the proposed estimators and filters we can outperform SOA approaches while still obtaining a similar efficiency and flexibility. This enables a huge variety of different applications on up- coming devices such as modern mobile phones, tablets, or television screens, which nowadays are equipped with multiple microphones and connected via network.

 

Diese Arbeit behandelt die flexible und effiziente Aufnahme und Verarbeitung von räumlichen Schall mit mehreren Mikrofonen. Die Mikrofone werden verwendet um den Schall von mehreren, zeitgleich aktiven, Quellen aufzunehmen, welcher dann auf der Anwendungsseite in Abhängigkeit der gewünschten Anwendung verarbeitet wird. Typische Anwendungen, welche hierbei realisiert werden können, sind die Extraktion von Schallquellen, die natürliche Reproduktion von räumlichen Schall, oder Anwendungen zur Sprachverbesserung.



Unter einer flexiblen Aufnahme und Verarbeitung wird verstanden, dass der Schall mit fast beliebigen Mikrofonanordnungen aufgenommen werden kann, ohne dass die Möglichkeiten auf der Anwendungsseite eingeschränkt werden. Das bedeutet, dass verschiedene Anwendungen unabhängig von der verwendeten Mikrofonkonfiguration realisiert und angepasst werden können. Ein entsprechendes Beispiel ist die räumliche Reproduktion von Schall, bei der der Schall so wiedergegeben wird, dass der Hörer oder die Hörerin den selben Klangeindruck wie auf der Aufnahmeseite wahrnimmt. Bei dieser Anwendung ist es wichtig, dass der Schall mit beliebigen Lautsprecherkonfigurationen reproduziert werden kann, unabhängig davon mit welcher Mikrofonanordnung der Schall aufgenommen wurde. Ein weiteres Beispiel ist die Schall-Extraktion, bei der der Schall von gewünschten Richtungen extrahiert und von ungewünschten Richtungen unterdrückt werden soll. Bei dieser Anwendung ist es erwünscht, dass der Benutzer auf der Anwendungsseite beliebig und in Echtzeit definieren kann, wie und von welcher Richtung der Schall extrahiert werden soll.



Unter einer effizienten Aufnahme und Verarbeitung wird verstanden, dass nur eine geringe Anzahl von Audiosignalen, im Vergleich zur Mikrofonanzahl, zur Anwendungsseite übertragen werden muss. Auch mit dieser geringen Anzahl von Audiosignalen soll es möglich sein, die verschiedene Anwendungen mit der erwähnten Flexibilität zu realisieren. Effiziente Aufnahme und Verarbeitung meint auch, dass die Anwendungsseite den Hauptanteil der Rechenlast trägt. Dies ermöglicht den Einsatz von batteriebetriebenen Geräten mit geringer Rechenleistung auf der Anwendungsseite. Alternativ, wenn die Rechenleistung auf der Aufnahmeseite beschränkt ist, dann können die Mikrofonsignale unverarbeitet zur Anwendungsseite übertragen werden, was allerdings eine höhere Bandbreite zur Datenübertragung benötigt.
Um die flexible und effiziente Aufnahme und Verarbeitung von räumlichen Schall zu realisieren wird eine parametrische Beschreibung von räumlichen Schall verwendet. Dabei wird angenommen, dass das Schallfeld für jede Zeit und Frequenz in eine Summe aus wenigen Direktschallkomponenten und einer Diffusschallkomponente zerlegt werden kann. Hiebei modellieren die Direktschallkomponenten den Direktschall der Quellen, wohingegen die Diffusschallkomponente den Nachhall der Aufnahmeumgebung abbildet. Im Gegensatz zu bereits existierenden Verfahren wird angenommen, dass mehrere Direktschallkomponenten pro Zeit und Frequenz den Direktschall bilden. Dies hilft Modellverletzungen zu reduzieren, welche sich negative auf die bisherigen Verfahren auswirken. Die Direktschallkomponenten und die Diffusschallkomponente bilden zusammen mit der parametrischen Seiteninformation, welche aus den Ausbreitungsrichtungen des Direktschalls besteht, eine kompakte Beschreibung des räumlichen Schalls. Diese Schallfeldbeschreibung kann effizient übertragen und flexibel verwendet werden, um die verschiedenen, eingangs erwähnten, Anwendungen zu realisieren.



Die Extraktion des Direktschalls und des Diffusschalls bildet einen Hauptschwerpunkt der Arbeit. Die Direktschallkomponenten werden mit Einkanal- oder Mehrkanal-Filtern extrahiert. Diese Filter werden mit instantanen Informationen über das zugrundeliegende Schallfeldmodell, beispielsweise die instantanen Schallrichtung oder das instantane Leistungsverhältnis von Diffusschall und Rauschen, berechnet. Das Berücksichtigen dieser Informationen ermöglicht es Filter zu realisieren, welche die gewünschte Raumantwort besitzen und unverzüglich auf Änderungen in der akustischen Umgebung reagieren. Dies stellt eine entscheidende Eigenschaft für Anwendungen dar, in denen mehrere Schallquellen zeitgleich in Umgebungen mit Nachhall aktiv sind. Zur Extraktion des Diffusschalls sind bisher nur wenige Ansätze verfügbar. Aus diesem Grund werden verschiedene, optimale Einkanal- und Mehrkanal-Filter entwickelt, welche eine akkurate Extraktion des Diffusschalls ermöglichen.



Das Berechnen der verschiedenen Filter erfordert es, dass bestimmte Parameter des zugrundeliegenden Schallfeldmodells bestimmt werden. Dabei handelt es sich beispielsweise um die Anzahl der aktiven Quellen, die Ausbreitungsrichtungen des Schalls, oder die Leistungsdichten des Direktschalls und Diffussschalls. Die Schätzung dieser Parameter stellt einen zweiten wichtigen Teil dieser Arbeit dar. Die vorgestellten Schätzverfahren bieten eine hohe Genauigkeit und lassen sich effizient in das betrachtete parametrische Verfahren einbinden.
Der letzte Abschnitt der Arbeit behandelt verschiedene Anwendungen, welche mittels der parametrischen Schallfeldbeschreibung realisiert werden können. Bei den vorgestellten Anwendungen handelt es sich um die Extraktion gewünschter Schallquellen, die natürliche Schallwiedergabe, und den sogenannten akustischen Zoom. Dieser Abschnitt der Arbeit beinhaltet zudem eine ausführliche Evaluierung der vorgestellten Schätzverfahren und Filter, auch basierend auf Hörtests. Die experimentellen Ergebnisse zeigen, dass mit den vorgeschlagenen Schätzverfahren und Filtern vorhandene Ansätze mit ähnlicher Flexibilität und Effizienz verbessert werden können. Dies ermöglicht es, eine Vielzahl von Anwendungen für neuartige Geräte zu entwickeln, beispielsweise für moderne Mobiltelefone, Tabletcomputer oder Fernsehgeräte, welche zukünftig mit mehreren Mikrofonen bestückt und mittels Netzwerkübertragung untereinander verbunden sind.

: http://publica.fraunhofer.de/documents/N-405078.html