From acoustic mismatch towards blind acoustic model selection in automatic speech recognition

Winkler, Thomas

2013

Doctoral Thesis

Abstract

Acoustic distortion and acoustic mismatch are two of the most critical aspects influencing automatic speech recognition. A speech signal recorded from a speaker in a certain acoustic environment compared to a signal from the same utterance recorded under different acoustic conditions can have very different characteristics. Acoustic features used for automatic speech recognition are not ideal and also incorporate such acoustic influences in addition to the information relevant for speech recognition. While distortion of the signal caused by difficult acoustic conditions already reduces the recognition accuracy, additional acoustic mismatch in case of a system trained in one particular acoustic condition and used under different acoustic conditions further decreases the performance. In thi s work we offer a detailed analysis of the influences of various sources of acoustic distortion and acoustic mismatch from additive noise, microphone characteristics towards coding and transmission channel effects. We evaluate and understand their influence on the speech signal, the extracted features, and the speech recognition performance in matched and mismatched conditions. For this purpose we introduce several speech and noise corpora appropriate for evaluating these aspects. Two of these corpora are purposely designed and recorded for the presented evaluations. In particular the MoveOn Corpus offers an evaluation corpus of realistic noisy speech generally useful for research on robust automatic speech recognition beyond the scope of this thesis. Thus, design decisions and corpus deve lopment are detailed for this corpus. Based on the presented speech corpora we analyse various acoustic conditions and show the effects of even small changes in the speech signal, which can have a significant influence on the extracted speech features and the recognition performance. The changes in features can be quite manifold and are dependent on the particular distortion and other parameters as we will discuss in detail. Thus, such changes are usually difficult to simulate or compensate by a universal approach. As features and acoustic models commonly used for automatic speech recognition inevitably inherit part of the information on the acoustic conditions we propose and evaluate a new multi-model approach selecting a best matching set out of several sets of well adapted acoustic mo dels solely based on the extracted features and the acoustic models. We call this approach blind acoustic model selection as it works completely blind neither incorporating additional knowledge nor any particular assumption about the type of acoustic distortion. For improved processing speed we further suggest to use a compact representation of each set of acoustic models instead of the full set. The results indicate, that the theoretical performance clearly outperforms commonly used multi-conditional acoustic models. In case of an appropriate selection of the sets of acoustic models comparable or even improved results compared to multi-conditional acoustic models are also achieved in practice with our proposed approach.

;

Akustische Störungen und akustische Fehlanpassungen sind zwei der kritischsten Einflüsse auf die Automatische Spracherkennung. Ein Sprachsignal, das von einem Sprecher in einer bestimmten akustischen Umgebung aufgenommen wurde, kann deutlich unterschiedliche Signalcharakteristiken zu einem Sprachsignal der selben Äußerung aus einer anderen akustischen Umgebung aufweisen. Akustische Merkmale, die für eine Automatische Spracherkennung verwendet werden, sind nicht ideal und beinhalten zusätzlich zu den entscheidenen Merkmalen für eine Spracherkennung auch solche Störeinflüsse. Während diese Störeinflüsse ansich bereits eine Verschlechterung der Spracherkennung in gestörten akustischen Umgebungen bewirken, ist eine akustische Fehlanpassung der Spracherkennung ein noch gravierenderes Problem. Eine solche Fehlanpassung tritt dann auf, wenn ein System auf Sprache in bestimmten akustische Bedingungen trainiert wurde, aber unter anderen akustischen Bedingungen eingesetzt wird. In dieser Arbeit analysieren wir detailliert Einflüsse verschiedenartiger Störquellen und damit verbundener Fehlanpassungen von Hintergrundgeräuschen, über Mikrofoncharakteristiken bis hin zu Kodier- und Kanalübertragungseinflüssen. Dabei werden die unterschiedlichen Einflüsse in Hinblick auf Veränderungen des Sprachsignals, der extrahierten Merkmale und der Spracherkennungsergebnisse sowohl unter angepassten als auch fehlangepassten Bedingungen genau analysiert und bewertet. Für diesen Zweck stellen wir verschiedene Evaluationskorpora vor. Zwei der Korpora wurden für die genannten Untersuchungen entwickelt. Dabei ist insbesondere der MoveOn-Korpus zu nennen, der unterschiedlich gestörte und verzerrte Sprachsignale zur Verfügung stellt und in dieser Arbeit eine zentrale Rolle spielt. Design und Entwicklung dieses Korpus werden daher detailliert vorgestellt. Bei der Untersuchung der genannten akustischer Störungen zeigt sich unter anderem, dass bereits geringe Störungen unter Umständen signifikante Auswirkungen auf die extrahierten Merkmale und die Automatische Spracherkennung haben können. Zudem sind die Auswirkungen der Störungen auf Signale und insbesondere Merkmale sehr unterschiedlich und stark abhängig von verschiedenen Parametern. Aufgrund der Komplexität besti mmter Einflüsse ist ein allgemeiner Ansatz zur Simulation oder Kompensation der Störungen kaum möglich. Da jedoch sowohl die Merkmale als auch die akustischen Modelle, die für die Spracherkennung verwendet werden, unweigerlich einen Teil der Informationen über die akustische Störung mit aufnehmen, stellen wir einen neuen Ansatz für eine multi-modell-basierte Spracherkennung vor. Dieser Ansatz bestimmt automatisch, welches akustische Modell aus einer Auswahl von verschiedenen gut angepassten Modellen am besten für das aktuelle Sprachsignal geeignet ist. Dabei werden für die Auswahl nur die Merkmale und die akustischen Modelle ohne zusätzliches Wissen und ohne nähere Annahmen über die Störeinflüsse berücksichtigt, weshalb wir diesen Ansatz als blinde akustische Modellauswahl (""blind acoustic model selection"") bezeichnen. Zur Geschwindigkeitsoptimierung unseres Ansatzes präsentieren und evaluieren wir ein Verfahren zur Reduktion der akustischen Modelle. In der Praxis werden mit unserem Verfahren der Modellauswahl bei geeigneten akustischen Modellen etwa gleich gute bis leicht verbesserte Ergebnisse gegenüber multi-konditionalen Modellen erzielt.

ThesisNote

Bonn, Univ., Diss., 2013

Author(s)

Winkler, Thomas

Verlagsort

Bonn

Options

From acoustic mismatch towards blind acoustic model selection in automatic speech recognition