Fraunhofer-Gesellschaft

Publica

Hier finden Sie wissenschaftliche Publikationen aus den Fraunhofer-Instituten.

Konzeption, Implementierung und Test einer Software zur automatischen, textunabhängigen Erkennung von Sprecherwechseln auf Basis von Sprachsignalen in Telefonqualität

 
: Dittrich, Claudia
: Blech, Michael

Rostock, 2007, 71 S.
Brandenburg, FH, Bachelor Thesis, 2007
Deutsch
Bachelor Thesis
Fraunhofer IGD ()
speech processing; speech recognition; audio

Abstract
In der Arbeit werden die Grenzen der Robustheit eines Algorithmus zur automatischen Erkennung eines Sprecherwechsels untersucht. Dieser Algorithmus beruht auf der Beobachtung der Linear Spectral Pairs (LSP)-Frequenzen eines Sprachsignals über die Zeit. Das Ziel der Tests ist es herauszufinden, mit welcher Genauigkeit und unter welchen Bedingungen der eingesetzte Algorithmus eine gute Qualität erreichen kann. Diese Arbeit zeigt, dass auf Sprachsignalen mit niedriger Abtastrate, wie sie Telefongespräche besitzen, Sprecherwechsel in einem textunabhängigen System erkannt werden.
Die Distanzfunktionen beeinflussen auch die Erkennungsraten für die Sprecherwechsel. Es wurden zwei verschiedene Distanzfunktionen vorgestellt und verglichen. In der Auswertung zeigte sich, dass die einfachere Funktion bessere Ergebnisse liefert. Darüber hinaus ist die Euklidische Distanz robuster gegenüber der Divergence Shape Distance, denn die Divergence Shape Distance ist relativ empfindlich und findet Sprecherwechsel schon bei nicht sehr großen Änderungen im Signal. Zur Verbesserung der Erkennungsraten wurde verschiedene Lösungsmöglichkeiten vorgestellt und diskutiert.

 

This bachelor thesis deals with automatic speaker separation on speech data in phone quality. The advantages and disadvantages of different existing algorithms are compared. After that, a software framework is described and the quality of a choosen algorithm is evaluated on different data sets.

: http://publica.fraunhofer.de/dokumente/N-88483.html