Sie befinden Sich nicht im Netzwerk der Universität Paderborn. Der Zugriff auf elektronische Ressourcen ist gegebenenfalls nur via VPN oder Shibboleth (DFN-AAI) möglich. mehr Informationen...
Ergebnis 9 von 18

Details

Autor(en) / Beteiligte
Titel
Modellbasierte Merkmalsverbesserung zur robusten automatischen Spracherkennung in Gegenwart von Nachhall und Hintergrundstörungen : = Model-based feature enhancement for robust automatic speech recognition in presence of reverberation and background noise [Elektronische Ressource]
Erscheinungsjahr
2011
Link zum Volltext
Link zu anderen Inhalten
Verknüpfte Titel
Beschreibungen/Notizen
  • Tag der Verteidigung: 16.12.2011
  • Paderborn, Univ., Diss., 2011
  • Open Access
  • ger: Bei der Verwendung von Freisprechsystemen zur automatischen Spracherkennung tritt das Problem auf, dass neben dem gewünschten Sprachsignal sowohl dessen Nachhall als auch unerwünschte Hintergrundstörungen durch das Mikrofon aufgenommen werden. Dieses bewirkt eine Veränderung der für die Dekodierung relevanten akustischen Merkmale, welche aus dem Mikrofonsignal extrahiert werden. Da für das Training des Spracherkenners gewöhnlich ungestörte Sprachsignale herangezogen werden, führt die Diskrepanz zwischen den Trainings- und Einsatzbedingungen zu einer erhöhten Wortfehlerrate. In dieser Arbeit wird ein neuartiges, auf der Anwendung von Bayes'scher Inferenz basierendes Verfahren zur Verbesserung akustischer Merkmale zur robusten automatischen Spracherkennung in Gegenwart von Nachhall sowie Hintergrundstörungen entwickelt. Das Verfahren nutzt einerseits a priori-Modelle zur Beschreibung der Trajektorien der akustischen Merkmale jeweils des sauberen Sprachsignals sowie des Hintergrundstörsignals, wobei im ersteren Fall schaltende, lineare dynamische Modelle zur Ausnutzung von Korrelationen zwischen zeitlich aufeinander folgenden Merkmalen eingesetzt werden. Die Arbeit konzentriert sich dabei auf das Training der Modelle sowie die Initialisierung deren Parameter. Andererseits wird für die Merkmalsverbesserung ein Beobachtungsmodell verwendet, welches die Merkmale des verhallten und gestörten Sprachsignals mit denen des sauberen in Beziehung setzt. Diese Beziehung hängt von der Raumimpulsantwort zwischen dem Sprecher und dem Mikrofon ab. Da deren blinde Schätzung, die in einer unbekannten Umgebung erforderlich ist, hoch sensibel ist, wird die Raumimpulsantwort durch ein statistisches Modell beschrieben. Dieses besitzt nur zwei Parameter, welche einfacher und robuster als die vollständige Raumimpulsantwort geschätzt werden können.
  • eng: Using hands-free systems for automatic speech recognition may contribute to increased convenience and safety in many application areas. In this case, however, the problem occurs that, in addition to the desired speech signal, also reverberation and undesired background noise are captured by the microphone. These influences cause a degradation of the acoustic features, which are extracted from the microphone signal for the subsequent decoding. Since for the training of the recognizer usually clean speech signals are employed, the discrepancy between the training and testing conditions leads to an increased word error rate. In this thesis a new technique for the enhancement of acoustic features for robust speech recognition in the presence of reverberation and noise is developed, which is based on the application of Bayesian inference and whose main focus is on the compensation of the effects of reverberation. On the one hand, the technique involves a priori models to describe the time trajectory of the acoustic features belonging to the clean speech signal and background noise signal. In the former case switching linear dynamic models are employed to exploit correlations between successive features. This thesis concentrates on the training of the models as well as the initialization of the model parameters. On the other hand, the feature enhancement technique uses an observation model, which relates the features of the reverberant and noisy speech signal to those of the clean speech signal. This relation depends on the room impulse response between the speaker and the microphone. As its blind estimation, which is required in an unknown environment, is extremely sensitive, the room impulse response is modeled statistically. The statistic model has only two parameters, which may be estimated from the captured microphone signal easier and more robust than the complete room impulse response.
Sprache
Deutsch; Englisch
Identifikatoren
URN: urn:nbn:de:hbz:466:2-8317
OCLC-Nummer: 930777672, 930777672
Titel-ID: 990014550150106463
Format