Sie befinden Sich nicht im Netzwerk der Universität Paderborn. Der Zugriff auf elektronische Ressourcen ist gegebenenfalls nur via VPN oder Shibboleth (DFN-AAI) möglich. mehr Informationen...
Ergebnis 1 von 1

Details

Autor(en) / Beteiligte
Titel
Discovering structure in speech recordings : unsupervised learning of word and phoneme like units for automatic speech recognition
Ort / Verlag
Paderborn
Erscheinungsjahr
2021
Link zum Volltext
Link zu anderen Inhalten
Verknüpfte Titel
Beschreibungen/Notizen
  • Tag der Verteidigung: 01.12.2021
  • ger: Während Sprachaufzeichnungen einfach erstellt werden können, kann die Transkription dieser Aufzeichnungen sehr teuer und zeitaufwendig sein. Daher können Methoden zum automatischen Erstellen solcher Transkriptionen für nicht annotierte Daten dabei helfen, das Training von Spracherkennern für Sprachen zu vereinfachen, für die wenige oder keine annotierten Trainingsdaten verfügbar sind. Diese Arbeit untersucht und stellt Methoden zum automatischen Lernen von Transkriptionen allein aus Audioaufzeichnungen vor. Dabei werden Algorithmen zum Erlernen von Phonemen, den kleinsten Einheiten der Sprache, und Worten, vorgestellt. Diese Methoden können zum automatischen Training eines Spracherkenners aus nicht annotierten Daten verwendet werden. Diese Arbeit untersucht die Methoden zum Erlernen von Phonemen und Worten jeweils separat. Der Hauptfokus dieser Arbeit liegt auf dem unüberwachten Lernen von Worten in hierarchischen Modellen, bestehend aus Phonem- und Worttranskriptionen. Drei oft verwendete Verfahren werden untersucht, zum einen heuristische Methoden und zum anderen zwei Varianten statistischer modellbasierter Verfahren. Die erste Variante basiert auf einem probabilistischen Aussprachelexikon, während das zweite Verfahren auf der Segmentierung von Wortgittern beruht. Schließlich wird ein vollständig unüberwachtes System aus einer Kombination von unüberwachtem Phonemlernen und unüberwachter Wortsegmentierung präsentiert. Diese Arbeit schließt mit der Integration des unüberwachten Phonem- und unüberwachten Wortlernens in eine semantische Inferenz ab, um die Verwendbarkeit von unüberwacht gelernten Phonemen und Worten in einem übergeordneten System sowie ihre Fähigkeit, die Erkennungsergebnisse zu verbessern, zu demonstrieren.
  • eng: While speech recordings are easy to obtain, the transcription of those recordings can be very costly and time-consuming. Therefore, automatic methods to derive such transcriptions from unlabeled data can help simplifying the training of speech recognizers in languages where little to no labeled training data is available. This thesis investigates and introduces methods to automatically learn transcriptions from audio recordings only. Algorithms for the unsupervised learning of phonemes, the smallest units in speech, and words are presented. These methods can then be used for the automatic training of a speech recognizer from unlabeled data. This thesis investigates these unsupervised learning methods separately for the learning of phonemes and words. The main focus of this thesis is laid on the unsupervised learning of words in hierarchical models consisting of phoneme and word transcriptions. Three main approaches are investigated. Firstly, heuristic methods. Secondly, two variants of statistical model-based approaches. The first variant is based on a probabilistic pronunciation lexicon while the second approach is based on word segmentation over lattices, instead ofa single best sequence. Finally, a fully unsupervised system with unsupervised phoneme discovery and unsupervised word segmentation combined, is presented. The thesis concludes by integrating the unsupervised phoneme and word discovery into a semantic inference task in the setting of a simple command and control interface to demonstrate the usability of unsupervised learned phonemes and words in upstream tasks and their ability to improve their performance over purely supervised methods.
Sprache
Englisch
Identifikatoren
DOI: 10.17619/UNIPB/1-1252
URN: urn:nbn:de:hbz:466:2-40111
Titel-ID: 99371105370806441
Format
1 Online-Ressource (iii, 163 Seiten); Diagramme