Automatische Spracherkennung mit hybriden akustischen Modellen

Das akustische Modell eines Spracherkenners basiert auf Methoden der statistischen Mustererkennung, um eine parametrische Reprasentation der gesprochenen Auserung zu ermoglichen. Zusammen mit einer Vorverarbeitung zur Datenreduktion, einem Worterbuch zur orthografisch korrekten Darstellung und einem Sprachmodell zur Eingrenzung wahrscheinlicher Worte ist das akustische Modell das Kernelement des Dekoders zur Konvertierung gesprochener Sprache in geschriebenen Text. Diese Arbeit beschreibt als Schwerpunkt die Elemente eines hybriden akustischen Modells mit verbundenen Auftrittswahrscheinlichkeiten (TP, engl. tied-posteriors) bestehend aus einem statischen Klassifikator und Hidden-Markov-Modellen (HMM). Vorteile des TP-Ansatzes sind eine grose Flexibilitat, sowie eine niedrigere Wortfehlerrate bei relativ wenigen, zu trainierenden Parametern. Als Beispiele fur geeignete statische Klassifikatoren werden neuronale Netze mit und ohne Ruckkopplung und Support-Vektor-Maschinen ausfuhrlich vorgestellt. Zur Verbesserung dieser neuronalen Netze sind neben der Phonem-, bzw. HMM-Zustandsklassifikation, Zusatzaufgaben parallel trainiert worden. Es hat sich als vorteilhaft herausgestellt, wenn zusatzlich das Geschlecht des Sprechers klassifiziert wird, da diese Aufgabe einfach zu lernen und unabhangig von der Lautklassifikation ist. Die Verwendung von SVM kann bisher nur bei sehr kleinem Vokabular (11 Zahlworter) evaluiert werden, da die Klassifikation mit mehreren SVM bislang sehr viel Rechenzeit erfordert. Dennoch lassen sich einige positive Tendenzen dieses Systems besonders bezuglich der Robustheit gegenuber Gerauschen erkennen. Neben den sprecherunabhangigen Systemen werden weiterhin Moglichkeiten prasentiert, die TP-Modelle an einen einzelnen Sprecher zu adaptieren. Erwahnenswert ist hierbei, das sowohl Parameter des Klassifikators (untersucht worden sind in dieser Arbeit neuronale Netze), als auch Parameter der HMM unabhangig voneinander und mit zusatzlichem Gewinn adaptiert werden konnen. Abschliesend bieten hybride akustische Modelle zusatzliche Anwendungsmoglichkeiten fur die verteilte Spracherkennung, bei der die Komponenten ortlich verteilt arbeiten und uber einen Kanal verbunden sind. Besonders die Flexibilitat bei der Veranderung einzelner Komponenten kann mit Gaus'schen akustischen Modellen nicht erreicht werden.

[1]  Gerhard Rigoll Mutual information neural networks: a new connectionist approach for dynamic speech recognition tasks , 1994, Proceedings of ICASSP '94. IEEE International Conference on Acoustics, Speech and Signal Processing.

[2]  Nils J. Nilsson,et al.  Problem-solving methods in artificial intelligence , 1971, McGraw-Hill computer science series.

[3]  B. Atal Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification. , 1974, The Journal of the Acoustical Society of America.

[4]  Chin-Hui Lee,et al.  Bayesian learning for hidden Markov model with Gaussian mixture state observation densities , 1991, Speech Commun..

[5]  E. Zwicker,et al.  Analytical expressions for critical‐band rate and critical bandwidth as a function of frequency , 1980 .

[6]  Gerhard Rigoll,et al.  Flexible feature extraction and HMM design for a hybrid distributed speech recognition system in noisy environments , 2003, 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03)..

[7]  Chin-Hui Lee,et al.  Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains , 1994, IEEE Trans. Speech Audio Process..

[8]  Gerhard Rigoll,et al.  Comparing NN paradigms in hybrid NN/HMM speech recognition using tied posteriors , 2003, 2003 IEEE Workshop on Automatic Speech Recognition and Understanding (IEEE Cat. No.03EX721).

[9]  Roland Kuhn,et al.  Rapid speaker adaptation in eigenvoice space , 2000, IEEE Trans. Speech Audio Process..

[10]  Gerhard Rigoll,et al.  Multimodal meeting analysis by segmentation and classification of meeting events based on a higher level semantic approach , 2005, Proceedings. (ICASSP '05). IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005..

[11]  Daniel Willett Beiträge zur statistischen Modellierung und effizienten Dekodierung in der automatischen Spracherkennung , 2000 .

[12]  S. Thomas Alexander,et al.  Adaptive Signal Processing , 1986, Texts and Monographs in Computer Science.

[13]  Gerhard Rigoll,et al.  Frame-discriminative and confidence-driven adaptation for LVCSR , 2000, 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No.00CH37100).

[14]  John H. L. Hansen,et al.  Discrete-Time Processing of Speech Signals , 1993 .

[15]  Gerhard Rigoll,et al.  Multi-task learning strategies for a recurrent neural net in a hybrid tied-posteriors acoustic model , 2005, INTERSPEECH.

[16]  Stefan Rüping,et al.  Incremental Learning with Support Vector Machines , 2001, ICDM.

[17]  John Platt,et al.  Probabilistic Outputs for Support vector Machines and Comparisons to Regularized Likelihood Methods , 1999 .

[18]  Roland Kuhn,et al.  Eigenvoices for speaker adaptation , 1998, ICSLP.

[19]  Gerhard Rigoll,et al.  Distributed speech recognition using traditional and hybrid modeling techniques , 2001, INTERSPEECH.

[20]  Tanja Schultz,et al.  Grapheme based speech recognition , 2003, INTERSPEECH.

[21]  Mark J. F. Gales,et al.  Maximum likelihood linear transformations for HMM-based speech recognition , 1998, Comput. Speech Lang..

[22]  Anthony J. Robinson,et al.  An application of recurrent nets to phone probability estimation , 1994, IEEE Trans. Neural Networks.

[23]  R. G. Leonard,et al.  A database for speaker-independent digit recognition , 1984, ICASSP.

[24]  Vladimir N. Vapnik,et al.  The Nature of Statistical Learning Theory , 2000, Statistics for Engineering and Information Science.

[25]  Gerhard Rigoll Large vocabulary hidden markov model based speech recognition , 1990, Eur. Trans. Telecommun..

[26]  Martin Westphal,et al.  The use of cepstral means in conversational speech recognition , 1997, EUROSPEECH.

[27]  Gerhard Rigoll,et al.  Maximum mutual information neural networks for hybrid connectionist-HMM speech recognition systems , 1994, IEEE Trans. Speech Audio Process..

[28]  Frederick Jelinek,et al.  Speech Recognition by Statistical Methods , 1976 .