Methoden der Automatischen Spracherkennung

Dieser Beitrag behandelt die grundlegenden Probleme der automatischen Spracherkennung und stellt die Erkennungsverfahren vor, die in der Praxis zur Anwendung kommen. Im Prinzip handelt es sich immer um einen Mustervergleich zwischen dem unbekannten Sprachmuster und bekannten Referenzmustern. Ausführlich werden die Verfahren der Dynamischen Programmierung (DP) und der Einsatz von „Hidden-Markov"-Modellen (HMM) beschrieben. Die enge Verwandtschaft beider Verfahren wird aufgezeigt. Beide Verfahren lassen sich in Form des 1-stufigen DP-Algorithmus bzw. des Viterbi-Algorithmus leicht auf die Erkennung fließend gesprochener Sprache erweitern. Besonders wird auf die Möglichkeiten für eine Modellierung der Zeitdauer der Erkennungseinheiten mit Gaußund Gamma-Funktionen eingegangen. Es wird ein eigener Ansatz vorgestellt, der Silbenteile als Erkennungseinheiten verwendet, die anschließend zu Wörtern zusammengefaßt werden. Anhand von experimentellen Ergebnissen wird die Wirksamkeit der Zeitmodellierung diskutiert. Automatic Speech Recognition Methods This contribution deals with the fundamental problems of automatic speech recognition and describes recognition methods used in practical applications. In principal, recognition always performs some kind of pattern matching between the unknown speech pattern and known reference patterns. The methods of Dynamic Programming (DP) as well as the use of „Hidden-Markov"-Models (HMM) are presented in detail. The close relationship between both methods are elicited. Both procedures can be easily extended to perform recognition of continuous speech by use of the Istage DP algorithm or the Viterbi algorithm, respectively. The possibilities for time duration modelling of the recognition units are presented, especially with Gaussian or Gamma distributions. The paper offers an own approach using parts of syllables as recognition units which subsequently are combined to words. Experimental results are discussed with respect to the efficiency of the time duration modelling methods.

[1]  E Paulus,et al.  Automatic speech recognition using psychoacoustic models. , 1979, The Journal of the Acoustical Society of America.

[2]  J. Baker,et al.  The DRAGON system--An overview , 1975 .

[3]  Hans-Jürgen Geywitz Automatische Erkennung fliessender Sprache mit silbenorientierten Einheiten , 1984 .

[4]  Tanja Schultz,et al.  Stochastic modeling of syllable-based units for continuous speech recognition , 1992, ICSLP.

[5]  Hermann Ney,et al.  The use of a one-stage dynamic programming algorithm for connected word recognition , 1984 .

[6]  W. Reichl Neuronale Netze zur Detektion von Silbenkernen , 1992, DAGM-Symposium.

[7]  Lawrence R. Rabiner,et al.  A tutorial on hidden Markov models and selected applications in speech recognition , 1989, Proc. IEEE.

[8]  Günther Ruske,et al.  Gehörbezogene automatische Spracherkennung / Automatic Speech Recognition Based on Human Hearing , 1989, it Inf. Technol..

[9]  G. Ruske,et al.  Recognition of demisyllable based units using semicontinuous hidden Markov models , 1992, [Proceedings] ICASSP-92: 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[10]  Lalit R. Bahl,et al.  Experiments with the Tangora 20,000 word speech recognizer , 1987, ICASSP '87. IEEE International Conference on Acoustics, Speech, and Signal Processing.

[11]  F. Jelinek,et al.  Continuous speech recognition by statistical methods , 1976, Proceedings of the IEEE.

[12]  G. Ruske,et al.  Syllable-based stochastic models for continuous speech recognition , 1992 .