Detektion stimmhafter Sprachabschnitte zur robusten Spracherkennung

Es wird das Konzept eines neuen Ansatzes zur robusten Erkennung gestörter Sprachsignale vorgestellt. Der Ansatz beruht auf der Beobachtung der zwischenmenschlichen Kommunikation in einer gestörten Umgebung, bei der ein Zuhörer häufig nur noch die Abschnitte der Sprache mit einem genügend hohen Pegel wahrnimmt. Aus dieser Beobachtung wird als erster Verarbeitungsschritt des zu konzeptionierenden Verfahrens eine Detektion stimmhafter Abschnitte mit hohem Sprachpegel abgeleitet. Ausgehend von diesen Abschnitten soll dann eine modifizierte Berechnung der Wahrscheinlichkeiten für das Auftreten der beobachteten akustischen Merkmale vorgenommen werden, die in den bisherigen Verfahren in der Regel an den zeitlichen Signalverlauf gekoppelt ist. Abweichend davon soll die Berechnung in diesem Verfahren mit den Merkmalen der stimmhaften Abschnitte beginnen und zeitlich vorwärts und rückwärts gerichtet bis zu den vorausgehenden oder nachfolgenden stimmhaften Abschnitten fortgesetzt werden. In dieser Veröffentlichung werden die ersten Untersuchungen zur Detektion der stimmhaften Abschnitte vorgestellt, wobei insbesondere drei Parameter auf ihre Verwendbarkeit hin untersucht werden. Es werden der zeitliche Verlauf der Kurzzeitenergie, eines Maßes, das die Stimmhaftigkeit charakterisiert, und eines Maßes, das die Wahrscheinlichkeit eines stimmhaften Lautes beschreibt, betrachtet. Erste Detektionsergebnisse für die Sprachsignale der Timit Datensammlung werden präsentiert.

[1]  Mark J. F. Gales,et al.  Robust speech recognition in additive and convolutional noise using parallel model combination , 1995, Comput. Speech Lang..

[2]  Hans-Günter Hirsch,et al.  Robust Speech Recognition by Combining a Robust Feature Extraction with an Adaptation of HMMs , 2010, Sprachkommunikation.

[3]  Keith Vertanen Baseline Wsj Acoustic Models for Htk and Sphinx : Training Recipes and Recognition Experiments , 2007 .

[4]  Wolfgang Hess,et al.  Pitch Determination of Speech Signals , 1983 .

[5]  V.W. Zue,et al.  The use of speech knowledge in automatic speech recognition , 1985, Proceedings of the IEEE.

[6]  Philip C. Woodland,et al.  Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models , 1995, Comput. Speech Lang..

[7]  Daniel P. W. Ellis,et al.  Noise Robust Pitch Tracking by Subband Autocorrelation Classification , 2012, INTERSPEECH.

[8]  Hans-Günter Hirsch,et al.  Noise estimation techniques for robust speech recognition , 1995, 1995 International Conference on Acoustics, Speech, and Signal Processing.

[9]  Hans-Günter Hirsch,et al.  A new approach for the adaptation of HMMs to reverberation and background noise , 2008, Speech Commun..

[10]  Phil D. Green,et al.  Robust automatic speech recognition with missing and unreliable acoustic data , 2001, Speech Commun..

[11]  Rainer Martin,et al.  Cepstral Smoothing of Spectral Filter Gains for Speech Enhancement Without Musical Noise , 2007, IEEE Signal Processing Letters.

[12]  Hideki Kawahara,et al.  YIN, a fundamental frequency estimator for speech and music. , 2002, The Journal of the Acoustical Society of America.

[13]  Steve Young,et al.  The HTK book , 1995 .