Transcription de la parole conversationnelle

Cet article decrit le developpement d'un systeme de reconnaissance de la parole conversationnelle, a partir d'un systeme a l'etat de l'art pour la transcription d'emissions d'information. Nous decrivons les principales ameliorations apportees aux modeles acoustiques, aux modeles linguistiques et au decodeur. Pour la modelisation acoustique, nos travaux ont porte sur l'introduction d'une normalisation par locuteur, le recours a des techniques d'apprentissage adaptatif et d'apprentissage discriminant, et une meilleure prise en compte des variantes de prononciation. Pour la modelisation linguistique, la principale difficulte vient de la faible quantite de donnees d'apprentissage disponible. Nous introduisons deux techniques permettant de diminuer l'impact de cette situation sur les performances du systeme: la selection de textes de nature conversationnelle et un modele representant les mots dans un espace continu. La transcription est obtenue en effectuant un decodage par consensus sur un treillis de mots. Ces ameliorations ont permis de reduire le taux d'erreur de 51 % a 21 %.

[1]  Philip C. Woodland,et al.  Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models , 1995, Comput. Speech Lang..

[2]  Andreas Stolcke,et al.  Finding consensus among words: lattice-based word error minimization , 1999, EUROSPEECH.

[3]  Andreas Stolcke,et al.  SRILM - an extensible language modeling toolkit , 2002, INTERSPEECH.

[4]  Jean-Luc Gauvain,et al.  Structuring Broadcast Audio for Information Access , 2003, EURASIP J. Adv. Signal Process..

[5]  Mark J. F. Gales,et al.  Maximum likelihood linear transformations for HMM-based speech recognition , 1998, Comput. Speech Lang..

[6]  John J. Godfrey,et al.  SWITCHBOARD: telephone speech corpus for research and development , 1992, [Proceedings] ICASSP-92: 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[7]  Chin-Hui Lee,et al.  Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains , 1994, IEEE Trans. Speech Audio Process..

[8]  Daniel Povey,et al.  Large scale discriminative training for speech recognition , 2000 .

[9]  Thomas Niesler,et al.  The 1998 HTK system for transcription of conversational telephone speech , 1999, 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No.99CH36258).

[10]  Andrej Ljolje,et al.  The AT&T LVCSR-2000 System , 2000 .

[11]  Richard M. Schwartz,et al.  A compact model for speaker-adaptive training , 1996, Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP '96.

[12]  Herbert Gish,et al.  The 2001 BYBLOS English large vocabulary conversational speech recognition system , 2002, 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[13]  Mari Ostendorf,et al.  Relevance weighting for combining multi-domain data for n-gram language modeling , 1999, Comput. Speech Lang..

[14]  Jean-Luc Gauvain,et al.  The LIMSI Broadcast News transcription system , 2002, Speech Commun..

[15]  Andreas Stolcke,et al.  THE SRI MARCH 2000 HUB-5 CONVERSATIONAL SPEECH TRANSCRIPTION SYSTEM , 2000 .