Reconnaissance automatique de la parole guidée par des transcriptions a priori. (driven decoding for speech recognition system combination)

L’utilisation des systemes de reconnaissance automatique de la parole necessite des conditions d’utilisation contraintes pour que ces derniers obtiennent des resultats convenables. Dans de nombreuses situations, des informations auxiliaires aux flux audio sont disponibles. Le travail de cette these s’articule autour des approches permettant d’exploiter ces transcriptions a priori disponibles. Ces informations se retrouvent dans de nombreuses situations : les pieces de theâtre avec les scripts des acteurs, les films accompagnes de sous-titres ou de leur scenario, les flashes d’information associes aux prompts des journalistes, les resumes d’emissions radio... Ces informations annexes sont de qualite variable, mais nous montrerons comment ces dernieres peuvent etre utilisees afin d’ameliorer le decodage d’un SRAP. Ce document est divise en deux axes lies par l’utilisation de transcriptions a priori au sein d’un SRAP : la premiere partie presente une methode originale permettant d’exploiter des transcriptions a priori manuelles, et de les integrer directement au cœur d’un SRAP. Nous proposons une methode permettant de guider efficacement le systeme de reconnaissance a l’aide d’informations auxiliaires. Nous etendons notre strategie a de larges corpus denues d’informations temporelles. La seconde partie de nos travaux est axee sur la combinaison de SRAP. Nous proposons une combinaison de SRAP basee sur le decodage guide : les transcriptions a priori guidant un SRAP principal sont fournies par des systemes auxiliaires. Les travaux presentes proposent d’utiliser efficacement une information auxiliaire au sein d’un SRAP. Le decodage guide par des transcriptions manuelles permet d’ameliorer sensiblement la qualite du decodage ainsi que la qualite de la transcription a priori . Par ailleurs, les strategies de combinaison proposees sont originales et obtiennent d’excellents resultats par rapport aux methodes existantes a l’etat de l’art.

[1]  Jonathan G. Fiscus,et al.  A post-processing system to yield reduced word error rates: Recognizer Output Voting Error Reduction (ROVER) , 1997, 1997 IEEE Workshop on Automatic Speech Recognition and Understanding Proceedings.

[2]  Georges Linarès,et al.  Reconnaissance de la parole guidée par des transcriptions approchées , 2006 .

[3]  Mark J. F. Gales,et al.  Progress in the CU-HTK broadcast news transcription system , 2006, IEEE Transactions on Audio, Speech, and Language Processing.

[4]  Daniel Povey,et al.  Minimum Phone Error and I-smoothing for improved discriminative training , 2002, 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[5]  Anthony J. Robinson,et al.  Language model adaptation using mixtures and an exponentially decaying cache , 1997, 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[6]  Hynek Hermansky,et al.  Perceptual Linear Predictive (PLP) Analysis-Resynthesis Technique , 1991, Final Program and Paper Summaries 1991 IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics.

[7]  Georges Linarès,et al.  Text island spotting in large speech databases , 2007, INTERSPEECH.

[8]  Georges Linarès,et al.  A SCALABLE SYSTEM FOR EMBEDDED LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION , 2007 .

[9]  Joseph Picone,et al.  Effects on transcription errors on supervised learning in speech recognition , 2004, 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[10]  Jordi Robert-Ribes,et al.  Automatic generation of hyperlinks between audio and transcript , 1997, EUROSPEECH.

[11]  Jean-Luc Gauvain,et al.  Connectionist language modeling for large vocabulary continuous speech recognition , 2002, 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[12]  Jean-Luc Gauvain,et al.  Lightly supervised acoustic model training using consensus networks , 2004, 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[13]  Alexander G. Hauptmann,et al.  Improving Acoustic Models by Watching Television , 1998 .

[14]  Gunnar Evermann,et al.  Posterior probability decoding, confidence estimation and system combination , 2000 .

[15]  Gunnar Evermann,et al.  Large vocabulary decoding and confidence estimation using word posterior probabilities , 2000, 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No.00CH37100).

[16]  Frédéric Béchet,et al.  Le système de transcription du LIA pour ESTER-2005 , 2005 .

[17]  Ricky Ho Yin Chan,et al.  Improving broadcast news transcription by lightly supervised discriminative training , 2004, 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[18]  Wayne H. Ward,et al.  Confidence measures for spoken dialogue systems , 2001, 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No.01CH37221).

[19]  John E. Markel,et al.  Linear Prediction of Speech , 1976, Communication and Cybernetics.

[20]  Alexander G. Hauptmann,et al.  Improving acoustic models with captioned multimedia speech , 1999, Proceedings IEEE International Conference on Multimedia Computing and Systems.