Vers une analyse acoustico-phonétique de la parole indépendante de la langue, basée sur ALISP

De nombreux systemes de synthese et de reconnaissance automatique de la parole utilisent des unites de parole liees aux phones. Les phones sont les realisations physiques des phonemes correspondants et sont en general definis a priori et dependants de la langue consideree. Nous presentons une alternative a cette approche : une determination des unites de parole a l'aide des techniques ALISP Automatic Language Independent Speech Processing - Traitement Automatique de la Parole, Independant de la Langue). ALISP permet de choisir l'inventaire des unites de parole considerees a partir d'une analyse statistique de corpus de parole, sans a priori sur nos connaissances phonetiques et/ou phonologiques. Nous avons teste experimentalement de telles unites dans un vocodeur a tres bas debit: le debit moyen ainsi obtenu pour le codage des unites est de 120 bps. Nous presentons egalement les resultats de la comparaison d'une segmentation ALISP avec une segmentation acoustico-phonetique dans deux cas: mono et multi-locuteur.

[1]  M.G. Bellanger,et al.  Digital processing of speech signals , 1980, Proceedings of the IEEE.

[2]  Bishnu S. Atal,et al.  Efficient coding of LPC parameters by temporal decomposition , 1983, ICASSP.

[3]  J. Kruskal An Overview of Sequence Comparison: Time Warps, String Edits, and Macromolecules , 1983 .

[4]  Lawrence R. Rabiner,et al.  A tutorial on hidden Markov models and selected applications in speech recognition , 1989, Proc. IEEE.

[5]  Frédéric Bimbot,et al.  An evaluation of temporal decomposition , 1991, EUROSPEECH.

[6]  Allen Gersho,et al.  Vector quantization and signal compression , 1991, The Kluwer international series in engineering and computer science.

[7]  Allen Gersho,et al.  Advances in speech and audio compression , 1994, Proc. IEEE.

[8]  Steve Young,et al.  The HTK book , 1995 .

[9]  Carl de Marcken,et al.  The Unsupervised Acquisition of a Lexicon from Continuous Speech , 1995, ArXiv.

[10]  Kuldip K. Paliwal,et al.  Speech recognition based on acoustically derived segment units , 1996, Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP '96.

[11]  Isabel Trancoso,et al.  Application of speaker modification techniques to phonetic vocoding , 1996, Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP '96.

[12]  Isabel Trancoso,et al.  Phonetic vocoding with speaker adaptation , 1997, EUROSPEECH.

[13]  Mohamed Ismail,et al.  Between recognition and synthesis - 300 bits/second speech coding , 1997, EUROSPEECH.

[14]  Jan Cernocký Traitement de la parole s'appuyant sur des unites segmentales determinees automatiquement : applications au codage a tres bas debit et a la verification du locuteur , 1998 .

[15]  Bishnu S. Atal,et al.  Automatic speech recognition: a communication perspective , 1999, 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No.99CH36258).