Exploitation d'une marge de tolérance de classification pour améliorer l'apprentissage de modèles acoustiques de classes en reconnaissance de la parole (Exploitation of a classification tolerance margin for improving the estimation of class-based acoustic models for speech recognition) [in French]

Ce papier presente la prise en compte d'une marge de tolerance lors la classification des donnees d'apprentissage pour la fabrication de modeles acoustiques de classes pour la transcription automatique de la parole. En effet, bien que la classification automatique des donnees permette d'aller au-dela de la traditionnelle partition hommes/femmes, le nombre de classes utilisables est generalement limite par la fiabilite des modeles acoustiques associes aux classes, qui malheureusement va en diminuant avec le nombre de classes. Les experiences presentees montrent que la prise en compte d'une marge de tolerance lors de la classification des donnees d'apprentissage permet d'accroitre la quantite des donnees associees a chaque classe, et donc la fiabilite des modeles acoustiques associes aux classes. Les evaluations menees sur les donnees de la campagne ESTER2 ont montre la possibilite de fabriquer ainsi des modeles de classes aboutissant a de meilleures performances que l'utilisation des modeles habituels specialises hommes/femmes.

[1]  Frédéric Bimbot,et al.  Rapid speaker adaptation by reference model interpolation , 2007, INTERSPEECH.

[2]  Sacha Krstulovic,et al.  Selecting Representative Speakers for a Speech Database on the Basis of Heterogeneous Similarity Criteria , 2007, Speaker Classification.

[3]  Denis Jouvet,et al.  About Handling Boundary Uncertainty in a Speaking Rate Dependent Modeling Approach , 2011, INTERSPEECH.

[4]  Irina Illina,et al.  Hidden factor dynamic Bayesian networks for speech recognition , 2004, INTERSPEECH.

[5]  Roland Kuhn,et al.  Eigenvoices for speaker adaptation , 1998, ICSLP.

[6]  Hervé Bourlard,et al.  Speech recognition with auxiliary information , 2004, IEEE Transactions on Speech and Audio Processing.

[7]  Jonathan G. Fiscus,et al.  A post-processing system to yield reduced word error rates: Recognizer Output Voting Error Reduction (ROVER) , 1997, 1997 IEEE Workshop on Automatic Speech Recognition and Understanding Proceedings.

[8]  Mark J. F. Gales Cluster adaptive training for speech recognition , 1998, ICSLP.

[9]  Guillaume Gravier,et al.  The ester 2 evaluation campaign for the rich transcription of French radio broadcasts , 2009, INTERSPEECH.

[10]  Geoffrey Zweig,et al.  Speech Recognition with Dynamic Bayesian Networks , 1998, AAAI/IAAI.

[11]  Vincent Vanhoucke,et al.  Unsupervised discovery and training of maximally dissimilar cluster models , 2010, INTERSPEECH.

[12]  Denis Jouvet,et al.  Modeling inter-speaker variability in speech recognition , 2008, 2008 IEEE International Conference on Acoustics, Speech and Signal Processing.