论文信息 - Modélisation statistique du langage à partir d'Internet pour la reconnaissance automatique de la parole continue. (Statistical language modelling using Internet documents for continuous speech recognition)

Modélisation statistique du langage à partir d'Internet pour la reconnaissance automatique de la parole continue. (Statistical language modelling using Internet documents for continuous speech recognition)

Les ressources textuelles sont celles qui font le plus defaut dans les recherches sur la modelisation statistique du langage, surtout pour l'apprentissage de modeles adaptes au dialogue. Cette these propose d'utiliser les documents en provenance d'Internet pour l'apprentissage de tels modeles. La collecte de plusieurs corpus a permis la mise en evidence de certaines proprietes interessantes. Celles-ci concernent la quantite de texte, le nombre de vocables differents mais surtout la possibilite de trouver des formes propres a l'expression orale. Ces formes ne se trouvent pas dans les corpus journalistiques qui sont pourtant tres largement employes. L'evolution de ces documents au cours des dernieres annees a encore accru cette adequation. La these introduit alors une nouvelle methode, entierement automatique, de calcul de modeles de langage a partir de ces donnees. Elle commence par un filtrage dit par " blocs minimaux " base sur le vocabulaire de l'application visee. Ensuite, le calcul du modele de langage statistique, type n-gramme, se fait au prix d'une legere adaptation des algorithmes standards dans le domaine. Les resultats de cette methode sont de l'ordre de 90% de taux de reconnaissance pour des petits vocabulaires et de 80% pour de plus larges vocabulaires. De plus, les resultats obtenus, sans aucune adaptation, sur une base sonore etat de l'art de l'AUPELF sont du meme ordre que ceux des autres laboratoires ayant participe a l'evaluation. La these presente aussi d'autres applications d'Internet. Ainsi, L'utilisation de la hierarchie des newsgroups permet la mise au point d'un detecteur de theme fonde sur une normalisation de modeles unigrammes. Ses performances sont d'environ 70%. L'integration de ce detecteur au sein des algorithmes de reconnaissance de la parole permet un gain de 5% en taux de reconnaissance. Enfin, une adaptation de la methode des blocs minimaux a ete utilisee pour faciliter la definition d'un ensemble de phrases pour l'enregistrement d'un corpus sonore.

Dominique Vaufreydaz