Adaptation automatique du modèle de langage d'un système de transcription de journaux parlés : Modélisation probabiliste du langage naturel

Cet article traite de l'adaptation automatique du vocabulaire puis du modele de langage d'un systeme de transcription d'emissions radio et telediffusees. L'analyse des textes qui sont publies quotidiennement sur l'internet permet de modeliser les changements thematiques de l'actualite. Deux methodes d'adaptation du vocabulaire sont proposees: une heuristique qui utilise des seuils sur les frequences de mots pour identifier les nouveaux mots a inclure dans le vocabulaire, et une adaptation vectorielle qui optimise directement la couverture lexicale sur un corpus de developpement par combinaison lineaire des frequences de mots calcules sur des corpus d'entrainement. Les deux algorithmes conduisent a une reduction le plus d'un tiers du taux de mots hors vocabulaire. L'adaptation quotidienne du modele de langage de reference permet de reduire la perplexite des donnees de test de 9%. Le gain relatif obtenu sur le taux d'erreurs de reconnaissance est de 2,2%.