Notions d'événements distants et d'évenements impossibles en modélisation stochastique du langage : application aux modèles n-grammes de mots et de séquences
暂无分享,去创建一个
Un modele de langage statistique (ML), ne decrivant que des evenements linguistiques bien specifiques ne suffit pas a decrire toute la langue. Il faut donc combiner plusieurs MLs pour recouvrir en grande partie la langue. Je propose, plutot que de systematiquement combiner lineairement tous les MLs pour obtenir un ML moyen, de selectionner le plus efficace en fonction du contexte linguistique; je developpe une mesure de la capacite de prediction du ML en fonction de l'historique et l'applique a la comparaison de plusieurs MLs de type n-grammes distants ameliorant ainsi les performances de la combinaison lineaire de 5. 4%. La methode permet aussi de determiner des sequences de mots comme nouvelles unites du lexique, ce qui ameliore un modele de reference de 21%. Une autre contribution de ce travail est le recensement automatique d'evenements impossibles dans la langue francaise. 60 millions de bigrammes impossibles sont recenses grâce a des methodes issues de la theorie de l'information.