Approche mixte pour l'extraction de terminologie : statistique lexicale et filtres linguistiques
暂无分享,去创建一个
La terminologie est un probleme dont les enjeux scientifiques et techniques sont cruciaux dans le domaine de la recherche en traitement automatique du langage naturel (taln). La construction d'une banque terminologique est un travail difficile, long, requerant des competences linguistiques et terminologiques rarement reunies, d'ou les problemes en taln imputables essentiellement a une repartition stricte des connaissances et des competences. Au vu de ces difficultes, il est devenu urgent de decouvrir des methodes permettant de creer automatiquement des banques terminologiques. Le stockage informatique des textes fournit un nouvel outil de travail. Il s'agit donc d'extraire automatiquement les termes d'un domaine a partir de corpus. Les methodes statistiques appliquees a l'extraction de terminologie apportent un premier element de reponse meme si les listes incluent un bruit important. Pour reduire l'exces de bruit, nous nous sommes propose d'elaborer une methode combinant donnees linguistiques et calculs statistiques. A partir d'une etude linguistique rigoureuse des termes du domaine des telecommunications, nous avons mis au point des filtres linguistiques qui permettent une premiere selection des sequences susceptibles, sur le plan morphosyntaxique, d'etre des noms composes. C'est sur ces sequences ainsi selectionnees que nous appliquons divers modeles statistiques avant d'en evaluer les resultats. Le meilleur modele statistique qui fournit une liste de noms composes en minimisant au mieux le bruit et le silence est le coefficient de vraisemblance ou les evenements frequents sont pris en compte. Cette conclusion contredit de nombreux travaux sur l'extraction de ressources lexicales qui proclament que leur critere d'association (par exemple, l'information mutuelle) sont de meilleurs indicateurs que la frequence.