Typage de donnees textuelles et adaptation des traitements linguistiques application a l'annotation morpho-syntaxique
暂无分享,去创建一个
Nous nous situons dans l'hypothese d'une dependance des traitements automatiques des langues naturelles (tal) au style des textes. C'est pourquoi nous etudions la possibilite de typer les donnees textuelles selon le style pour obtenir des ensembles homogenes. Nous utilisons ces sous-ensembles homogenes pour ameliorer les traitements automatiques. Dans la premiere partie, nous examinons les methodes de traitements adaptatives aux donnees en tal, ainsi que les methodes existantes pour caracteriser des textes - les typer. Nous discutons des observables employes dans la litterature et des methodes de classification possibles pour creer des ensembles homogenes de textes. Dans la seconde partie, nous proposons une architecture pour le typage des corpus et des textes. Nous montrons, ensuite, l'heterogeneite existant dans la langue y compris dans des corpus usuellement consideres homogenes (journal le monde). Puis, des types de textes sont induits. Nous comparons les resultats obtenus avec des classifications existantes (genres de textes) pour evaluer l'adequation entre ces deux partitionnements. Enfin, nous traitons de l'attribution d'un type a un texte inconnu selon une classification donnee. Dans la troisieme partie, les variations de performances des traitements selon le type de textes sont mesurees donc validees. Nous proposons alors une methode pour predire les performances de traitements selon le type de textes. Puis pour ameliorer les performances des traitements, la methode suivante est proposee : les sous-ensembles obtenus par typage fournissent des ensembles d'apprentissage pour creer les traitements specialises. Les traitements specialises a des genres de textes et a des types de textes sont compares. Enfin, une methode de typage adaptee a la tache est presentee et comparee aux deux precedentes. Le resultat obtenu est qu'il existe un effet du type de texte sur les performances des traitements. Les limites de ce resultat sont alors discutees.