Aide a l'acquisition de connaissances a partir de corpus
暂无分享,去创建一个
Le probleme d'identification des termes presente un interet particulier pour les applications du taln. En effet, la conception d'outils d'identification de termes et de relations entre termes est d'une aide considerable aux terminologues et aux cogniticiens qui veulent analyser un domaine nouveau. Les terminologues s'interessent surtout a l'etude des termes particulierement dans les domaines de specialite ou les termes designent des objets du domaine de facon la moins ambigue possible. Pour construire une terminologie on part souvent de textes et on applique un ensemble de methodes qui facilitent l'identification des termes. Les methodes classiques utilisent souvent des grammaires et des dictionnaires afin d'acquerir des concepts du domaine d'etude. L'approche que nous presentons dans cette these utilise une approche distributionnelle basee sur les travaux de z. Harris et utilise des algorithmes originaux pour la synthese automatique de contextes entre termes afin d'identifier des relations semantiques propres au domaine. Les resultats obtenus sont d'abord filtres puis valides par un linguiste avant d'etre structures sous forme hierarchique. Ils sont ensuite exploites afin d'acquerir d'autres connaissances en utilisant un processus iteratif et incremental base sur l'inference. L'utilisation d'un langage d'expression de contraintes entre termes du domaines permet de reperer un nombre fini de schemas morphosyntaxiques qui expriment des relations generiques notamment des definitions et des proprietes d'objets. Les resultats obtenus peuvent interesser d'autres travaux comme ceux lies a la construction de bases de connaissances terminologiques ou a la construction d'ontologies partielles propres au domaine.