Construire un corpus Web pour l'acquisition terminologique
暂无分享,去创建一个
Les donnees textuelles occupent une place cruciale dans les travaux d'acquisition de connaissances a partir de corpus. Ce sont ces donnees qui definissent le type et la nature des traitements que l'on pourra effectuer ainsi que la nature des donnees que l'on pourra y trouver. La constitution du corpus de specialite s'avere donc une tâche tres delicate. Nous presentons dans cet article une tentative d'automatisation de la tâche de constitution d'un corpus a partir du Web. La methode semi-automatique developpee permet de reperer, grâce a des mots cles, des documents du domaine, de les rapatrier et de proposer une selection des plus pertinents. Elle se decompose en quatre etapes: (1) recherche sur le Web de documents abordant le domaine; (2) selection parmi ceux-ci des plus representatifs du domaine; (3) regroupement des documents en sous-corpus homogenes; (4) formatage, normalisation et documentation du corpus. L'article detaille les deux premieres etapes. Appliquee a la constitution d'un corpus de specialite en francais, la methode permet d'obtenir des resultats interessants bien qu'insuffisants.