Reconnaissance automatique des noms propres : application à la classification automatique de textes journalistiques
暂无分享,去创建一个
Dans les textes journalistiques, les noms propres sont tres importants pour une comprehension precise du sens des textes, mais ils sont tres peu representes dans les ressources lexicales disponibles. Le travail realise ici cherche a automatiser leur extraction et leur categorisation. Nous avons implante le systeme CasSys qui permet l'utilisation de cascade de transducteurs et peut ainsi realiser de l'analyse syntaxique d'un texte ou de l'extraction d'information. Le systeme d'extraction de noms propres cree, extracNP, utilise casSys ; les phenomenes d'ambiguites, de segmentation et de categorisation des noms propres sont ainsi geres par la cascade. Par cette methode, nous avons obtenu une precision de 94% avec un rappel de plus de 93%. Puis, nous avons montre que les noms propres sont porteurs d'une information qui les rend particulierement interessants pour obtenir une classification de qualite.