Les Entitées Nommées, de la linguistique au TAL : Statut théorique et méthodes de désambiguïsation. (Named entities, from Linguistics to NLP: Theoretical status and disambiguation methods)

Le traitement des entites nommees fait aujourd’hui figure d’incontournable en Traitement Automatique des Langues. Apparue au milieu des annees 1990 a la faveur des dernieres conferences muc (Message Understanding Conferences), la tâche de reconnaissance et de categorisation des noms de personnes, de lieux, d’organisations, etc. apparait en effet comme fondamentale pour diverses applications participant de l’analyse de contenu et nombreux sont les travaux se consacrant a sa mise en oeuvre, obtenant des resultats plus qu’honorables. Fort de ce succes, le traitement des entites nommees s’oriente desormais vers de nouvelles perspectives avec, entre autres, la desambiguisation et une annotation enrichie de ces unites. Ces nouveaux defis rendent cependant d’autant plus cruciale la question du statut theorique des entites nommees, lequel n’a guere ete discute jusqu’a aujourd’hui. Deux axes de recherche ont par consequent ete investis durant ce travail de these : nous avons, d’une part, tente de proposer une definition des entites nomm ees et, d’autre part, experimente des methodes de desambiguisation. A la suite d’un etat des lieux de la tâche de reconnaissance de ces unites et d’un expose des difficultes pouvant se presenter a l’occasion d’une telle entreprise, il fut avant tout necessaire d’examiner, d’un point de vue methodologique, comment aborder la question de la definition des entites nommees. La demarche adoptee invita a se tourner du cˆote de la linguistique, avec les noms propres et les descriptions definies, puis du cˆote du traitement automatique, ce parcours visant au final a proposer une definition tenant compte tant des aspects du langage que des capacit es et exigences des systemes informatiques. La suite du memoire rend compte d’un travail davantage experimental, avec l’expose d’une methode d’annotation fine tout d’abord, de resolution de metonymie enfin. Ces travaux, combinant approche symbolique et approche distributionnelle, rendent compte de la possibilite d’une double annotation (categories generales et categories fines) et d’une desambiguisation des entites nommees.