Méthodologie pour la création d’un dictionnaire distributionnel dans une perspective d’étiquetage lexical semi-automatique

Des groupes de recherche de plus en plus nombreux s’intéressent à l’étiquetage lexical ou la désambiguïsation du sens. La tendance actuelle est à l’exploitation de très grands corpus de textes qui, grâce à l’utilisation d’outils lexicographiques appropriés, peuvent fournir un ensemble de données initiales aux systèmes. A leur tour ces systèmes peuvent être utilisés pour extraire plus d’informations des corpus, qui peuvent ensuite être réinjectées dans les systèmes, dans un processus récursif. Dans cet article, nous présentons une méthodologie qui aborde la résolution de l’ambiguïté lexicale comme le résultat de l’interaction de divers indices repérables de manière semi-automatique au niveau syntaxique (valence), sémantique (collocations, classes d’objets) avec la mise en oeuvre de tests manuels.

[1]  Josette Voluzan,et al.  Gaston Gross, Les expressions figées en français. Les noms composés et autres locutions, Ophrys, 1996 , 1998 .

[2]  Etude des critères de désambiguïsation sémantique automatique : présentation et premiers résultats sur les cooccurrences , 2002, JEPTALNRECITAL.

[3]  Delphine Reymond,et al.  Dictionnaires distributionnels et étiquetage lexical de corpus , 2001, JEPTALNRECITAL.

[4]  Nancy Ide,et al.  Introduction to the Special Issue on Word Sense Disambiguation: The State of the Art , 1998, Comput. Linguistics.

[5]  Serge Verlinde,et al.  Le Dictionnaire d'apprentissage du français des affaires : un nouveau type de dictionnaire d'apprentissage multilingue axé sur la production , 1992 .

[6]  Gaston Gross,et al.  Les expressions figées en français : noms composés et autres locutions , 1996 .

[7]  Serge Verlinde,et al.  Dictionnaire d'apprentissage du français des affaires : dictionnaire de compréhension et de production de la langue des affaires , 2000 .

[8]  Alain Polguère,et al.  Introduction à la lexicologie explicative et combinatoire , 1995 .

[9]  Ann Bertels,et al.  Dictionnaire d'Apprentissage du Français des Affaires (DAFA). Een nieuw type zelfstudieleerwoordenboek, semi-meertalig en gericht op taalreceptie en -productie , 2003 .

[10]  Laurent Audibert,et al.  LoX : outil polyvalent pour l’exploration de corpus annotés , 2001, JEPTALNRECITAL.

[11]  J. Fodor,et al.  The structure of a semantic theory , 1963 .

[12]  Jean Véronis,et al.  Sense tagging: does it make sense? , 2001 .