论文信息 - La contribution des cooccurrences de deuxième ordre à l’analyse sémantique

La contribution des cooccurrences de deuxième ordre à l’analyse sémantique

Cet article montre ce que la cooccurrence peut nous apprendre sur la monosemie et comment on peut exploiter l’analyse des cooccurrences de deuxieme ordre pour quantifier l’analyse semantique. Les analyses sont conduites sur un corpus technique (1,7 million d’occurrences) relevant du domaine specialise des machines-outils pour l’usinage des metaux. Dans cet article, nous expliquons la methodologie adoptee pour determiner le degre de monosemie d’un mot technique a partir de l’analyse du recoupement de ses cooccurrences de deuxieme ordre. Dans le but d’affiner les resultats de la mesure de recoupement, nous procedons egalement a quelques experimentations qui vont au-dela du simple reperage statistique des cooccurrences et qui font varier differents parametres, tels que la fenetre d’observation, le seuil de significativite et la forme graphique ou le lemme des cooccurrences de premier et deuxieme ordre. Finalement, nous abordons l’importance de l’integration des etiquettes morphosyntaxiques dans l’analyse des cooccurrences.

Ann Bertels | Dirk Speelman

[1] Hinrich Schütze,et al. Automatic Word Sense Discrimination , 1998, Comput. Linguistics.

[2] Benoît Habert,et al. Dégrouper les sens : pourquoi, comment? , 2004 .

[3] Damon Mayaffre. Quand « travail », « famille », « patrie » co-occurrent dans le discours de Nicolas Sarkozy. Etude de cas et réflexion théorique sur la co-occurrence , 2008 .

[4] Magali Paquot,et al. Distinctive words in academic writing: a comparison of three statistical tests for keyword extraction , 2009 .

[5] Deny Arnos Kwary,et al. A Hybrid Method for Determining Technical Vocabulary. , 2011 .

[6] Ted Dunning,et al. Accurate Methods for the Statistics of Surprise and Coincidence , 1993, CL.

[7] Gregory Grefenstette,et al. Corpus-Derived First, Second and Third-Order Word Affinities , 1994 .