论文信息 - Induction de sens pour enrichir des ressources lexicales

Induction de sens pour enrichir des ressources lexicales

En traitement automatique des langues, les ressources lexico-semantiques ont ete incluses dans un grand nombre d'applications. La creation manuelle de telles ressources est consommatrice de temps humain et leur couverture limitee ne permet pas toujours de couvrir les besoins des applications. Ce probleme est encore plus important pour les langues moins dotees que le francais ou l'anglais. L'induction de sens presente dans ce cadre une piste interessante. A partir d'un corpus de texte, il s'agit d'inferer les sens possibles pour chacun des mots qui le composent. Nous etudions dans cet article une approche basee sur une representation vectorielle pour chaque occurrence d'un mot correspondant a ses voisins. A partir de cette representation, construite sur un corpus en bengali, nous comparons plusieurs approches de clustering (k-moyennes, clustering hierarchique et esperance-maximisation) des occurrences d'un mot pour determiner les differents sens qu'il peut prendre. Nous comparons nos resultats au Bangla WordNet ainsi qu'a une reference etablie pour l'occasion. Nous montrons que cette methode permet de trouver des sens qui ne se trouvent pas dans le Bangla WordNet.

Gilles Sérasset | M. Nasiruddin | Didier Schwab | Andon Tchechmedjiev | H. Blanchon

[1] Maurice K. Wong,et al. Algorithm AS136: A k-means clustering algorithm. , 1979 .

[2] George A. Miller,et al. WordNet: A Lexical Database for English , 1995, HLT.

[3] Jane Garry,et al. Facts about the world's languages : an encyclopedia of the world's major languages, past and present , 2001 .

[4] Masao Masugi,et al. Hierarchical-clustering-scheme-based analysis of electrostatic discharge current in terms of an electromagnetic interference assessment , 2006 .

[5] Xin Jin,et al. Expectation Maximization Clustering , 2010, Encyclopedia of Machine Learning.