Induction de sens pour enrichir des ressources lexicales

En traitement automatique des langues, les ressources lexico-semantiques ont ete incluses dans un grand nombre d'applications. La creation manuelle de telles ressources est consommatrice de temps humain et leur couverture limitee ne permet pas toujours de couvrir les besoins des applications. Ce probleme est encore plus important pour les langues moins dotees que le francais ou l'anglais. L'induction de sens presente dans ce cadre une piste interessante. A partir d'un corpus de texte, il s'agit d'inferer les sens possibles pour chacun des mots qui le composent. Nous etudions dans cet article une approche basee sur une representation vectorielle pour chaque occurrence d'un mot correspondant a ses voisins. A partir de cette representation, construite sur un corpus en bengali, nous comparons plusieurs approches de clustering (k-moyennes, clustering hierarchique et esperance-maximisation) des occurrences d'un mot pour determiner les differents sens qu'il peut prendre. Nous comparons nos resultats au Bangla WordNet ainsi qu'a une reference etablie pour l'occasion. Nous montrons que cette methode permet de trouver des sens qui ne se trouvent pas dans le Bangla WordNet.