Étiquetage thématique automatisé de corpus par représentation sémantique

Dans les corpus de textes scientifiques, certains articles issus de communautes de chercheurs differentes peuvent ne pas etre decrits par les memes mots-cles alors qu'ils partagent la meme thematique. Ce phenomene cause des problemes dans la recherche d'information, ces articles etant mal indexes, et limite les echanges potentiellement fructueux entre disciplines scientifiques. Notre modele permet d'attribuer automatiquement une etiquette thematique aux articles au moyen d'un apprentissage des representations semantiques d'articles du corpus deja etiquetes. Passant bien a l'echelle, cette methode a pu etre testee sur une bibliotheque numerique d'articles scientifiques comportant des millions de documents. Nous utilisons un reseau semantique de synonymes pour extraire davantage d'articles semantiquement similaires et nous les fusionnons avec ceux obtenus par un modele de classement thematique. Cette methode combinee presente de meilleurs taux de rappel que les versions utilisant soit le reseau semantique seul, soit la seule representation semantique des textes.