论文信息 - Étiquetage thématique automatisé de corpus par représentation sémantique

Étiquetage thématique automatisé de corpus par représentation sémantique

Dans les corpus de textes scientifiques, certains articles issus de communautes de chercheurs differentes peuvent ne pas etre decrits par les memes mots-cles alors qu'ils partagent la meme thematique. Ce phenomene cause des problemes dans la recherche d'information, ces articles etant mal indexes, et limite les echanges potentiellement fructueux entre disciplines scientifiques. Notre modele permet d'attribuer automatiquement une etiquette thematique aux articles au moyen d'un apprentissage des representations semantiques d'articles du corpus deja etiquetes. Passant bien a l'echelle, cette methode a pu etre testee sur une bibliotheque numerique d'articles scientifiques comportant des millions de documents. Nous utilisons un reseau semantique de synonymes pour extraire davantage d'articles semantiquement similaires et nous les fusionnons avec ceux obtenus par un modele de classement thematique. Cette methode combinee presente de meilleurs taux de rappel que les versions utilisant soit le reseau semantique seul, soit la seule representation semantique des textes.

Fabrice Muhlenbach | Djamel A. Zighed | Hussein T. Al-Natsheh | Lucie Martinet | Fabien Rico

[1] Abdullah Abrizah,et al. LIS journals scientific impact and subject categorization: a comparison between Web of Science and Scopus , 2012, Scientometrics.

[2] Nathan Halko,et al. Finding Structure with Randomness: Probabilistic Algorithms for Constructing Approximate Matrix Decompositions , 2009, SIAM Rev..

[3] 이주연,et al. Latent Dirichlet Allocation (LDA) 모델 기반의 인공지능(A.I.) 기술 관련 연구 활동 및 동향 분석 , 2018 .

[4] George A. Miller,et al. WordNet: A Lexical Database for English , 1995, HLT.

[5] Tomas Mikolov,et al. Enriching Word Vectors with Subword Information , 2016, TACL.

[6] Simone Paolo Ponzetto,et al. BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network , 2012, Artif. Intell..

[7] Jens Lehmann,et al. DBpedia - A large-scale, multilingual knowledge base extracted from Wikipedia , 2015, Semantic Web.