Un modèle d'espace vectoriel de concepts pour noyaux sémantiques

Les noyaux ont ete largement utilises pour le traitement de donnees textuelles comme mesure de similarite pour des algorithmes tels que les Separateurs a Vaste Marge (SVM). Le modele de l'espace vectoriel (VSM) a ete amplement utilise pour la representation spatiale des documents. Cependant, le VSM est une representation purement statistique. Dans ce papier, nous presentons un modele d'espace vectoriel de concepts (CVSM) qui se base sur des connaissances linguistiques a priori pour capturer le sens des documents. Nous proposons aussi un noyau lineaire et un noyau latent pour cet espace. Le noyau lineaire exploite les concepts linguistiques pour l'extraction du sens alors que le noyau latent combine les concepts statistiques et linguistiques. En effet, le noyau latent utilise des concepts latents extraits par l'Analyse Semantique Latente (LSA) dans le CVSM. Les noyaux sont evalues sur une tâche de categorisation de texte dans le domaine biomedical. Le corpus Ohsumed, bien connu pour sa difficulte de categorisation, a ete utilise. Les resultats ont montre que les performances de categorisation sont ameliorees dans le CSVM.

[1]  Richard A. Harshman,et al.  Indexing by Latent Semantic Analysis , 1990, J. Am. Soc. Inf. Sci..

[2]  Nello Cristianini,et al.  Latent Semantic Kernels , 2001, Journal of Intelligent Information Systems.

[3]  Chris Buckley,et al.  OHSUMED: an interactive retrieval evaluation and new large test collection for research , 1994, SIGIR '94.

[4]  Martin F. Porter,et al.  An algorithm for suffix stripping , 1997, Program.

[5]  Nello Cristianini,et al.  Kernel Methods for Pattern Analysis , 2003, ICTAI.

[6]  Guy W. Mineau,et al.  Beyond TFIDF Weighting for Text Categorization in the Vector Space Model , 2005, IJCAI.

[7]  Fabrizio Sebastiani,et al.  Supervised term weighting for automated text categorization , 2003, SAC '03.

[8]  Thorsten Joachims,et al.  Text Categorization with Support Vector Machines: Learning with Many Relevant Features , 1998, ECML.

[9]  Vladimir N. Vapnik,et al.  The Nature of Statistical Learning Theory , 2000, Statistics for Engineering and Information Science.

[10]  Fabrizio Sebastiani,et al.  Machine learning in automated text categorization , 2001, CSUR.

[11]  Chew Lim Tan,et al.  Proposing a New Term Weighting Scheme for Text Categorization , 2006, AAAI.

[12]  Gerard Salton,et al.  A vector space model for automatic indexing , 1975, CACM.

[13]  Jian Su,et al.  Text Representations for Text Categorization: A Case Study in Biomedical Domain , 2007, 2007 International Joint Conference on Neural Networks.

[14]  Thorsten Joachims,et al.  Learning to classify text using support vector machines - methods, theory and algorithms , 2002, The Kluwer international series in engineering and computer science.