Mesure de similarité sémantique pour l'indexation de documents semi-structurés

Resume : Nous presentons dans cet article une mesure de similarite entre les concepts d’une ontologie que nous utilisons dans un systeme d’indexation de documents XML. Les documents sont structures par un ensemble de balises semantiquement pertinentes reliees a l’ontologie. Une partie des termes du corpus est egalement reliee a l’ontologie. Nous avons etendu le modele vectoriel de Salton pour prendre en compte la structure des documents et le voisinage semantique des termes. Ce systeme d’indexation pourrait etre tres utile dans le cadre d’un systeme de Raisonnement a Partir de Cas (RaPC) ou les cas seraient decrits sous forme textuelle avec une certaine structure.

[1]  Philip Resnik,et al.  Using Information Content to Evaluate Semantic Similarity in a Taxonomy , 1995, IJCAI.

[2]  Haïfa Zargayouna Contexte et sémantique pour une indexation de documents semi-structurés , 2004, CORIA.

[3]  Roy Rada,et al.  Development and application of a metric on semantic nets , 1989, IEEE Trans. Syst. Man Cybern..

[4]  Robert Krovetz,et al.  Homonymy and Polysemy in Information Retrieval , 1997, ACL.

[5]  Martha Palmer,et al.  Verb Semantics and Lexical Selection , 1994, ACL.

[6]  Iraklis Varlamis,et al.  THESUS: Organizing Web document collections based on link semantics , 2003, The VLDB Journal.

[7]  Graeme Hirst,et al.  Semantic distance in WordNet: An experimental, application-oriented evaluation of five measures , 2004 .

[8]  Mario Lenz,et al.  Textual CBR and Information Retrieval -- A Comparison , 1998 .

[9]  Iraklis Varlamis,et al.  THESUS: Organizing Web Doc-ument Collections Based On Semantics And Clustering , 2002 .

[10]  Gerard Salton,et al.  The SMART Retrieval System—Experiments in Automatic Document Processing , 1971 .

[11]  X. Allan Lu,et al.  Query Expansion/Reduction and its Impact on Retrieval Effectiveness , 1994, TREC.

[12]  Dekang Lin,et al.  An Information-Theoretic Definition of Similarity , 1998, ICML.

[13]  Christiane Fellbaum,et al.  Book Reviews: WordNet: An Electronic Lexical Database , 1999, CL.

[14]  Graeme Hirst,et al.  Lexical chains as representations of context for the detection and correction of malapropisms , 1995 .

[15]  James Allan,et al.  Automatic Query Expansion Using SMART: TREC 3 , 1994, TREC.

[16]  David W. Conrath,et al.  Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy , 1997, ROCLING/IJCLCLP.