Contexte et sémantique pour une indexation de documents semi-structurés

Les documents semi-structures comme les documents XML presentent l'avantage de posseder une structure explicite qui facilite leur presentation et leur exploitation dans differents contextes. Cependant, tres souvent, la majeure partie de l'information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des methodes permettant d'exploiter a la fois la structure et le contenu textuel de ces documents. Les techniques classiques de Recherche d'Information (RI) n'utilisent pas ou peu la structure des documents alors que les langages de requete issus de la communaute Bases de Donnees (BD) n'exploitent pas le contenu textuel et ne permettent pas une presentation des resultats par ordre de pertinence. De plus en plus de chercheurs essaient de combiner les approches de RI et de BD pour pallier leurs limites respectives. Dans ce travail, nous presentons une structure d'index qui permet des requetes structurees et une presentation des resultats par ordre de pertinence. Pour cela, nous avons etendu le modele vectoriel de Salton pour une vue bi-dimensionnelle du document en adaptant le calcul du TF-IDF. Par ailleurs, nous proposons d'utiliser une ontologie reliee aux termes du corpus pour modeliser la notion de voisinage semantique a l'aide d'un calcul de similarite entre termes. Cette indexation permet donc une recherche contextuelle (par la structure) et semantique (par l'ontologie).

[1]  Vijay V. Raghavan,et al.  BitCube: A Three-Dimensional Bitmap Indexing for XML Documents , 2004, Journal of Intelligent Information Systems.

[2]  Roy Rada,et al.  Development and application of a metric on semantic nets , 1989, IEEE Trans. Syst. Man Cybern..

[3]  Mounia Lalmas Uniform Representation of Content and Structure for structured document retrieval , 2001 .

[4]  Yves Chiaramella,et al.  Information Retrieval and Structured Documents , 2000, ESSIR.

[5]  Norbert Fuhr,et al.  XIRQL: An XML query language based on information retrieval concepts , 2004, TOIS.

[6]  Gerhard Weikum,et al.  The Index-Based XXL Search Engine for Querying XML Data with Relevance Ranking , 2002, EDBT.

[7]  Nathalie Aussenac-Gilles,et al.  Structuration de terminologies à l'aide d'outils de TAL avec TERMINAE , 2002 .

[8]  Brigitte Grau,et al.  What Is This Text About ? Combining topic and meta-descriptors for text structure presentation , 2003 .

[9]  Mohand Boughanem,et al.  Exploitation des Liens Sémantiques pour l'Expansion de Requêtes dans un Système de Recherche d'Information , 2003, INFORSID.

[10]  Torsten Schlieder,et al.  Querying and ranking XML documents , 2002, J. Assoc. Inf. Sci. Technol..

[11]  Gloria Bordogna,et al.  Flexible Querying of Structured Documents , 2000, FQAS.

[12]  Gerard Salton,et al.  The SMART Retrieval System—Experiments in Automatic Document Processing , 1971 .

[13]  B. Habert,et al.  Les linguistiques de corpus , 1997 .

[14]  Philip Resnik,et al.  Semantic Similarity in a Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language , 1999, J. Artif. Intell. Res..

[15]  Natalia Grabar,et al.  Building a Text Corpus for Representing the Variety of Medical Language , 2001, MedInfo.

[16]  Benjamin Piwowarski,et al.  Un modèle pour la recherche d’information sur des documents structurés , 2002 .

[17]  Martha Palmer,et al.  Verb Semantics and Lexical Selection , 1994, ACL.