Une mthode d'indexation smantique adapte aux corpus multilingues

Ces travaux de these s'inscrivent dans la problematique generale liee a l'indexation d'un corpus de texte pour la recherche d'information multilingue. Le but de l'indexation est d'identifier la connaissance contenue dans un texte et de la representer par des mots cles appeles descripteurs. Or, la composante multilingue ajoute une complexite supplementaire au processus d'indexation car une etape de traduction est obligatoire pour representer document et requete par des descripteurs appartenant au meme espace d'indexation. Pour traduire correctement un terme, il est preferable de reconnaitre le concept denote par celui-ci. Actuellement, une recherche d'information pertinente represente le contenu des documents par des concepts et non plus par des termes. Cette these propose une methode d'indexation semantique pour les documents XML permettant de caracteriser le contenu documentaire par des connaissances, non dependante de la langue des documents. Ces connaissances sont declinees en deux types : - Les connaissances du domaine sont utilisees pour representer les documents et les requetes dans le meme espace de representation non dependant des langues. - Les connaissances terminologiques constituent plusieurs langages de presentation des connaissances du domaine. Nous avons defini notre propre modele de representation des connaissances intitule les graphes semantiques. Ce modele est un enrichissement du modele des graphes conceptuels de Sowa. Premierement, notre modele differencie les connaissances du domaine, des connaissances terminologiques. Deuxiemement, une fonction de comparaison de graphes adaptee aux besoins reels de la recherche d'information est proposee. Notre methode d'indexation se veut generique car elle peut etre utilisee aussi bien dans un systeme de recherche d'information multilingue que dans un hypertexte a base de connaissances. Pour valider notre proposition, un prototype, appele SyDoM, a ete implante, repondant aux besoins d'une bibliotheque virtuelle.

[1]  W. Bruce Croft,et al.  Phrasal translation and query expansion techniques for cross-language information retrieval , 1997, SIGIR '97.

[2]  Franciska de Jong Cross language information retrieval in Twenty One Using one some or all possible translations , 1999 .

[3]  Mark W. Davis,et al.  On The Effective Use of Large Parallel Corpora in Cross-Language Text Retrieval , 1998 .

[4]  W. Bruce Croft,et al.  Statistical Methods for Cross-Language Information Retrieval , 1998 .

[5]  Philippe Ortet,et al.  Distributed Cross-Lingual Information Retrieval , 1998 .

[6]  Hans-Peter Frei,et al.  Concept based query expansion , 1993, SIGIR.

[7]  David Hull A Weighted Boolean Model for Cross-Language Text Retrieval , 1998 .

[8]  Christian Fluhr,et al.  Multilingual access to textual databases , 1991, RIAO.

[9]  Susan T. Dumais,et al.  Automatic Cross-Language Information Retrieval Using Latent Semantic Indexing , 1998 .

[10]  Jin Yang,et al.  The Systran NLP Browser: An Application of Machine Translation Technology in Cross-Language Information Retrieval , 1998 .

[11]  Jean Paul Ballerini,et al.  Experiments in multilingual information retrieval using the SPIDER system , 1996, SIGIR '96.

[12]  Mark W. Davis,et al.  QUILT: implementing a large-scale cross-language text retrieval system , 1997, SIGIR '97.

[13]  Gregory Grefenstette,et al.  Querying across languages: a dictionary-based approach to multilingual information retrieval , 1996, SIGIR '96.

[14]  J. Chaumier,et al.  L'indexation documentaire: de l'analyse conceptuelle humaine à l'analyse automatique morphosyntaxique , 1990 .

[15]  Martin Braschler,et al.  Cross-Language Information Retrieval in a Multilingual Legal Domain , 1997, ECDL.

[16]  Gregory Grefenstette The Problem of Cross-Language Information Retrieval , 1998 .