Recherche d'information dans MEDLINE

Cet article decrit la banque documentaire Medline depuis laquelle une collection test comprenant environ 4,5 million de documents structures a ete construite a partir des campagnes d’evaluation TREC. Dans une deuxieme partie, nous evaluons et comparons l’efficacite du depistage de l’information de dix modeles (probabiliste, modele de langue, approches vectorielles). Cette evaluation est completee par l’analyse de l’efficacite de trois enracineurs (stemmers) pour la recherche d’information œuvrant dans un contexte specifique. L’impact des descripteurs MeSH, manuellement selectionnes pour chaque article, complete cette analyse. Enfin nous avons concu deux nouvelles approches d’expansion automatique des requetes, l’une generale l’autre specifique et nous les avons evaluees en les comparant au modele propose par Rocchio.

[1]  Patrick Ruch,et al.  Automatic assignment of biomedical categories: toward a generic approach , 2006, Bioinform..

[2]  Ellen M. Voorhees,et al.  Query expansion using lexical-semantic relations , 1994, SIGIR '94.

[3]  Otis Gospodnetic,et al.  Lucene in Action , 2004 .

[4]  W. Hersh Information Retrieval: A Health Care Perspective , 1995, Computers and Medicine.

[5]  Patrick Ruch Using Contextual Spelling Correction to Improve Retrieval Effectiveness in Degraded Text Collections , 2002, COLING.

[6]  Martin F. Porter,et al.  An algorithm for suffix stripping , 1997, Program.

[7]  Jacques Savoy,et al.  Statistical inference in retrieval effectiveness evaluation , 1997, Inf. Process. Manag..

[8]  Jacques Savoy,et al.  Indexation manuelle et automatique: une évaluation comparative basée sur un corpus en langue française , 2005, Conférence en Recherche d'Infomations et Applications.

[9]  Marti A. Hearst,et al.  TREC 2007 Genomics Track Overview , 2007, TREC.

[10]  Donna K. Harman,et al.  How effective is suffixing? , 1991, J. Am. Soc. Inf. Sci..

[11]  C. J. van Rijsbergen,et al.  Probabilistic models of information retrieval based on measuring the divergence from randomness , 2002, TOIS.

[12]  Jacques Savoy,et al.  Un regard statistique sur l'évaluation de performance : L'exemple de CLEF 2005 , 2006, CORIA.

[13]  Stephen E. Robertson,et al.  Experimentation as a way of life: Okapi at TREC , 2000, Inf. Process. Manag..

[14]  Denyse Baillargeon,et al.  Bibliographie , 1929 .

[15]  Hong Yu,et al.  Extracting synonymous gene and protein terms from biological literature , 2003, ISMB.

[16]  Djoerd Hiemstra,et al.  Term-specific smoothing for the language modeling approach to information retrieval: the importance of a query term , 2002, SIGIR '02.

[17]  Gerard Salton,et al.  Term-Weighting Approaches in Automatic Text Retrieval , 1988, Inf. Process. Manag..

[18]  Djoerd Hiemstra,et al.  Using language models for information retrieval , 2001 .

[19]  Aaron Cohen Unsupervised Gene/Protein Named Entity Normalization Using Automatically Extracted Dictionaries , 2005, LBLODMBS@IDMB.