Vectorisation des processus d'appariement document-requête

Dans la plupart des applications de RI, calculer rapidement la proximite entre documents et requetes est crucial. Avec les modeles vectoriels, ce calcul se fait generalement de maniere tres efficace. Cependant, lorsque les requetes sont tres longues ou dans le cas de SRI bases sur des modeles plus avances, ce calcul devient plus complexe et couteux. Dans cet article, nous proposons une technique simple pour transformer n'importe quel processus d'appariement requete-document fournissant un score en un probleme de calcul de distance entre vecteurs. Cette approche peut ainsi beneficier des bonnes performances des outils existants d'indexation et de recherche approximative dans des espaces de grandes dimensions. Au travers de quelques experiences, nous montrons par ailleurs que cette representation n'entraine pas de baisse importante de qualite des resultats, et, lorsque de nombreux documents sont a retourner, ameliore meme le rappel par rapport au SRI original, a taille de resultat egal.

[1]  Ittai Abraham,et al.  Advances in metric embedding theory , 2006, STOC '06.

[2]  Richard A. Harshman,et al.  Indexing by Latent Semantic Analysis , 1990, J. Am. Soc. Inf. Sci..

[3]  J. Bourgain On lipschitz embedding of finite metric spaces in Hilbert space , 1985 .

[4]  Michael W. Berry,et al.  Principal Component Analysis for Information Retrieval , 2005 .

[5]  Nicole Immorlica,et al.  Locality-sensitive hashing scheme based on p-stable distributions , 2004, SCG '04.

[6]  Laurent Amsaleg,et al.  NV-Tree: An Efficient Disk-Based Index for Approximate Search in Very Large High-Dimensional Collections , 2009, IEEE Transactions on Pattern Analysis and Machine Intelligence.

[7]  Vincent Claveau,et al.  Graded-Inclusion-Based Information Retrieval Systems , 2009, ECIR.

[8]  Denyse Baillargeon,et al.  Bibliographie , 1929 .

[9]  Jennifer Widom,et al.  SimRank: a measure of structural-context similarity , 2002, KDD.

[10]  Gerard Salton,et al.  A vector space model for automatic indexing , 1975, CACM.

[11]  Gabriella Pasi,et al.  A logical formulation of the Boolean model and of weighted Boolean models , 2007 .

[12]  Djoerd Hiemstra,et al.  A Linguistically Motivated Probabilistic Model of Information Retrieval , 1998, ECDL.

[13]  Yiming Yang,et al.  Translingual Information Retrieval: A Comparative Evaluation , 1997, IJCAI.

[14]  Benno Stein Principles of hash-based text retrieval , 2007, SIGIR.

[15]  Quoc Dinh Truong,et al.  Information retrieval model based on graph comparison , 2008 .

[16]  Santosh S. Vempala,et al.  The Random Projection Method , 2005, DIMACS Series in Discrete Mathematics and Theoretical Computer Science.