Adaptation du modèle de langue pour le tri des réponses dans les BD

RESUME . L'information sur le web est de plus en plus extraite depuis des bases de donnees (BD) ou les langages d'interrogation sont bases sur une recherche exacte. L'utilisateur se trouve confronte au probleme de reponses nombreuses lorsque sa requete est peu selective. Pour remedier a ce probleme, plusieurs approches ont ete proposees, a l'instar de celles utilisant les techniques de relaxation des requetes. D'autres travaux proposent de classifier les resultats. Une autre classe d'approches, au quelle on s'interesse, suggere l'adaptation des techniques de la recherche d'information (RI) pour trier les resultats dans les BD. On propose dans cet article, une adaptation du modele de langue de la RI pour trier les tuples retournes selon leur score de pertinence vis-a-vis la requete. Ce score est evalue par un modele de langue bi-gramme qui combine, a travers un lissage par interpolation, les probabilites d'occurrence des valeurs des attributs dans l'ensemble des tuples retournes ainsi que dans la BD. Nous avons evalue l'efficacite de notre approche sur une table contenant

[1]  Tao Li,et al.  Addressing diverse user preferences in SQL-query-result navigation , 2007, SIGMOD '07.

[2]  Noureddine Mouaddib,et al.  SEQ: a fuzzy set-based approach to database summarization , 2002, Fuzzy Sets Syst..

[3]  Seung-won Hwang,et al.  Automatic categorization of query results , 2004, SIGMOD '04.

[4]  W. Bruce Croft,et al.  A general language model for information retrieval , 1999, CIKM '99.

[5]  Mounir Bechchi,et al.  Clustering-based Approximate Answering of Query Result in Large and Distributed Databases , 2009 .

[6]  Ricardo Baeza-Yates,et al.  Modern Information Retrieval - the concepts and technology behind search, Second edition , 2011 .

[7]  Aristides Gionis,et al.  Automated Ranking of Database Query Results , 2003, CIDR.

[8]  Silvio do Lago Pereira,et al.  Dealing with Empty and Overabundant Answers to Flexible Queries , 2014 .

[9]  Ling Feng,et al.  Ranking Query Results using Context-Aware Preferences , 2007, 2007 IEEE 23rd International Conference on Data Engineering Workshop.

[10]  Patrick Bosc,et al.  Empty versus overabundant answers to flexible relational queries , 2008, Fuzzy Sets Syst..

[11]  Qiong Huang,et al.  Query result ranking over e-commerce web databases , 2006, CIKM '06.

[12]  W. Bruce Croft,et al.  A Language Modeling Approach to Information Retrieval , 1998, SIGIR Forum.

[13]  Zongmin Ma,et al.  Answering approximate queries over autonomous web databases , 2009, WWW '09.

[15]  Gerhard Weikum,et al.  Probabilistic Ranking of Database Query Results , 2004, VLDB.

[16]  Marti A. Hearst Chapter 2 of the second edition of Modern Information Retrieval Renamed Modern Information Retrieval : The Concepts and Technology behind Search , 2011 .

[17]  Djoerd Hiemstra,et al.  A Linguistically Motivated Probabilistic Model of Information Retrieval , 1998, ECDL.

[18]  Didier Dubois,et al.  Qualitative reasoning based on fuzzy relative orders of magnitude , 2003, IEEE Trans. Fuzzy Syst..

[19]  Noureddine Mouaddib,et al.  General Purpose Database Summarization , 2005, VLDB.

[20]  Gerhard Weikum,et al.  Probabilistic information retrieval approach for ranking of database query results , 2006, TODS.