论文信息 - Collecte orientée sur le Web pour la recherche d'information spécialisée. (Focused document gathering on the Web for domain-specific information retrieval)

Collecte orientée sur le Web pour la recherche d'information spécialisée. (Focused document gathering on the Web for domain-specific information retrieval)

Les moteurs de recherche verticaux, qui se concentrent sur des segments specifiques du Web, deviennent aujourd'hui de plus en plus presents dans le paysage d'Internet. Les moteurs de recherche thematiques, notamment, peuvent obtenir de tres bonnes performances en limitant le corpus indexe a un theme connu. Les ambiguites de la langue sont alors d'autant plus controlables que le domaine est bien cible. De plus, la connaissance des objets et de leurs proprietes rend possible le developpement de techniques d'analyse specifiques afin d'extraire des informations pertinentes.Dans le cadre de cette these, nous nous interessons plus precisement a la procedure de collecte de documents thematiques a partir du Web pour alimenter un moteur de recherche thematique. La procedure de collecte peut etre realisee en s'appuyant sur un moteur de recherche generaliste existant (recherche orientee) ou en parcourant les hyperliens entre les pages Web (exploration orientee).Nous etudions tout d'abord la recherche orientee. Dans ce contexte, l'approche classique consiste a combiner des mot-cles du domaine d'interet, a les soumettre a un moteur de recherche et a telecharger les meilleurs resultats retournes par ce dernier.Apres avoir evalue empiriquement cette approche sur 340 themes issus de l'OpenDirectory, nous proposons de l'ameliorer en deux points. En amont du moteur de recherche, nous proposons de formuler des requetes thematiques plus pertinentes pour le theme afin d'augmenter la precision de la collecte. Nous definissons une metrique fondee sur un graphe de cooccurrences et un algorithme de marche aleatoire, dans le but de predire la pertinence d'une requete thematique. En aval du moteur de recherche, nous proposons de filtrer les documents telecharges afin d'ameliorer la qualite du corpus produit. Pour ce faire, nous modelisons la procedure de collecte sous la forme d'un graphe triparti et appliquons un algorithme de marche aleatoire biaise afin d'ordonner par pertinence les documents et termes apparaissant dans ces derniers.Dans la seconde partie de cette these, nous nous focalisons sur l'exploration orientee du Web. Au coeur de tout robot d'exploration orientee se trouve une strategie de crawl qui lui permet de maximiser le rapatriement de pages pertinentes pour un theme, tout en minimisant le nombre de pages visitees qui ne sont pas en rapport avec le theme. En pratique, cette strategie definit l'ordre de visite des pages. Nous proposons d'apprendre automatiquement une fonction d'ordonnancement independante du theme a partir de donnees existantes annotees automatiquement.

Clément de Groc | Clément de Groc

[1] Yasuhiko Kitamura,et al. Keyword Spices: A New Method for Building Domain-Specific Web Search Engines , 2001, IJCAI.

[2] Hector Garcia-Molina,et al. Efficient Crawling Through URL Ordering , 1998, Comput. Networks.

[3] Inderjit S. Dhillon,et al. Co-clustering documents and words using bipartite spectral graph partitioning , 2001, KDD '01.

[4] Luis Gravano,et al. Snowball: extracting relations from large plain-text collections , 2000, DL '00.

[5] William H. Fletcher,et al. Concordancing the Web with KWiCFinder , 2001 .

[6] Mounia Lalmas,et al. Workshop on aggregated search , 2008, SIGF.

[7] Gerard Salton,et al. Term-Weighting Approaches in Automatic Text Retrieval , 1988, Inf. Process. Manag..

[8] Ricardo A. Baeza-Yates,et al. Crawling a country: better strategies than breadth-first for web page ordering , 2005, WWW '05.

[9] Zhen Liu,et al. Optimal Robot Scheduling for Web Search Engines , 1998 .

[10] Marco Baroni,et al. Building general- and special-purpose corpora by Web crawling , 2006 .

[11] Parikshit Sondhi,et al. Using query context models to construct topical search engines , 2010, IIiX.