Classification et segmentation de textes par arbres de décision Application à la recherche documentaire

RESUME. La plupart des moteurs de recherche documentaire renvoient en reponse a une requete une liste ordonnee de documents. Cette liste etant souvent tres longue, les utilisateurs ne peuvent pas examiner tous les documents proposes. De ce fait, il leur arrive de ne pas consulter des documents pertinents mal positionnes. Apres avoir decrit le systeme de recherche SIAC developpe au LIA, nous presentons un algorithme de classification thematique. Applique aux documents ramenes a partir d’une requete, il permet d’organiser la liste des reponses et d’ameliorer la pertinence de la recherche. Une evaluation faite durant la campagne Amaryllis’99 est presentee. A partir de la classification, une segmentation thematique des documents est realisee. Elle permet d’effectuer une nouvelle recherche sur des zones documentaires plus fines que les documents et d’isoler l’information pertinente a l’interieur d’un texte. On montre a cette occasion que l’utilisation combinee de mesures de similarites ameliore fortement les resultats de la recherche documentaire.

[1]  Michael McGill,et al.  Introduction to Modern Information Retrieval , 1983 .

[2]  Stuart L. Crawford,et al.  Classification Trees for Information Retrieval , 1991, ML.

[3]  Gerard Salton,et al.  Automatic text structuring and retrieval-experiments in automatic encyclopedia searching , 1991, SIGIR '91.

[4]  James Allan,et al.  Automatic structuring and retrieval of large text files , 1994, CACM.

[5]  Alan J. Wecker,et al.  The Librarian's Assistant: Automatically Organizing On-line Books into Dynamic Bookshelves , 1994, RIAO.

[6]  Donna K. Harman,et al.  The TREC Conferences , 1997, HIM.

[7]  Renato De Mori,et al.  The Application of Semantic Classification Trees to Natural Language Understanding , 1995, IEEE Trans. Pattern Anal. Mach. Intell..

[8]  Marti A. Hearst,et al.  Reexamining the cluster hypothesis: scatter/gather on retrieval results , 1996, SIGIR '96.

[9]  Peter Willett,et al.  Readings in information retrieval , 1997 .

[10]  Jan O. Pedersen,et al.  Almost-constant-time clustering of arbitrary corpus subsets4 , 1997, SIGIR '97.

[11]  Hinrich Schütze,et al.  Projections for efficient document clustering , 1997, SIGIR '97.

[12]  Marti A. Hearst Text Tiling: Segmenting Text into Multi-paragraph Subtopic Passages , 1997, CL.

[13]  Gerald Kowalski,et al.  Information Retrieval Systems: Theory and Implementation , 1997 .

[14]  Min-Yen Kan,et al.  Resources for Evaluation of Summarization Techniques , 1998, LREC.

[15]  Marc El-Bèze,et al.  Query Expansion and Classification of Retrieved Documents , 1998, TREC.

[16]  Laurent Schmitt,et al.  Évaluation des outils d'accès à l'information textuelle : les expériences américaine (TREC) et française (AMARYLLIS) , 1999 .

[17]  Marti A. Hearst The Use of Categories and Clusters for Organizing Retrieval Results , 1999 .

[18]  Renato De Mori,et al.  A fuzzy decision strategy for topic identification and dynamic selection of language models , 2000, Signal Process..