The impact of term-indexing characteristics on a document space

Les auteurs etudient l'impact de la frequence et de la distribution des termes, et de l'exhaustivite d'indexation sur la representation des espaces documentaires dans un environnement de reperage visuel vectoriel. En utilisant des jeux de documents reels et simules, les auteurs comparent les densites des espaces documentaires resultant des combinaisons des caracteristiques des termes, et de l'inclusion ou de l'exclusion des termes d'indexation pour une frequence donnee. Il est demontre que les termes a occurrence unique contribuent de maniere significative a definir la densite de l'espace documentaire, ce qui a des implications pour le reperage de documents. L'exhaustivite d'indexation joue egalement un role important dans la definition de l'espace documentaire : de plus hauts niveaux d'exhaustivite resultent en de plus basses densites d'espace documentaire. Les implications pour l'indexation automatique dans les systemes de RI sont presentees.