Sélection de prototypes en vue d'une catégorisation de textes avec les K plus proches voisins : étude comparative

Résumé. La technique des K plus proches voisins (KNN) est une méthode d’apprentissage à base d’instances, elle a été appliquée dans la catégorisation de textes depuis de nombreuses années. En contraste avec ses performances de classification, il est reconnu que cet algorithme est lent pendant la classification d’un nouveau document. Les Techniques de sélection de prototypes sont apparues comme des méthodes très compétitives pour améliorer le KNN grâce à la réduction des données. L’étude contenue dans ce papier a pour objectif d’analyser l’impact de ces méthodes sur la performance de la classification de textes avec l’algorithme KNN.