OKM : une extension des k-moyennes pour la recherche de classes recouvrantes

Résumé. Dans cet article nous abordons le problème de la classification (ou clustering) dans le but de découvrir des classes avec recouvrements. Malgré quelques avancées récentes dans ce domaines, motivées par des besoins applicatifs importants (traitements des données multimédia par exemple), nous constatons l’absence de solutions théoriques à ce problème. Notre étude consiste alors à proposer une nouvelle formulation du problème de classification par partitionnement, adaptée à la recherche d’un recouvrement des données en classes d’objets similaires. Cette approche se fonde sur la définition d’un critère objectif de qualité d’un recouvrement et d’une solution algorithmique visant à optimiser ce critère. Nous proposons deux évaluations de ce travail permettant d’une part d’appréhender le fonctionnement global de l’algorithme sur des données simples (vitesse de convergence, visualisation des résultats) et d’autre part d’évaluer quantitativement le bénéfice d’une telle approche sur une application de classification de documents textuels.

[1]  Catherine Blake,et al.  UCI Repository of machine learning databases , 1998 .

[2]  Alain Lelu Clusters and factors: neural algorithms for a novel representation of huge and highly multidimensional data sets , 1994 .

[3]  Sholom M. Weiss,et al.  Automated learning of decision rules for text categorization , 1994, TOIS.

[4]  Guillaume Cleuziou,et al.  PoBOC: An Overlapping Clustering Algorithm, Application to Rule-Based Classification and Textual Data , 2004, ECAI.

[5]  Martin F. Porter,et al.  An algorithm for suffix stripping , 1997, Program.

[6]  Joydeep Ghosh,et al.  Model-based overlapping clustering , 2005, KDD '05.

[7]  Peter H. A. Sneath,et al.  Numerical Taxonomy: The Principles and Practice of Numerical Classification , 1973 .

[8]  Patrick Pantel,et al.  Clustering by committee , 2003 .

[9]  E. Diday Une représentation visuelle des classes empiétantes: les pyramides , 1986 .

[10]  Melvin F. Janowitz,et al.  The k-weak Hierarchical Representations: An Extension of the Indexed Closed Weak Hierarchies , 2003, Discret. Appl. Math..

[11]  D. Rubin,et al.  Maximum likelihood from incomplete data via the EM - algorithm plus discussions on the paper , 1977 .

[12]  W. Scott Spangler,et al.  Feature Weighting in k-Means Clustering , 2003, Machine Learning.

[13]  Anil K. Jain,et al.  Data clustering: a review , 1999, CSUR.

[14]  J. MacQueen Some methods for classification and analysis of multivariate observations , 1967 .

[15]  Michael McGill,et al.  Introduction to Modern Information Retrieval , 1983 .