Un modèle de mélange pour la classification croisée d'un tableau de données continues

Contrairement aux methodes de classification automatique habituelles, les methodes de classification croisee traitent l'ensemble des lignes et l'ensemble des colonnes d'un tableau de donnees simultanement en cherchant a obtenir des blocs homogenes. Dans cet article, nous abordons la classification croisee lorsque le tableau de donnees porte sur un ensemble d'individus decrits par des variables quantitatives et, pour tenir compte de cet objectif, nous proposons un modele de melange adapte a la classification croisee conduisant a des criteres originaux permettant de prendre en compte des situations plus complexes que les criteres habituellement utilises dans ce contexte. Les parametres sont alors estimes par un algorithme EM generalise (GEM) maximisant la vraisemblance des donnees observees. Nous proposons en outre une nouvelle expression du critere bayesien de l'information, appelee BIC_B, adaptee a notre situation pour evaluer le nombre de blocs. Des experiences numeriques portant sur des donnees synthetiques permettent d'evaluer les performances de GEM et de BIC_B et de montrer l'interet de cette approche.

[1]  G. Celeux,et al.  A Classification EM algorithm for clustering and two stochastic versions , 1992 .

[2]  Peter Schlattmann,et al.  Estimating the number of components in a finite mixture model: the special case of homogeneity , 2003, Comput. Stat. Data Anal..

[3]  Evangelos E. Milios,et al.  Latent Dirichlet Co-Clustering , 2006, Sixth International Conference on Data Mining (ICDM'06).

[4]  H. Harman Modern factor analysis , 1961 .

[5]  D. Rubin,et al.  Maximum likelihood from incomplete data via the EM - algorithm plus discussions on the paper , 1977 .

[6]  Phipps Arabie,et al.  The bond energy algorithm revisited , 1990, IEEE Trans. Syst. Man Cybern..

[7]  Gérard Govaert,et al.  Clustering with block mixture models , 2003, Pattern Recognit..

[8]  Christophe Biernacki,et al.  Choosing starting values for the EM algorithm for getting the highest likelihood in multivariate Gaussian mixture models , 2003, Comput. Stat. Data Anal..

[9]  Gérard Govaert,et al.  Block clustering with Bernoulli mixture models: Comparison of different approaches , 2008, Comput. Stat. Data Anal..

[10]  Gérard Govaert,et al.  An EM algorithm for the block mixture model , 2005, IEEE Transactions on Pattern Analysis and Machine Intelligence.

[11]  H. Akaike,et al.  Information Theory and an Extension of the Maximum Likelihood Principle , 1973 .

[12]  Geoffrey J. McLachlan,et al.  Finite Mixture Models , 2019, Annual Review of Statistics and Its Application.

[13]  Gérard Govaert La classification croisée , 1989, Monde des Util. Anal. Données.

[14]  J. Rissanen,et al.  Modeling By Shortest Data Description* , 1978, Autom..

[15]  P. Deb Finite Mixture Models , 2008 .

[16]  John A. Hartigan,et al.  Clustering Algorithms , 1975 .

[17]  Vincent Kanade,et al.  Clustering Algorithms , 2021, Wireless RF Energy Transfer in the Massive IoT Era.