Sélection de modèle pour la classification croisée de données continues
暂无分享,去创建一个
La classification croisee a pour objectif de partitionner simultanement les lignes et les colonnes d'un tableau de donnees pour reveler la structure en blocs homogenes. Parmi les differentes methodes proposees, l'une d'entre elles utilise le modele probabiliste des blocs latents. Pour un meme jeu de donnees, plusieurs classifications croisees qui different par le nombre de classes par exemple peuvent etre proposees. La selection du nombre de classes devient alors un probleme fondamental afin d'obtenir une classification des donnees pertinente. De plus, l'absence de jeu de donnees reelles de reference limite l'evaluation objective des methodes d'apprentissage. De ce fait, l'utilisation des donnees simulees est particulierement interessante. Cependant, leur conception pose plusieurs problemes : la quantification de la difficulte du probleme d'apprentissage qui s'exprime par le risque de Bayes en classification simple est problematique en raison de la double nature de la dimension du tableau. La premiere contribution de cette these reside donc en la definition d'une mesure objective du niveau de difficulte d'un probleme de classification croisee afin de proposer un protocole de simulation pour lequel le degre de melange des classes est controle. Pour ce faire, nous revenons sur la definition des fonctions de cout des regles de Bayes et des risques. Puis, nous decrivons les difficultes liees a l'estimation de ces quantites. A partir de ces dernieres, nous definissons un risque de Bayes conditionne par le tableau de donnees observe comme mesure du niveau de difficulte. Par la suite, nous proposons un protocole de simulation utilisant le modele de blocs latents pour lequel le niveau de difficulte exprime par ce risque conditionnel est controle. Pour le choix du nombre de classes, nous proposons dans cette these une nouvelle procedure utilisant des criteres de selection de modele reposant sur des justifications theoriques et ne necessitant pas de calculs supplementaires couteux apres l'estimation du modele de blocs latents. Puisque nous employons un modele probabiliste, nous adaptons le critere ICL qui a ete initialement defini pour le choix du nombre de composants des modeles de melange. Nous developpons trois versions qui different suivant les hypotheses et les distributions a priori posees. Nous proposons egalement un critere derive BIC. Les resultats obtenus du critere ICL exact informatif et des deux criteres asymptotiques ICLBIC et BIC sur des jeux de donnees simulees et reelles montrent que ceux-ci sont performants et robustes pour des tableaux suffisamment grands quant a la selection du nombre de classes et du type de modele.