Données déséquilibrées, entropie décentrée et indice d'implication

Cet article porte sur l'induction d'arbres de classification pour des donnees desequilibrees, c'est-a-dire lorsque certaines categories de la variable a predire sont beaucoup plus rares que d'autres. Plus particulierement nous nous interessons a deux aspects: d'une part, a definir des criteres de construction de l'arbre qui exploitent efficacement la nature desequilibree des donnees, et d'autre part la pertinence de la conclusion a associer aux feuilles de l'arbre. Nous avons recemment aborde cette problematique sous deux angles independants: l'un etait axe sur le recours a des entropies decentrees, l'autre s'appuyant sur des mesures d'intensites d'implication issues de l'ASI. Nous nous proposons ici de comparer et d'etablir les similarites entre ces deux approches. - This paper is concerned with the induction of classification trees for imbalanced data, i.e. for the case where some categories of the target variable are much less frequent than other ones. More specifically, we address two aspects. On the one hand, we look for growing criteria that efficiently take into account the specific imbalanced nature of the data. On the other hand, we deal with the relevance of the conclusion that should be assigned to the leaves of a grown tree. We have recently considered two independent ways for dealing with these issues. The first one consisted in defining and using out centered entropies, and the second one on relying on measures of implication strength derived from implicative statistics. The aim of this paper is to compare and establish the relationship between these two approaches.