Sélection topologique de variables dans un contexte de discrimination

Resume. En apprentissage automatique, la presence d’un grand nombre de variables explicatives conduit a une plus grande complexite des algorithmes et a une forte degradation des performances des modeles de prediction. Pour cela, une selection d’un sous-ensemble optimal discriminant de ces variables s’avere necessaire. Dans cet article, une approche topologique est proposee pour la selection de ce sous-ensemble optimal. Elle utilise la notion de graphe de voisinage pour classer les variables par ordre de pertinence, ensuite, une methode pas a pas de type ascendante "forward" est appliquee pour construire une suite de modeles dont le meilleur sous-ensemble est choisi selon son degre d’equivalence topologique de discrimination. Pour chaque sous-ensemble, le degre d’equivalence est mesure en comparant la matrice d’adjacence induite par la mesure de proximite choisie a celle induite par la "meilleure" mesure de proximite discriminante dite de reference. Les performances de cette approche sont evaluees a l’aide de donnees simulees et reelles. Des comparaisons de selection de variables en discrimination avec une approche metrique montrent une bien meilleure selection a partir de l’approche topologique proposee.

[1]  Donato Malerba,et al.  Comparing Dissimilarity Measures for Symbolic Data Analysis , 2001 .

[2]  Donato Malerba,et al.  Comparing Dissimilarity Measures For Probabilistic Symbolic Objects , 2002 .

[3]  Rafik Abdesselam,et al.  Choix d'une mesure de proximité discriminante dans un contexte topologique , 2015, EGC.

[4]  Hao Helen Zhang,et al.  Variable selection for the multicategory SVM via adaptive sup-norm regularization , 2008, 0803.3676.

[5]  Xiaotong Shen,et al.  MULTI-CATEGORY SUPPORT VECTOR MACHINES, FEATURE SELECTION AND SOLUTION PATH , 2006 .

[6]  Bernadette Bouchon-Meunier,et al.  Discrimination power of measures of resemblance , 2003 .

[7]  S. Dudoit,et al.  Comparison of Discrimination Methods for the Classification of Tumors Using Gene Expression Data , 2002 .

[8]  Alain Rakotomamonjy,et al.  Variable Selection Using SVM-based Criteria , 2003, J. Mach. Learn. Res..

[9]  Asmelash Teka,et al.  Topological Comparisons of Proximity Measures , 2012, PAKDD.

[10]  Matthijs J. Warrens,et al.  Bounds of Resemblance Measures for Binary (Presence/Absence) Variables , 2008, J. Classif..

[11]  Rafik Abdesselam Proximity measures in topological structure for discrimination , 2014 .

[12]  V. Batagelj,et al.  Comparing resemblance measures , 1995 .

[13]  Fuhui Long,et al.  Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy , 2003, IEEE Transactions on Pattern Analysis and Machine Intelligence.

[14]  Godfried T. Toussaint,et al.  The relative neighbourhood graph of a finite planar set , 1980, Pattern Recognit..

[15]  Marie-Jeanne Lesot,et al.  Similarity measures for binary and numerical data: a survey , 2008, Int. J. Knowl. Eng. Soft Data Paradigms.

[16]  M. Richter Classification and Learning of Similarity Measures , 1993 .

[17]  Jason Weston,et al.  Gene Selection for Cancer Classification using Support Vector Machines , 2002, Machine Learning.

[18]  Ron Kohavi,et al.  Wrappers for Feature Subset Selection , 1997, Artif. Intell..

[19]  Xiaotong Shen,et al.  On L1-Norm Multiclass Support Vector Machines , 2007 .

[20]  Lifeng Wang,et al.  On L_1-Norm Multi-class Support Vector Machines , 2006, 2006 5th International Conference on Machine Learning and Applications (ICMLA'06).

[21]  Victoria S. Uren,et al.  Comparing Dissimilarity Measures for Content-Based Image Retrieval , 2008, AIRS.

[22]  Daphne Koller,et al.  Toward Optimal Feature Selection , 1996, ICML.

[23]  Byoung Kyu Choi,et al.  Elliptic Gabriel graph for finding neighbors in a point set and its application to normal vector estimation , 2006, Comput. Aided Des..

[24]  Jeong Han Kim,et al.  Tail bound for the minimal spanning tree of a complete graph , 2003 .