Une nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité

Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de calculer pour chacune d’elles une fonction de contraste. La méthode est expérimentée sur différents types de données textuelles. Dans ce contexte, nous montrons que cette technique améliore les performances des méthodes de classification de façon très significative par rapport à l’état de l’art des techniques de sélection de variables, notamment dans le cas de la classification de données textuelles déséquilibrées, fortement multidimensionnelles et bruitées.

[1]  Jason Weston,et al.  Gene Selection for Cancer Classification using Support Vector Machines , 2002, Machine Learning.

[2]  Jean-Charles Lamirel,et al.  Unsupervised recall and precision measures: a step towards new efficient clustering quality indexes , 2010 .

[3]  George Forman,et al.  An Extensive Empirical Study of Feature Selection Metrics for Text Classification , 2003, J. Mach. Learn. Res..

[4]  Jean-Charles Lamirel,et al.  Enhancing Patent Expertise through Automatic Matching with Scientific Papers , 2012, Discovery Science.

[5]  Verónica Bolón-Canedo,et al.  A review of feature selection methods on synthetic data , 2013, Knowledge and Information Systems.

[6]  Isabelle Guyon,et al.  An Introduction to Variable and Feature Selection , 2003, J. Mach. Learn. Res..

[7]  Huan Liu,et al.  Consistency-based search in feature selection , 2003, Artif. Intell..

[8]  Lloyd A. Smith,et al.  Feature Selection for Machine Learning: Comparing a Correlation-Based Filter Approach to the Wrapper , 1999, FLAIRS.

[9]  Stéphane Lallich,et al.  Fast Feature Selection Using Partial Correlation for Multi-vaslued Attributes , 2000, PKDD.

[10]  P. Good Resampling Methods , 1999, Birkhäuser Boston.

[11]  Jean-Charles Lamirel Combination of hyperbolic visualization and graph-based approach for organizing data analysis results: an application to social network analysis , 2008 .

[12]  L. Ladha,et al.  FEATURE SELECTION METHODS AND ALGORITHMS , 2011 .

[13]  Leo Breiman,et al.  Random Forests , 2001, Machine Learning.

[14]  D. Kibler,et al.  Instance-based learning algorithms , 2004, Machine Learning.

[15]  Ron Kohavi,et al.  Wrappers for Feature Subset Selection , 1997, Artif. Intell..