Sélection et transformation de variables pour la classification Multi-Label par une approche MDL

Résumé. La classification multi-label est une extension de la classification supervisée au cas de plusieurs labels. Elle a connu un regain d’intérêt récent dans la communauté du machine learning de par son utilité dans plusieurs domaines. Comme pour tout problème de machine learning, le besoin de prétraiter les données multi-label est apparu comme une nécessité afin d’améliorer les performances des classifieurs. Dans cet article, nous introduisons une nouvelle méthode permettant de prétraiter des variables descriptives par discrétisation ou groupement de valeur, dans le cas de plusieurs labels à prédire. Le choix du meilleur prétraitement est posé comme un problème de sélection de modèle, et est résolu au moyen d’une approche bayésienne. Une étude comparative est réalisée avec d’autres méthodes de l’état de l’art afin de positionner la nouvelle méthode et de montrer l’intérêt de la sélection de variables pour la classification.