Pour une meilleure exploitation de la classification croisée dans les systèmes de filtrage collaboratif

{{Contexte}} Les techniques de filtrage collaboratif ont pris une place très importante dans le filtrage de l’information. Elles sont destinées principalement aux systèmes de recommandation. En se basant sur les évaluations déjà exprimées par un utilisateur à propos d’autres items, elles consistent à prédire l’intérêt d’un utilisateur pour un nouvel item, à suggérer de nouveaux items ou encore à prédire l’utilité d’items inconnus pour un utilisateur donné. Les méthodes de filtrage collaboratif peuvent être essentiellement divisées en deux groupes : approches fondées sur la mémoire et approches à base de modèles [1]. Les approches fondées sur la mémoire ont la particularité d’utiliser toutes les données disponibles pour prédire la note d’un nouvel item par un utilisateur particulier. De telles approches, qui ont été utilisées sur de nombreuses applications réelles [2, 3], ont l’avantage d’intégrer immédiatement des nouvelles données dans le système et une simplicité de l’implémentation. Par conséquent, ils fournissent en général des prévisions plus précises pour les systèmes en-ligne. Cependant, ces systèmes sont très sensibles aux données sparses. En effet, si les données s’avèrent rares, il est difficile d’identifier des voisins fiables (à partir des items co-notés) et par conséquent la performance du système décroît. En revanche, les approches à base de modèles n’utilisent pas la totalité d’informations disponibles pour faire une prédiction [4, 5, 6]. Ils apprennent généralement off-line un modèle robuste des préférences des utilisateurs. Ces approches ont l’avantage de fournir des prévisions précises d’une manière rapide et d’être moins sensibles aux données manquantes. Toutefois, elles requièrent beaucoup de temps pour apprendre le modèle, ce qui les rend moins efficaces dans un système en-ligne, où de nouvelles données sont fréquemment rajoutées au système. Le processus de construction du modèle est basé sur les techniques variées telles que les réseaux bayésiens, le clustering, les arbres de décision. Dans le domaine du filtrage collaboratif il y a eu plusieurs tentatives proposant des solutions au problème des données sparses [7, 8, 9]. Des méthodes basées sur un modèle utilisent notamment les techniques de réduction de la dimension de l’espace des items ou le clustering dans l’espace des utilisateurs dans le but d’écarter les utilisateurs ou les items non représentatifs. Ainsi l’espace de représentation utilisateur-item est réduit et le taux de données manquantes est moins important comparé à l’espace de représentation original. Notons toutefois qu’en portant la réduction de la dimension et le clustering sur un des deux espaces, on tend à privilégier un espace sur un autre. {{Travail à effectuer}} Le défi principal de ce projet de thèse est de proposer une approche permettant de surmonter les difficultés décrites précédemment. Pour ce faire, nous proposons d’adopter une approche basée sur la classification croisée co-clustering [10, 11, 12] qui consiste à partitionner les deux espaces simultanément et par conséquent ne pas privilégier un espace sur un autre. Dans cette thèse, nous allons considéré deux approches foncièrement différentes. • une première statistique basée sur les modèles de mélanges par blocs [13] et, • une seconde algébrique basée sur la tri-factorisation de matrice non négative [14]. Ces deux approches ont montré leurs intérêts dans le cadre de la classification croisée pour traiter des données de grandes tailles sparses et dans une grande dimension. Néanmoins, elles ne sont pas développées en présence de données manquantes et méritent d’être utilisées dans ce contexte. Dans une première phase, les deux approches seront étendues pour la gestion de données manquantes et la gestion en-ligne dans les systèmes de recommandation. Des méthodes hybrides combinant les deux approches pourront être proposées. Dans une seconde étape, les algorithmes issues des deux approches seront comparés aux approches existantes à partir de données simulées et de données réelles afin de mesurer la performance de l’outil proposé.