Intégration efficace de méthodes de fouille de données dans les SGBD

Résumé. Cet article présente une nouvelle approche permettant d’appliquer des algorithmes de fouille, en particulier d’apprentissage supervisé, à de grandes bases de données et en des temps de traitement acceptables. Cet objectif est atteint en intégrant ces algorithmes dans un SGBD. Ainsi, nous ne sommes limités que par la taille du disque et plus par celle de la mémoire. Cependant, les entrées-sorties nécessaires pour accéder à la base engendrent des temps de traitement longs. Nous proposons donc dans cet article une méthode originale pour réduire la taille de la base d’apprentissage en construisant sa table de contingence. Les algorithmes d’apprentissage sont alors adaptés pour s’appliquer à la table de contingence. Afin de valider notre approche, nous avons implémenté la méthode de construction d’arbre de décision ID3 et montré que l’utilisation de la table de contingence permet d’obtenir des temps de traitements équivalents à ceux des logiciels classiques.