Intégration efficace de méthodes de fouille de données dans les SGBD
暂无分享,去创建一个
Résumé. Cet article présente une nouvelle approche permettant d’appliquer des algorithmes de fouille, en particulier d’apprentissage supervisé, à de grandes bases de données et en des temps de traitement acceptables. Cet objectif est atteint en intégrant ces algorithmes dans un SGBD. Ainsi, nous ne sommes limités que par la taille du disque et plus par celle de la mémoire. Cependant, les entrées-sorties nécessaires pour accéder à la base engendrent des temps de traitement longs. Nous proposons donc dans cet article une méthode originale pour réduire la taille de la base d’apprentissage en construisant sa table de contingence. Les algorithmes d’apprentissage sont alors adaptés pour s’appliquer à la table de contingence. Afin de valider notre approche, nous avons implémenté la méthode de construction d’arbre de décision ID3 et montré que l’utilisation de la table de contingence permet d’obtenir des temps de traitements équivalents à ceux des logiciels classiques.
[1] Sunita Sarawagi,et al. Integrating Mining with Relational Database Systems: Alternatives and Implications. , 1998, SIGMOD 1998.
[2] Surajit Chaudhuri. Data Mining and Database Systems: Where is the Intersection? , 1998, IEEE Data Eng. Bull..