Apprentissage de la structure des réseaux bayésiens à partir des motifs fréquents corrélés : application à l'identification des facteurs environnementaux du cancer du Nasopharynx

Résumé. L’apprentissage de structure des réseaux bayésien à partir de données est un problème NP-difficile pour lequel de nombreuses heuristiques ont été proposées. Dans cet article, nous proposons une nouvelle méthode inspirée des travaux sur la recherche de motifs fréquents corrélés pour identifier les causalités entre les variables. L’algorithme opère en quatre temps : (1) la découverte par niveau des motifs fréquents corrélés minimaux ; (2) la construction d’un graphe non orienté à partir de ces motifs ; (3) la détection des V_structures et l’orientation partielle du graphe ; (4) l’élimination des arêtes superflues par des tests d’indépendance conditionnelle. La méthode, appliquée au réseau Asia, permet de retrouver la structure du graphe initial. Nous l’appliquons ensuite aux données d’une étude épidémiologique cas-témoins du cancer du nasopharynx (NPC). L’objectif est de dresser un profil statistique type de la population étudiée et d’apporter un éclairage utile sur les différents facteurs impliqués dans le NPC.

[1]  Petra Perner,et al.  Data Mining - Concepts and Techniques , 2002, Künstliche Intell..

[2]  Ramakrishnan Srikant,et al.  Fast Algorithms for Mining Association Rules in Large Databases , 1994, VLDB.

[3]  Heikki Mannila,et al.  Principles of Data Mining , 2001, Undergraduate Topics in Computer Science.

[4]  David A. Bell,et al.  Learning Bayesian networks from data: An information-theory based approach , 2002, Artif. Intell..

[5]  H. Mannila,et al.  Discovering all most specific sentences , 2003, TODS.

[6]  David J. Spiegelhalter,et al.  Local computations with probabilities on graphical structures and their application to expert systems , 1990 .

[7]  Peter J. F. Lucas,et al.  Bayesian networks in biomedicine and health-care , 2004, Artif. Intell. Medicine.

[8]  Lise Getoor,et al.  Understanding tuberculosis epidemiology using structured statistical models , 2004, Artif. Intell. Medicine.

[9]  Roberto J. Bayardo,et al.  Mining the most interesting rules , 1999, KDD '99.

[10]  Jian Pei,et al.  Mining frequent patterns without candidate generation , 2000, SIGMOD '00.

[11]  Tomasz Imielinski,et al.  Mining association rules between sets of items in large databases , 1993, SIGMOD Conference.

[12]  Rajeev Motwani,et al.  Beyond market baskets: generalizing association rules to correlations , 1997, SIGMOD '97.

[13]  Luis M. de Campos,et al.  A comparison of learning algorithms for Bayesian networks: a case study based on data from an emergency medical service , 2004, Artif. Intell. Medicine.

[14]  Jean-Marc Adamo,et al.  Data Mining for Association Rules and Sequential Patterns , 2000, Springer New York.

[15]  Rajeev Motwani,et al.  Scalable Techniques for Mining Causal Structures , 1998, Data Mining and Knowledge Discovery.

[16]  Philippe Leray,et al.  BNT STRUCTURE LEARNING PACKAGE : Documentation and Experiments , 2004 .

[17]  Tom Burr,et al.  Causation, Prediction, and Search , 2003, Technometrics.

[18]  Bart De Moor,et al.  Using literature and data to learn Bayesian networks as clinical models of ovarian tumors , 2004, Artif. Intell. Medicine.

[19]  Judea Pearl,et al.  A Theory of Inferred Causation , 1991, KR.

[20]  Roberto J. Bayardo,et al.  Efficiently mining long patterns from databases , 1998, SIGMOD '98.

[21]  Gregory F. Cooper,et al.  A Simple Constraint-Based Algorithm for Efficiently Mining Observational Databases for Causal Relationships , 1997, Data Mining and Knowledge Discovery.

[22]  Gerd Stumme,et al.  Mining frequent patterns with counting inference , 2000, SKDD.

[23]  Kevin P. Murphy,et al.  Learning the Structure of Dynamic Probabilistic Networks , 1998, UAI.

[24]  J. Pearl Causality: Models, Reasoning and Inference , 2000 .

[25]  Nicolas Pasquier,et al.  Efficient Mining of Association Rules Using Closed Itemset Lattices , 1999, Inf. Syst..