Approximation de collections de concepts formels par des bi-ensembles denses et pertinents

Résuḿe : Le calcul de concepts formels, et plus généralement l’us age des treillis de Galois pour l’extraction de connaissances, a motivé de t rès nombreuses recherches. Grâce à des progrès algorithmiques récents, ces techniques fournissent des motifs particulièrement intéressants pour l’analys e de grandes matrices codant l’expression de milliers de gènes dans des situations biologiques variées. Dans cet article, nous considérons le contexte réaliste, no amment en biologie, où les concepts formels reflètent des associations trop forte s et donc très sensibles au bruit dans les données. Nous étudions l’extraction de biensembles denses et pertinents pour approximer des collections de concepts formel s. L travail est formalisé dans le cadre de l’extraction de motifs sous contraint es par des algorithmes complets. Plusieurs validations expérimentales confirme nt la valeur ajoutée de notre approche. Mots-clés: Découverte de connaissances, extraction de motifs sous c ontraintes, concepts formels, bioinformatique.

[1]  Cheng Yang,et al.  Efficient discovery of error-tolerant frequent itemsets in high dimensions , 2001, KDD '01.

[2]  Inderjit S. Dhillon,et al.  Information-theoretic co-clustering , 2003, KDD '03.

[3]  Ruggero G. Pensa,et al.  Assessment of discretization techniques for relevant pattern discovery from gene expression data , 2004, BIOKDD.

[4]  Aristides Gionis,et al.  Approximating a collection of frequent sets , 2004, KDD.

[5]  C. Becquet,et al.  Strong-association-rule mining for large-scale gene-expression data analysis: a case study on human SAGE data , 2002, Genome Biology.

[6]  Heikki Mannila,et al.  Dense itemsets , 2004, KDD.

[7]  Céline Robardet Contribution à la classification non supervisée : proposition d'une méthode de bi-partitionnement , 2002 .

[8]  Engelbert Mephu Nguifo,et al.  Étude et conception d'algorithmes de génération de concepts formels , 2004, Ingénierie des Systèmes d Inf..

[9]  Aristides Gionis,et al.  Geometric and Combinatorial Tiles in 0-1 Data , 2004, PKDD.

[10]  Jean-François Boulicaut,et al.  Mining Formal Concepts with a Bounded Number of Exceptions from Transactional Data , 2004, KDID.

[11]  Mohammed J. Zaki,et al.  CHARM: An Efficient Algorithm for Closed Itemset Mining , 2002, SDM.

[12]  Jian Pei,et al.  CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets , 2000, ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery.

[13]  Bart Goethals,et al.  Proceedings of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations (FIMI 2004) , 2004 .

[14]  Nicolas Pasquier,et al.  Efficient Mining of Association Rules Using Closed Itemset Lattices , 1999, Inf. Syst..

[15]  Henry Soldano,et al.  Treillis de Galois Alpha , 2004 .

[16]  Jean-François Boulicaut,et al.  Constraint-Based Mining of Formal Concepts in Transactional Data , 2004, PAKDD.

[17]  Daniel Kifer,et al.  DualMiner: A Dual-Pruning Algorithm for Itemsets with Constraints , 2002, Data Mining and Knowledge Discovery.

[18]  Gerd Stumme,et al.  Computing iceberg concept lattices with T , 2002, Data Knowl. Eng..

[19]  Jean-François Boulicaut,et al.  Resolving transcription network from microarray data with constraint-based formal concept mining , 2005 .

[20]  J. Derisi,et al.  The Transcriptome of the Intraerythrocytic Developmental Cycle of Plasmodium falciparum , 2003, PLoS biology.

[21]  Jean-François Boulicaut,et al.  Using transposition for pattern discovery from microarray data , 2003, DMKD '03.