Exploiter l'information mutuelle inter-gènes pour réduire la dimension des données biopuces: une approche basée sur la construction automatique d'attributs

Cet article decrit et analyse experimentalement une methode originale de reduction de dimension pour les donnees biopuces. Les biopuces qui permettent de mesurer simultanement le niveau d'expression de milliers de genes dans une condition donnee (tissu, cellule ou temps) produisent des donnees qui posent des problemes speci ques d'apprentissage automatique. La disproportion entre le nombre d'attributs (de l'ordre de la dizaine de milliers) et celui des exemples (de l'ordre de la centaine) requiert une reduction de dimension. Si l'information mutuelle gene/classe est souvent utilisee pour ltrer les genes nous proposons une approche qui prend en compte celle de couple de genes/classe. Plusieurs heuristiques de selection de genes basees sur ce principe sont proposees ainsi qu'une procedure de construction automatique d'attributs forcant les algorithmes d'apprentissage a tirer partie de ces couples de genes. Les premiers resultats de reduction de dimension, puis de construction d'attributs et d'apprentissage sur plusieurs bases de donnees biopuces publiques montrent experimentalement l'interet des approches.

[1]  Nir Friedman,et al.  Scoring Genes for Relevance , 2000 .

[2]  Geoffrey J McLachlan,et al.  Selection bias in gene extraction on the basis of microarray gene-expression data , 2002, Proceedings of the National Academy of Sciences of the United States of America.

[3]  R. Tibshirani,et al.  Significance analysis of microarrays applied to the ionizing radiation response , 2001, Proceedings of the National Academy of Sciences of the United States of America.

[4]  Iñaki Inza,et al.  Gene selection by sequential search wrapper approaches in microarray cancer class prediction , 2002, J. Intell. Fuzzy Syst..

[5]  S. Dudoit,et al.  Comparison of Discrimination Methods for the Classification of Tumors Using Gene Expression Data , 2002 .

[6]  Jason Weston,et al.  Gene Selection for Cancer Classification using Support Vector Machines , 2002, Machine Learning.

[7]  Xintao Wu,et al.  Graphical modeling based gene interaction analysis for microarray data , 2003, SKDD.

[8]  Ivan Bratko,et al.  Analyzing Attribute Dependencies , 2003, PKDD.

[9]  Joydeep Ghosh,et al.  Linear feature extractors based on mutual information , 1996, Proceedings of 13th International Conference on Pattern Recognition.

[10]  Hiroshi Motoda,et al.  Feature Selection for Knowledge Discovery and Data Mining , 1998, The Springer International Series in Engineering and Computer Science.

[11]  Byoung-Tak Zhang,et al.  Applying Machine Learning Techniques to Analysis of Gene Expression Data: Cancer Diagnosis , 2002 .

[12]  Blaise Hanczar,et al.  Improving classification of microarray data using prototype-based feature selection , 2003, SKDD.

[13]  M. Roulston Estimating the errors on measured entropy and mutual information , 1999 .

[14]  A. Levine,et al.  Gene assessment and sample classification for gene expression data using a genetic algorithm/k-nearest neighbor method. , 2001, Combinatorial chemistry & high throughput screening.