DiscoClini : Une méthodologie pour l'extraction de relations linéaires dans des données de génomique médicale

DiscoClini est une methode qui permet de mettre en evidence de maniere automatique des relations entre 2 ensembles de donnees numeriques. Notre domaine d’application est la genomique fonctionnelle. Nos sources de donnees sont ainsi des donnees d’expression genique issues de puces a ADN et des donnees biocliniques. Le volume de donnees a explorer est consequent car nous disposons de dizaines de milliers de mesures realisees simultanement sur les puces a ADN pour quelques dizaines d’individus et des dizaines de parametres cliniques pour chaque individu. Notre objectif est de faciliter la decouverte de relations globales ou partiellement lineaires. Peu de travaux s’interessent de maniere specifique a la decouverte automatique de correlations lineaires. Nous proposons un environnement ayant pour but de reduire les a priori sur les calculs effectues et les temps d’exploration des donnees par l’expert. Le flux de DiscoClini est le suivant : (1) definition des sources de donnees biocliniques et d’expression genique issues de puces a ADNc ; (2) extraction depuis les sources des donnees relatives aux individus que l’on souhaite inclure dans une etude correlationnelle ; (3) calculs sur les ensembles (3a) univaries definis precedemment et (3b) bivaries correspondant a la mise en relation d’un attribut issu de l’ensemble des donnees biocliniques et d’un attribut issu de l’ensemble des donnees d’expression genique ; (4) exploration visuelle des resultats des calculs sur les ensembles bivaries ; (5) validation biologique des resultats par l’expert du domaine. Il permet aux biologistes (dans notre contexte applicatif) de decouvrir sans a priori des relations lineaires entre les deux types de donnees. Notre methode peut etre assimilee a une suite d’approximations et de reformulations, qui permettent a l’utilisateur de disposer de resultats d’analyse sous une forme synthetique et facilement exploitable. En (3b) les correlations entre les sous-ensembles sont calculees. Les meilleurs resultats

[1]  K. Clément,et al.  In vivo epinephrine-mediated regulation of gene expression in human skeletal muscle. , 2004, The Journal of clinical endocrinology and metabolism.

[2]  Jean-Daniel Zucker,et al.  Cathepsin S, a novel biomarker of adiposity: relevance to atherogenesis , 2005, FASEB journal : official publication of the Federation of American Societies for Experimental Biology.

[3]  K. Clément,et al.  The FASEB Journal • Research Communication Weight loss regulates inflammation-related genes in white adipose tissue of obese subjects , 2022 .