Une construction interactive d'interprétations de données : application aux bases de données de séquences génétiques
暂无分享,去创建一个
L'objectif de cette these est de faciliter l'interpretation de grands ensembles de donnees, c'est-a-dire d'extraire des connaissances a partir de donnees. Nous avons utilise deux domaines complementaires: bases de donnees (objet) et apprentissage automatique. Dans une premiere etape, nous proposons d'extraire des descripteurs a partir d'ensembles de donnees de reference, puis d'utiliser ces descripteurs pour interpreter de nouvelles donnees (non encore caracterisees). Dans une seconde etape, une classification construite a partir de donnees interpretees par des descripteurs peut etre critiquee par une methode d'analyse specifique, ce qui conduit en retour a une revision des donnees et des descripteurs. Une application a ete menee dans le cadre de l'analyse de sequences genetiques (proteines) en utilisant des motifs proteiques comme descripteurs, des treillis de concept comme methode de classification et l'alignement multiple de sequences pour la critique