Caractérisation de signatures complexes dans des familles de protéines distantes

Résumé. L’identification de signatures de protéines est un problème majeur pour la découverte de nouveaux membres dans des familles de protéines connues. Le concept de signature qui permet de caractériser ces familles est généralement basé sur la définition de motifs communs. Il s’avère que les familles distantes sont trop hétérogènes pour qu’on puisse identifier des régions conservées à partir des algorithmes classiques de la bioinformatique. Nous proposons une approche génétique pour la découverte de motifs hiérarchiques ; l’algorithme suit une démarche descendante en s’appuyant dans une première phase sur les classes physicochimiques des acides aminés. Les signatures sont ensuite définies par des séquences des motifs ainsi obtenus. Elles sont extraites au moyen d’un algorithme de découverte d’itemsets séquentiels où les motifs jouent le rôle d’items. Une dernière étape consiste à fouiller dans cette base d’itemsets pour n’en retenir qu’un ensemble réduit de signatures. Plusieurs stratégies sont proposées pour déterminer un ensemble optimal de signatures qui respecte des contraintes de complétude, de cardinalité et de spécificité. Nous appliquons notre démarche sur la famille des cytokines. L’analyse de la base de protéines SCOP a montré que le groupe de signatures que nous avons extrait cible spécifiquement cette famille d’intérêt.