Filtrage de séquences d'ADN pour la recherche de longues répétitions multiples. (DNA sequence filtration for the problem of finding long multiple repetitions)

La genomique moleculaire fait face en ce debut de siecle a de nouvelles situations qu'elle doit prendre en compte. D'une part, depuis une dizaine d'annees, la quantite de donnees disponibles croit de maniere exponentielle. D'autre part, la recherche dans le domaine implique de nouvelles questions dont les formulations in silico generent des problemes algorithmiquement difficiles a resoudre. Parmi ces problemes, certains concernent notamment l'etude de rearrangements genomiques dont les duplications et les elements transposables. Ils imposent que l'on soit en mesure de detecter precisement et efficacement de longues repetitions approchees et multiples dans les genomes. Par repetition multiple, nous designons des repetitions ayant au moins deux copies dans une sequence d'ADN, ou ayant des copies dans au moins deux sequences d'ADN distinctes. De plus, ces repetitions sont approchees dans le sens ou des erreurs existent entre les copies d'une meme repetition. La recherche de repetitions approchees multiples peut etre resolue par des algorithmes d'alignements multiples locaux mais ceux-ci presentent une complexite exponentielle en la taille de l'entree, et ne sont donc pas applicables a des donnees aussi grandes que des genomes. C'est pourquoi, de nouvelles techniques doivent etre creees pour repondre a ces nouveaux besoins. Dans cette these, une approche de filtrage des sequences d'ADN est proposee. Le but d'une telle approche est de supprimer rapidement et efficacement, parmi des textes representant des sequences d'ADN, de larges portions ne pouvant pas faire partie de repetitions. Les donnees filtrees, limitees en majorite aux portions pertinentes, peuvent alors etre fournies en entree d'un algorithme d'alignement multiple local. Les filtres proposes appliquent une condition necessaire aux sequences pour n'en conserver que les portions qui la respectent. Les travaux que nous presentons ont porte sur la creation de conditions de filtrage, a la fois efficaces et simples a appliquer d'un point de vue algorithmique. A partir de ces conditions de filtrage, deux filtres, Nimbus et Ed'Nimbus, ont ete crees. Ces filtres sont appeles exacts car il ne suppriment jamais de donnees contenant effectivement des occurrences de repetitions respectant les caracteristiques fixees par un utilisateur. L'efficacite du point de vue de la simplicite d'application et de celui de la precision du filtrage obtenu, conduit a de tres bons resultats en pratique. Par exemple, le temps utilise par des algorithmiques de recherche de repetitions ou d'alignements multiples peut etre reduit de plusieurs ordres de grandeur en utilisant les filtres proposes. Il est important de noter que les travaux presentes dans cette these sont inspires par une problematique biologique mais ils sont egalement generaux et peuvent donc etre appliques au filtrage de tout type de textes afin d'y detecter de grandes portions repetees.