Syntaxe, raisonnement et génomes

J'ai travaille sur les problemes de modelisation du vivant avec l'hypothese fondamentale qu'il s'agit de machines symboliques et la volonte d'aider le chercheur en biologie a traiter avec le bon niveau d'abstraction ces machines. Le cœur de mes travaux considere les ensembles de sequences que forment les macromolecules du vivant comme des langages formels et cherche a approfondir les concepts necessaires pour mener a bien leur analyse linguistique. Il faut tout d'abord etudier le contenu lexical des sequences genomiques, son vocabulaire. Au niveau elementaire, les facteurs repetes fournissent les unites de sens de la sequence. Cependant, la notion naturelle de repetition dans l'ADN est beaucoup plus complexe et necessite a la fois d'etre formalisee et d'etre accompagnee d'une algorithmique de recherche specialisee. J'ai particulierement developpe cet aspect dans l'etude d'elements genetiques mobiles a l'interieur d'un genome ou entre deux genomes. J'ai egalement travaille sur le niveau syntaxique, ce qui a mene a l'elaboration d'un langage, Logol, qui permet au biologiste de construire un modele grammatical hypothetique puis de le tester sur des sequences genomiques. Le langage defini autorise en particulier une notion de variable de chaine avec une face abstraite qui represente la chaine d'origine et une face concrete pour les differentes instances copies de cette chaine d'origine. Ce cadre a ete valide sur plusieurs problemes biologiques de recherche de proteines ou d'elements genetiques, dont la decouverte de recepteurs olfactifs chez le chien et la decouverte de defensines humaines. Lorsqu'aucun modele n'est disponible, il faut tenter de l'inferer a partir d'exemples de sequences. J'ai lance une serie de recherches tant theoriques que pratiques sur ce theme. Au niveau theorique, le probleme difficile de l'inference de grammaires algebriques a ete aborde a partir d'ordres partiels sur les non-terminaux ou les arbres de derivation. La classe mieux maitrisable des langages reguliers a fait l'objet des travaux les plus approfondis, sur une representation par automates d'etats finis. L'inference devient alors un probleme d'optimisation par gestion d'un ensemble de contraintes dynamiques sur les equivalences d'etats. Du point de vue pratique, nous avons tout particulierement etudie ces problemes d'inference sur des sequences de proteines, par exemple en etudiant la prediction de certaines liaisons (ponts disulfures) entre des sites distants sur la sequence. Enfin, je propose a la fin de mon document d'habilitation un projet pour aborder de facon plus transdisciplinaire la modelisation du vivant en tant que machine symbolique. Les questions que pose la biologie, science experimentale par excellence, s'expriment majoritairement en termes de raisonnement hypothetique. Je propose de mener des recherches en vue de la mise au point d'un assistant d'experimentation biochimique sur puce sur cultures cellulaires. Le but global est le developpement d'un environnement permettant de relier en boucle experimentation, observations et acquisition de connaissances, en utilisant un systeme complet de raisonnement automatique (apprentissage abductif et inductif et planification).