Inférence de réseaux d'interaction protéine-protéine par apprentissage statistique. (Protein-protein interaction network inference using statistical learning)

L'objectif de cette these est de developper des outils de prediction d'interactions entre proteines qui puissent etre appliques en particulier chez l'homme, sur les proteines qui constituent un reseau avec la proteine CFTR. Cette proteine, lorsqu'elle est defectueuse, est impliquee dans la mucoviscidose. Le developpement de methodes de prediction in silico peut s'averer utile pour suggerer aux biologistes de nouvelles cibles d'interaction et pour mieux expliquer les fonctions des proteines presentes dans ce reseau. Nous proposons une nouvelle methode pour le probleme de la prediction de liens dans un reseau. Afin de beneficier de l'information des donnees non etiquetees, nous nous placons dans le cadre de l'apprentissage semi-supervise. Nous abordons ce probleme de prediction comme une tâche d'apprentissage d'un noyau de sortie, appelee regression a noyau de sortie. Un noyau de sortie est suppose coder les proximites existantes entre les noeuds du graphe et l'objectif est d'approcher ce noyau a partir de descriptions appropriees en entree. L'utilisation de l'astuce du noyau dans l'ensemble de sortie permet de reduire le probleme d'apprentissage a partir de paires a un probleme d'apprentissage d'une fonction d'une seule variable a valeurs dans un espace de Hilbert. En choisissant les fonctions candidates pour la regression dans un espace de Hilbert a noyau reproduisant a valeur operateur, nous developpons, comme dans le cas de fonctions a valeurs scalaires, des outils de regularisation. Nous etablissons en particulier des theoremes de representation dans le cas supervise et dans le cas semi-supervise, que nous utilisons ensuite pour definir de nouveaux modeles de regression pour differentes fonctions de cout, appeles IOKR-ridge et IOKR-margin. Nous avons d'abord teste l'approche developpee sur des donnees artificielles, des problemes test ainsi que sur un reseau d'interaction proteine-proteine chez la levure S. Cerevisiae et obtenu de tres bons resultats. Puis nous l'avons appliquee a la prediction d'interactions entre proteines dans le cas d'un reseau construit autour de la proteine CFTR.