Transformations d'Arbres XML avec des Modèles Probabilistes pour l'Annotation. (XML Tree Transformations with Probabilistic Models)

Cette these traite de l'apprentissage supervise de transformations d'arbres XML. Le langage XML permet de decrire des donnees sous forme d'arbres dont la structure est definie par un schema. Il est par consequent devenu le standard en termes d'echanges de donnees, que ce soit sur le Web ou entre plusieurs applications. Toutefois, les documents XML peuvent avoir des structures tres variables. La grande variete de ces structures necessite alors d'etre capable de transformer de tels arbres. Nous proposons d'effectuer de telles transformations d'arbres XML en annotant les arbres d'entree, c'est-a-dire en associant un label a chacun de ses noeuds, la semantique associee aux labels permettant de transformer l'arbre. Afin d'apprendre a effectuer ces transformations, nous adaptons donc dans un premier temps au cas des arbres XML le modele des champs aleatoires conditionnels ou Conditional Random Fields (CRF). Les CRFs sont un modele graphique non dirige conditionnel pour l'annotation : ils modelisent la probabilite conditionnelle d'une annotation sachant une observation. Ils ont, jusqu'a present, ete essentiellement utilises dans le cadre de tâches d'annotation de sequences, a la fois dans le domaine de l'extraction d'informations ou en traitement automatiques des langues naturelles. Notre adaptation des CRFs au cas de l'annotation d'arbres XML porte a la fois sur le modele de dependances et sur les algorithmes d'inference exacte (recherche de la meilleure annotation) et d'apprentissage. De plus, nous proposons deux methodes d'amelioration de la complexite de ces algorithmes afin de permettre l'utilisation des champs aleatoires conditionnels dans le cadre d'applications a grande echelle. Ces methodes s'appuient toutes deux sur l'utilisation des connaissances du domaine. La premiere consiste en l'integration de contraintes sur l'annotation. Celles-ci viennent restreindre l'espace des annotations possibles d'un arbre en interdisant des configurations de labels. La seconde technique d'amelioration de la complexite que nous proposons consiste en l'approximation d'un CRF par la composition de plusieurs CRFs de complexite moindre, definis sur des sous-parties de l'alphabet des labels. Ces travaux ont ete valides par diverses experiences sur des donnees artificielles et reelles, montrant ainsi non seulement la qualite des transformations effectuees a l'aide de nos methodes, mais aussi leur interet dans des tâches reelles. Ces bons resultats nous ont conduit a realiser une application de generation automatique de flux RSS a partir de pages Web. Celle-ci permet a son utilisateur d'apprendre un generateur de flux RSS en annotant une ou plusieurs pages d'un site Web. Ce generateur consiste en un CRF qui annote les pages Web de ce site de facon a transformer l'arbre XHTML en un arbre XML au format RSS. Il permet alors de creer automatiquement des flux RSS pour toute autre page du meme site. Cette application est disponible a l'adresse suivante : http://r2s2.futurs.inria.fr/