Formalisation de connaissances à partir de corpus : modélisation linguistique du contexte pour l'extraction automatique de relations sémantiques. (Corpus-based knowledge formalization : context linguistic modeling for automatic semantic relation extraction)

Les corpus, collections de textes selectionnes dans un objectif specifique, occupent une place de plus en plus determinante en Linguistique comme en Traitement Automatique des Langues (TAL). Consideres a la fois comme source de connaissances sur l'usage authentique des langues, ou sur les entites que designent des expressions linguistiques, ils sont notamment employes pour evaluer la performance d'applications de TAL. Les criteres qui prevalent a leur constitution ont un impact evident, mais encore delicat a caracteriser, sur (i) les structures linguistiques majeures qu'ils renferment, (ii) les connaissances qui y sont vehiculees, et, (iii) la capacite de systemes informatiques a accomplir une tâche donnee. Ce memoire etudie des methodologies d'extraction automatique de relations semantiques dans des corpus de textes ecrits. Un tel sujet invite a examiner en detail le contexte dans lequel une expression linguistique s'applique, a identifier les informations qui determinent son sens, afin d'esperer relier des unites semantiques. Generalement, la modelisation du contexte est etablie a partir de l'analyse de co-occurrence d'informations linguistiques issues de ressources ou obtenues par des systemes de TAL. Les interets et limites de ces informations sont evalues dans le cadre de la tâche d'extraction de relations sur des corpus de genre different (article de presse, conte, biographie). Les resultats obtenus permettent d'observer que pour atteindre une representation semantique satisfaisante ainsi que pour concevoir des systemes robustes, ces informations ne suffisent pas. Deux problemes sont particulierement etudies. D'une part, il semble indispensable d'ajouter des informations qui concernent le genre du texte. Pour caracteriser l'impact du genre sur les relations semantiques, une methode de classification automatique, reposant sur les restrictions semantiques qui s'exercent dans le cadre de relations verbo-nominales, est proposee. La methode est experimentee sur un corpus de conte et un corpus de presse. D'autre part, la modelisation du contexte pose des problemes qui relevent de la variation discursive de surface. Un texte ne met pas toujours bout a bout des expressions linguistiques en relation et il est parfois necessaire de recourir a des algorithmes complexes pour detecter des relations a longue portee. Pour repondre a ce probleme de facon coherente, une methode de segmentation discursive, qui s'appuie sur des indices de structuration de surface apparaissant dans des corpus ecrits, est proposee. Elle ouvre le champ a la conception de grammaires qui permettent de raisonner sur des categories d'ordre macro-syntaxique afin de structurer la representation discursive d'une phrase. Cette methode est appliquee en amont d'une analyse syntaxique et l'amelioration des performances est evaluee. Les solutions proposees a ces deux problemes nous permettent d'aborder l'extraction d'information sous un angle particulier : le systeme implemente est evalue sur une tâche de correction d'Entites Nommees dans le contexte d'application des Systemes de Question-Reponse. Ce besoin specifique entraine l'alignement de la definition d'une categorie sur le type de reponse attendue par une question.