Interpretation automatique des sequences binominales en anglais et en francais. Application a la recherche d'informations

Dans les textes techniques, ou l'unite lexicale et conceptuelle est le groupe de mots plutot que le mot simple, les sequences nominales complexes (noms formes de plusieurs mots) forment l'essentiel des connaissances terminologiques extractibles. Notre objectif est de rendre accessible l'information conceptuelle contenue dans ces termes en calculant automatiquement leur representation semantique a partir des elements simples qui les constituent. Nous etudions une categorie particuliere de sequences, les sequences binominales en anglais et en francais (window manager, diagramme de rayonnement). Nous proposons un modele unifie pour les deux langues qui etend l'ensemble des sequences semantiquement caracterisables et permet en particulier de realiser une analyse compositionnelle des sequences a relation implicite, dont le sens est repute impredictible (ex: milk disease designe une maladie causee par le lait alors que plant disease designe une maladie qui affecte une plante), par opposition aux sequences qui fournissent des indices morpho-syntaxiques pour calculer la relation (ex: wave detector est un instrument pour detecter des ondes). Grace a une definition elargie des proprietes predicatives du nom, nous integrons au calcul semantique les informations linguistiques et pragmatiques necessaires pour traiter ces deux categories de sequences. Nous montrons comment ce modele hors domaine peut etre utilise et enrichi lorsque des connaissances supplementaires relatives a un domaine ou un corpus specifiques sont disponibles. Nous avons menage des points d'entree pour cette phase de specialisation et nous definissons en particulier des techniques pour limiter les interpretations multiples generees par l'analyse compositionnelle hors domaine. Nous presentons une experimentation realisee dans le cadre d'un systeme de recherche d'informations. Nous montrons que le calcul semantique des sequences binominales permet d'ameliorer les performances du systeme sur deux points importants: la desambiguisation des mots et le reperage de paraphrases semantiques