Identification d'erreurs de traduction dans un dictionnaire de recherche d'informations translingue et traduction de mots composés à l'aide du World Wide Web

RESUME. La recherche d'informations translingue sur des textes non paralleles necessite une phase de traduction entre une requete dans une langue source et un document dans une langue cible. Afin d'obtenir les memes performances que dans le cas d'une requete monolingue sur un document dans la meme langue que cette requete, il est necessaire de trouver les bonnes traductions pour tous les termes de la requete en langue source. Malheureusement, les dictionnaires de traduction disponibles ne contiennent pas les traduc-tions exactes d'un grand nombre de mots composes qui peuvent etre presents dans une requete. Les systemes de recherche translingues utilisent des dictionnaires de traduction construits sta-tistiquement ou manuellement. Afin de traduire un mot compose, beaucoup de ces systemes generent toutes les traductions possibles mot a mot et verifient la presence de ces traductions dans la base de donnee cible. La qualite de la recherche augmente lorsque il est possible d'uti-liser des traductions de mots composes prealablement validees. Il reste cependant deux problemes encore non resolus avec cette methode consistant a generer et a valider toutes les traductions : (1) Si la traduction exacte d'un element d'un mot compose ne figure pas dans le dictionnaire de traduction, la traduction qui sera validee par cette me-thode ne sera pas la meilleure traduction. (2) Si la bonne traduction ne comprend pas le meme nombre d'elements que le mot compose source, la meilleure traduction ne sera pas non plus generee. Dans cet article, nous proposons deux methodes pour identifier ces situations. ABSTRACT. Cross-language information retrieval over non parallel text requires a translation phase between a source language query and a target language document. In order to achieve the same performance as a monolingual target language query, good translations for all terms CORIA 05 France-Grenoble-9-11 mars 2005

[1]  Douglas W. Oard,et al.  Evaluating Lexicon Coverage for Cross-Language Information Retrieval , 2000 .

[2]  Pierrette Bouillon,et al.  Compound Nouns in a Unification-Based MT System , 1992, ANLP.

[3]  Marcello Federico,et al.  Statistical cross-language information retrieval using n-best query translations , 2002, SIGIR '02.

[4]  Kenneth Ward Church,et al.  Word Association Norms, Mutual Information, and Lexicography , 1989, ACL.

[5]  Tetsuya Ishikawa,et al.  Cross-Language Information Retrieval for Technical Documents , 1999, EMNLP.

[6]  Gregory Grefenstette Evaluating the adequacy of a multilingual transfer dictionary for the cross language information retrieval , 1998 .

[7]  Naoto Katoh,et al.  Machine Translation of Sentences with Fixed Expressions , 1994, ANLP.

[8]  J. Jenkins,et al.  Word association norms , 1964 .

[9]  W. Bruce Croft,et al.  Phrasal translation and query expansion techniques for cross-language information retrieval , 1997, SIGIR '97.

[10]  Gregory Grefenstette,et al.  Estimation of English and non-English Language Use on the WWW , 2000, RIAO.

[11]  Gregory Grefenstette,et al.  Resolving Translation Ambiguity using Monolingual Corpora. A Report on Clairvoyance CLEF-2002 Experiments , 2002, CLEF.

[12]  Gregory Grefenstette,et al.  Resolving Translation Ambiguity using Monolingual Corpora. A Report on Clairvoyance CLEF-2002 Experiments , 2002, CLEF.

[13]  Tetsuya Ishikawa,et al.  Japanese/English Cross-Language Information Retrieval: Exploration of Query Translation and Transliteration , 2001, Comput. Humanit..

[14]  Satoshi Sato,et al.  Toward Memory-based Translation , 1990, COLING.

[15]  Ophir Frieder,et al.  Effective arabic-english cross-language information retrieval via machine-readable dictionaries and machine translation , 2001, CIKM '01.