论文信息 - Enhancing cross-language information retrieval by an automatic acquisition of bilingual terminology from comparable corpora

Enhancing cross-language information retrieval by an automatic acquisition of bilingual terminology from comparable corpora

This paper presents an approach to bilingual lexicon extraction from comparable corpora and evaluations on Cross-Language Information Retrieval. We explore a bi-directional extraction of bilingual terminology primarily from comparable corpora. A combined statistics-based and linguistics-based model to select best translation candidates to phrasal translation is proposed. Evaluations using a large test collection for Japanese-English revealed the proposed combination of bi-directional comparable corpora, bilingual dictionaries and transliteration, augmented with linguistics-based pruning to be highly effective in Cross-Language Information Retrieval.

Masatoshi Yoshikawa | Shunsuke Uemura | Fatiha Sadat

[1] Philipp Koehn,et al. Learning a Translation Lexicon from Monolingual Corpora , 2002, ACL 2002.

[2] Reinhard Rapp,et al. Automatic Identification of Word Translations from Unrelated English and German Corpora , 1999, ACL.

[3] Kevin Knight,et al. Machine Transliteration , 1997, CL.

[4] Fatiha Sadat,et al. An Approach Based on Multilingual Thesauri and Model Combination for Bilingual Lexicon Extraction , 2002, COLING.

[5] Pascale Fung,et al. A Statistical View on Bilingual Lexicon Extraction: From Parallel Corpora to Non-parallel Corpora , 1998, AMTA.