Bilingual Lexicon Extraction from Comparable Corpora by Combining Contextual Representations (Extraction de lexiques bilingues à partir de corpus comparables par combinaison de représentations contextuelles) [in French]

RÉSUMÉ La caractérisation du contexte des mots constitue le cœur de la plupart des méthodes d’extraction de lexiques bilingues à partir de corpus comparables. Dans cet article, nous revisitons dans un premier temps les deux principales stratégies de représentation contextuelle, à savoir celle par fenêtre ou sac de mots et celle par relations de dépendances syntaxiques. Dans un second temps, nous proposons deux nouvelles approches qui exploitent ces deux représentations de manière conjointe. Nos expériences montrent une amélioration significative des résultats sur deux corpus de langue de spécialité.

[1]  Éric Gaussier,et al.  Improving Corpus Comparability for Bilingual Lexicon Extraction from Comparable Corpora , 2010, COLING.

[2]  E. Morin,et al.  Influence des points d’ancrage pour l’extraction lexicale bilingue à partir de corpus comparables spécialisés , 2009, JEPTALNRECITAL.

[3]  Javed A. Aslam,et al.  Models for metasearch , 2001, SIGIR '01.

[4]  E. Morin,et al.  Extraction de terminologies bilingues à partir de corpus comparables , 2004, JEPTALNRECITAL.

[5]  Clément de Groc Babouk: Focused Web Crawling for Corpus Compilation and Automatic Terminology Extraction , 2011, 2011 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology.

[6]  Pablo Gamallo Otero,et al.  The Meaning of Syntactic Dependencies , 2013 .

[7]  Emmanuel Morin Apport d'un corpus comparable déséquilibré à l'extraction de lexiques bilingues , 2009 .

[8]  Noriko Kando,et al.  Towards an optimal weighting of context words based on distance , 2010, COLING.

[9]  Dan Klein,et al.  Learning Bilingual Lexicons from Monolingual Corpora , 2008, ACL.

[10]  J. R. Firth,et al.  A Synopsis of Linguistic Theory, 1930-1955 , 1957 .

[11]  Eric Gaussier,et al.  Une nouvelle approche à l'extraction de lexiques bilingues à partir de corpus comparables , 2007 .

[12]  Pascale Fung,et al.  An IR Approach for Translating New Words from Nonparallel, Comparable Texts , 1998, ACL.

[13]  Dekang Lin,et al.  Dependency-Based Evaluation of Minipar , 2003 .

[14]  Pablo Gamallo Evaluating Two Different Methods for the Task of Extracting Bilingual Lexicons from Comparable Corpora , 2008 .

[15]  Philippe Langlais,et al.  Revisiting Context-based Projection Methods for Term-Translation Spotting in Comparable Corpora , 2010, COLING.

[16]  Takuya Matsuzaki,et al.  Effective Use of Dependency Structure for Bilingual Lexicon Creation , 2011, CICLing.

[17]  Jean-Michel Renders,et al.  A Geometric View on Bilingual Lexicon Extraction from Comparable Corpora , 2004, ACL.

[18]  Pascale Fung,et al.  Compiling Bilingual Lexicon Entries From a Non-Parallel English-Chinese Corpus , 1995, VLC@ACL.

[19]  David Yarowsky,et al.  Improving Translation Lexicon Induction from Monolingual Corpora via Dependency Contexts and Part-of-Speech Equivalences , 2009, CoNLL.

[20]  Reinhard Rapp,et al.  Automatic Identification of Word Translations from Unrelated English and German Corpora , 1999, ACL.

[21]  Éric Gaussier,et al.  Degré de comparabilité, extraction lexicale bilingue et recherche d’information interlingue (Degree of comparability, bilingual lexical extraction and cross-language information retrieval) , 2011, JEPTALNRECITAL.

[22]  E. Morin,et al.  Extraction de terminologies bilingues à partir de corpus comparables , 2004, JEPTALNRECITAL.

[23]  Jennifer Pearson,et al.  Working with Specialized Language: A Practical Guide to Using Corpora , 2002 .

[24]  Reinhard Rapp,et al.  Identifying Word Translations in Non-Parallel Texts , 1995, ACL.

[25]  Pablo Gamallo Otero Learning bilingual lexicons from comparable English and Spanish corpora , 2007, MTSUMMIT.

[26]  Pascale Fung,et al.  A Statistical View on Bilingual Lexicon Extraction: From Parallel Corpora to Non-parallel Corpora , 1998, AMTA.

[27]  Fatiha Sadat,et al.  An Approach Based on Multilingual Thesauri and Model Combination for Bilingual Lexicon Extraction , 2002, COLING.