Comparabilité de corpus et fouille terminologique multilingue

Les principaux travaux en fouille textuelle privilegient communement la taille du corpus sur sa qualite. Ainsi dans le cadre de l'alignement lexical a partir de corpus comparables, les meilleurs resultats sont obtenus pour des corpus de grande taille (plusieurs millions de mots). Pour les domaines de specialite, et pour de nombreuses paires de langues, il n'est pas possible de disposer de corpus textuels aussi volumineux. Dans le cadre de ce travail, nous soutenons l'hypothese que la qualite des donnees textuelles peut non seulement suppleer a leur quantite mais garantit aussi celle des ressources lexicales extraites. En particulier, nous montrons l'interet de prendre en compte le type du discours lors de la constitution du corpus comparable pour obtenir des listes terminologiques de qualite.

[1]  Wolfgang Wahlster,et al.  Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics , 1997 .

[2]  N. Grabar,et al.  Relever des critères pour la distinction automatique entre les documents médicaux scientifiques et vulgarisés en russe et en japonais , 2006, JEPTALNRECITAL.

[3]  Douglas Biber,et al.  Representativeness in corpus design , 1993 .

[4]  Thomas Beauvisage,et al.  Morphosyntaxe et genres textuels : Exploiter des données morphosyntaxiques pour l'étude statistique des genres textuels : application au roman policier , 2001 .

[5]  Eric Brill,et al.  Some Advances in Transformation-Based Part of Speech Tagging , 1994, AAAI.

[6]  Pierre Zweigenbaum,et al.  The Effect of a General Lexicon in Corpus-Based Identification of French-English Medical Word Translations , 2003, MIE.

[7]  Hang Li,et al.  Base Noun Phrase Translation Using Web Data and the EM Algorithm , 2002, COLING.

[8]  Kyo Kageura,et al.  Construction of Grammar Based Term Extraction Model for Japanese , 2004 .

[9]  Denyse Baillargeon,et al.  Bibliographie , 1929 .

[10]  Pascale Fung,et al.  A Statistical View on Bilingual Lexicon Extraction: From Parallel Corpora to Non-parallel Corpora , 1998, AMTA.

[11]  I. Dan Melamed A Word-to-Word Model of Translational Equivalence , 1997, ACL.

[12]  David I. Beaver,et al.  The Handbook of Logic and Language , 1997 .

[13]  Timothy Baldwin,et al.  Translation by Machine of Complex Nominals: Getting it Right , 2004 .

[14]  Ted Dunning,et al.  Accurate Methods for the Statistics of Surprise and Coincidence , 1993, CL.

[15]  Pierre Zweigenbaum,et al.  Looking for Candidate Translational Equivalents in Specialized, Comparable Corpora , 2002, COLING.

[16]  E. Morin,et al.  Extraction de terminologies bilingues à partir de corpus comparables , 2004, JEPTALNRECITAL.

[17]  Jennifer Pearson,et al.  Working with Specialized Language: A Practical Guide to Using Corpora , 2002 .

[18]  Maria Teresa Pazienza Information Extraction in the Web Era , 2003, Lecture Notes in Computer Science.

[19]  Reinhard Rapp,et al.  Automatic Identification of Word Translations from Unrelated English and German Corpora , 1999, ACL.

[20]  Fiammetta Namer FLEMM : Un analyseur flexionnel du français à base de règles , 2000 .

[21]  Gregory Grefenstette,et al.  The World Wide Web as a Resource for Example-Based Machine Translation Tasks , 1999, TC.

[22]  Eric Gaussier,et al.  Une nouvelle approche à l'extraction de lexiques bilingues à partir de corpus comparables , 2007 .

[23]  Jussi Karlgren,et al.  Recognizing Text Genres With Simple Metrics Using Discriminant Analysis , 1994, COLING.

[24]  Carol Peters,et al.  Cross-Language Information Retrieval: A System for Comparable Corpus Querying , 1998 .

[25]  M.-P. Pery-Woodley Quel corpus pour quels traitements automatiques , 1995 .

[26]  G. A. Barnard,et al.  Transmission of Information: A Statistical Theory of Communications. , 1961 .

[27]  R. Harald Baayen,et al.  Derivational Productivity and Text Typology , 1994, J. Quant. Linguistics.

[28]  Satoshi Sato,et al.  Compiling French-Japanese Terminologies from the Web , 2006, EACL.

[29]  Michael E. Lesk,et al.  Computer Evaluation of Indexing and Text Processing , 1968, JACM.

[30]  Robert L. Mercer,et al.  The Mathematics of Statistical Machine Translation: Parameter Estimation , 1993, CL.