论文信息 - Apprentissage non supervisé pour la traduction automatique : application à un couple de langues peu doté

Apprentissage non supervisé pour la traduction automatique : application à un couple de langues peu doté

Cet article présente une méthode non-supervisée pour extraire des paires de phrases parallèles à partir d’un corpus comparable. Un système de traduction automatique est utilisé pour exploiter le corpus comparable et détecter les paires de phrases parallèles. Un processus itératif est exécuté non seulement pour augmenter le nombre de paires de phrases parallèles extraites, mais aussi pour améliorer la qualité globale du système de traduction. Une comparaison avec une méthode semi-supervisée est présentée également. Les expériences montrent que la méthode non-supervisée peut être réellement appliquée dans le cas où on manque de données parallèles. Bien que les expériences préliminaires soient menées sur la traduction français-anglais, cette méthode non-supervisée est également appliquée avec succès à un couple de langues peu doté : vietnamien-français.

Laurent Besacier | Thi N. Do | Eric Castelli

[1] Kenneth Ward Church,et al. A Program for Aligning Sentences in Bilingual Corpora , 1993, CL.

[2] Robert L. Mercer,et al. The Mathematics of Statistical Machine Translation: Parameter Estimation , 1993, CL.

[3] Hermann Ney,et al. Accelerated DP based search for statistical translation , 1997, EUROSPEECH.

[4] Andreas Stolcke,et al. SRILM - an extensible language modeling toolkit , 2002, INTERSPEECH.

[5] George R. Doddington,et al. Automatic Evaluation of Machine Translation Quality Using N-gram Co-Occurrence Statistics , 2002 .

[6] Salim Roukos,et al. Bleu: a Method for Automatic Evaluation of Machine Translation , 2002, ACL.

[7] Stephan Vogel,et al. Adaptive parallel sentences mining from web bilingual news collection , 2002, 2002 IEEE International Conference on Data Mining, 2002. Proceedings..

[8] Noah A. Smith,et al. The Web as a Parallel Corpus , 2003, CL.

[9] Daniel Marcu,et al. Statistical Phrase-Based Translation , 2003, NAACL.

[10] Hermann Ney,et al. A Systematic Comparison of Various Statistical Alignment Models , 2003, CL.

[11] Adam Kilgarriff,et al. Introduction to the Special Issue on the Web as Corpus , 2003, CL.