Traductor estadístico wixarika - español usando descomposición morfológica

Resumen En este art́ıculo se presenta un traductor automático entre las lenguas español y wixarika, usando traducción estad́ıstica y recursos gramaticales complementarios. El wixarika es una lengua ind́ıgena hablada en los estados mexicanos de Jalisco, Nayarit, Zacatecas y Durango. Este trabajo se enfoca en dos problemas: la escasa existencia de corpus paralelos y la dificultad de alinear una lengua fusionante (español) con una altamente polisintética (wixarika). En situaciones ĺımites los traductores t́ıpicos basados en traducción estad́ıstica usan entre 100 y 300 MB de texto alineado. Nuestra propuesta introduce un analizador morfológico que descompone los verbos del wixarika y los expone a la fase de alineamiento. Palabras Clave: Traducción Estad́ıstica Automática, Alineamiento de Lenguas Polisintéticas, Recursos Escasos, Procesamiento de Lenguaje Natural.

[1]  Hermann Ney,et al.  Phrase-Based Statistical Machine Translation , 2002, KI.

[2]  D. W. Barron Machine Translation , 1968, Nature.

[3]  Maxim Roy,et al.  APPROACHES TO HANDLE SCARCE RESOURCES FOR BENGALI STATISTICAL MACHINE TRANSLATION , 2010 .

[4]  Alfred Tarski,et al.  Der Wahrheitsbegriff in den formalisierten Sprachen , 1935 .

[5]  Yaser Al-Onaizan,et al.  Translation with Scarce Bilingual Resources , 2004, Machine Translation.

[6]  Alexander Gelbukh,et al.  Computational Linguistics and Intelligent Text Processing , 2015, Lecture Notes in Computer Science.

[7]  Ximena Gutierrez-Vasques Bilingual lexicon extraction for a distant language pair using a small parallel corpus , 2015, HLT-NAACL.

[8]  Kevin Knight,et al.  Decoding Complexity in Word-Replacement Translation Models , 1999, Comput. Linguistics.

[9]  Eşref Adalı,et al.  AN AFFIX STRIPPING MORPHOLOGICAL ANALYZER FOR TURKISH , 2003 .

[10]  Nils J. Nilsson,et al.  A Formal Basis for the Heuristic Determination of Minimum Cost Paths , 1968, IEEE Trans. Syst. Sci. Cybern..

[11]  Daniel Marcu,et al.  Statistical Phrase-Based Translation , 2003, NAACL.

[12]  Alexander H. Waibel,et al.  Minimizing Word Error Rate in Textual Summaries of Spoken Language , 2000, ANLP.

[13]  Paula Gómez López Huichol de San Andrés Cohamiata, Jalisco , 1999 .

[14]  Salim Roukos,et al.  Bleu: a Method for Automatic Evaluation of Machine Translation , 2002, ACL.

[15]  Hermann Ney,et al.  A Systematic Comparison of Various Statistical Alignment Models , 2003, CL.

[16]  Matthew G. Snover,et al.  A Study of Translation Edit Rate with Targeted Human Annotation , 2006, AMTA.

[17]  Franz Josef Och,et al.  An Efficient Method for Determining Bilingual Word Classes , 1999, EACL.

[18]  Hermann Ney,et al.  Statistical Machine Translation with Scarce Resources Using Morpho-syntactic Information , 2004, CL.