Sentence selection for improving the tuning process of a statistical machine translation system

Resumen: Este articulo describe una estrategia de seleccion de frases para hacer el ajuste de un sistema de traduccion estadistico basado en el decodificador Moses que traduce del espanol al ingles. En este trabajo proponemos dos posibilidades para realizar esta seleccion de las frases del corpus de validacion que mas se parecen a las frases que queremos traducir (frases de test en lengua origen). Con esta seleccion podemos obtener unos mejores pesos de los modelos para emplearlos despues en el proceso de traduccion y, por tanto, mejorar los resultados. Concretamente, con el metodo de seleccion basado en la medida de similitud propuesta en este articulo, mejoramos la medida BLEU del 27,17% con el corpus de validacion completo al 27,27% seleccionando las frases para el ajuste. Estos resultados se acercan a los del experimento ORACLE: se utilizan las mismas frases de test para hacer el ajuste de los pesos. En este caso, el BLEU obtenido es de 27,51%. Palabras clave: Traduccion estadistica, seleccion de corpus, traduccion basada en subfrases, traduccion espanol-ingles, ajuste de pesos.