Desambiguação de Homógrafos-Heterófonos por Aprendizado de Máquina em Português Brasileiro (A Machine Learning Approach for Homographic Heterophone Disambiguation in Brazilian Portuguese)

To improve the quality of the speech produced by a text-to-speech system, it is important to obtain the maximum amount of information from the input text that may help in this task. In this context, the word sense disambiguation plays an important role and still be a central problem for natural language processing applications. This paper proposes to model the ambiguity of words as a supervised machine learning problem for Brazilian Portuguese. In doing so, four algorithms (or classifiers) were compared in two types of texts. Computer experiments showed that to assure portability of systems, a process of tuning to the new domain is required. Resumo. Para aprimorar a qualidade da voz produzida por um sistema de conversão texto-fala, é importante extrair a maior quantidade possı́vel de informação, que possa ajudar nessa tarefa, a partir do texto de entrada. Nesse contexto, a desambiguação da pronúncia relativa a pares de homógrafosheterófonos (HHs) assume um papel relevante e ainda de difı́cil tratamento em aplicações que envolvem processamento de linguagem natural. Este trabalho propõe modelar a ambiguidade entre HHs falados no Brasil como um problema de aprendizado de máquina supervisionado. Para isso, quatro algoritmos (ou classificadores) foram comparados em bases de texto de diferentes tipos. Experimentos mostraram que para garantir a portabilidade de sistemas, um processo de incremento para o novo domı́nio é necessário.

[1]  Concha Bielza,et al.  Discrete Bayesian Network Classifiers , 2014, ACM Comput. Surv..

[2]  Ian H. Witten,et al.  The WEKA data mining software: an update , 2009, SKDD.

[3]  Daniela Braga,et al.  A Rule-Based Method for Homograph Disambiguation in Brazilian Portuguese Text-to-Speech Systems , 2015 .

[4]  Charlotte Galves,et al.  ( Campinas ) Computational and linguistic aspects of the construction of the Tycho Brahe Parsed Corpus of Historical Portuguese , 2008 .

[5]  Claire Cardie,et al.  Embedded machine learning systems for natural language processing: a general framework , 1995, Learning for Natural Language Processing.

[6]  João Luís Garcia Rosa,et al.  Mac-Morpho Revisited: Towards Robust Part-of-Speech Tagging , 2013, STIL.

[7]  Sandra M. Aluísio,et al.  Combining Multiple Classifiers to Improve Part of Speech Tagging : A Case Study for Brazilian Portuguese , 2000 .

[8]  Sandra M. Aluísio,et al.  An Account of the Challenge of Tagging a Reference Corpus for Brazilian Portuguese , 2003, PROPOR.

[9]  Fernando Gil Vianna Resende,et al.  A Methodology to Analyze Homographs for a Brazilian Portuguese TTS System , 2003, PROPOR.

[10]  อนิรุธ สืบสิงห์,et al.  Data Mining Practical Machine Learning Tools and Techniques , 2014 .

[11]  David Yarowsky,et al.  Homograph Disambiguation in Text-to-Speech Synthesis , 1997 .

[12]  Gustavo Mendonça,et al.  Automatic Disambiguation of Homographic Heterophone Pairs Containing Open and Closed Mid Vowels , 2013, STIL.

[13]  Izabel Christine Seara,et al.  Alternância Vocálica das Formas Verbals e Nominais do Português Brasileiro para Aplicação em Conversão Texto-Fala , 2002 .

[14]  Isabel Trancoso,et al.  Free tools and resources for Brazilian Portuguese speech recognition , 2011, Journal of the Brazilian Computer Society.

[15]  Elza Machado de Melo,et al.  CRIANÇAS E ADOLESCENTES COMO SUJEITOS DE DIREITOS: A (IN) CONSTITUCIONALIDADE E A (IN) EFICÁCIA DA REDUÇÃO DA MAIORIDADE PENAL SOB A ÓTICA DA CONSTITUIÇÃO DA REPÚBLICA FEDERATIVA DO BRASIL DE 1988 , 2017 .

[16]  Lluis Marquez,et al.  Machine Learning and Natural Language Processing , 2000 .

[17]  Filipe Barbosa,et al.  A distinção entre homógrafos heterófonos em sistemas de conversão texto-fala , 2004 .

[18]  Petra Perner,et al.  Data Mining - Concepts and Techniques , 2002, Künstliche Intell..