Conversión de Texto en Habla Multidominio

Resumen Este trabajo presenta nuevas aportaciones relacionadas con la definición de la conversión de texto en habla (CTH) denominada sı́ntesis multidomino. Esta propuesta intenta conseguir una calidad sintética próxima a la de los sistemas de CTH de dominio limitado con la versatilidad de la sı́ntesis de propósito general. La arquitectura multidominio implica disponer de un corpus de voz estructurado, ası́ como de un bloque de clasificación de textos adaptado al trabajo con pequeños corpus de textos. En esta comunicación, se analiza el comportamiento de dos métodos de clasificación: uno basado en Análisis en Componentes Independientes y otro basado en Redes Relacionales Asociativas, para documentos formados por muy pocas frases. Asimismo, se describe el corpus de voz multidominio que se ha grabado, junto a los tests subjetivos preliminares que justifican la viabilidad de la propuesta.

[1]  Joan Claudi Socoró,et al.  ICA-based hierarchical text classification for multi-domain text-to-speech synthesis , 2004, 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[2]  Peter Jackson,et al.  Non-uniform unit selection and the similarity metric within BT's Laureate TTS system , 1998, SSW.

[3]  Ricardo de Córdoba,et al.  Restricted-domain female-voice synthesis in Spanish: from database design to ANN prosodic modeling , 2000, INTERSPEECH.

[4]  Manabu Sassano,et al.  Virtual Examples for Text Classification with Support Vector Machines , 2003, EMNLP.

[5]  Alan W. Black,et al.  Limited domain synthesis , 2000, INTERSPEECH.

[6]  Mahesh Viswanathan,et al.  Recent improvements to the IBM trainable speech synthesis system , 2003, 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03)..

[7]  Bernd Möbius Corpus-based speech synthesis : Methods and challenges , 2000 .

[8]  Ignasi Iriondo,et al.  Multi-domain text classification for unit selection Text-to-Speech synthesis , 2003 .

[9]  Marc C. Beutnagel,et al.  The AT & T NEXT-GEN TTS system , 1999 .

[10]  Hu Peng,et al.  Domain adaptation for TTS systems , 2002, 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[11]  Siegfried Kunzmann,et al.  Domain adaptation methods in the IBM trainable text-to-speech system , 2004, INTERSPEECH.

[12]  Alan W. Black,et al.  Perfect synthesis for all of the people all of the time , 2002, Proceedings of 2002 IEEE Workshop on Speech Synthesis, 2002..

[13]  Joan Claudi Socoró,et al.  Arquitectura para conversión texto-habla multidominio , 2003, Proces. del Leng. Natural.

[14]  Erkki Oja,et al.  Independent Component Analysis , 2001 .

[15]  Michael Picheny,et al.  The IBM expressive speech synthesis system , 2004, INTERSPEECH.

[16]  Paul Taylor,et al.  Automatically clustering similar units for unit selection in speech synthesis , 1997, EUROSPEECH.

[17]  Norminanda Montoya Vilar El uso de la voz en la publicidad audiovisual dirigida a los niños y su eficacia persuasiva , 1999 .

[18]  Fabrizio Sebastiani,et al.  Machine learning in automated text categorisation: a survey , 1999 .

[19]  Joan Claudi Socoró,et al.  Reliability in ICA-Based Text Classification , 2004, ICA.