Analyse et contrôle du signal glottique en synthèse de la parole
暂无分享,去创建一个
Les systemes actuels de synthese vocale sont bases sur la technologie dite de synthese par corpus. Celle-ci repose sur la selection d’une sequence optimale d’unites acoustiques au sens du contexte de synthese. Cette approche qui minimise l’effort de concatenation conduit a une restitution jugee naturelle mais uniquement pour un style de parole lue. L’acceptabilite reelle d’une brique technologique de synthese vocale depend cependant de la reponse a deux attentes principales : la capacite du systeme a restituer d’une part des formes expressives et d’autre part des qualites de voix differentes. Pour satisfaire ce double objectif, un travail de caracterisation des signaux de parole est necessaire. Cette these traite de la prise en compte explicite des mecanismes de production de la parole en synthese. Dans une premiere partie, nous nous interessons a la decomposition d’un signal de parole en une composante de source – l’onde de debit glottique (ODG) produite lors de la vibration des cordes vocales – et une composante filtre caracterisant le conduit vocal. Pour resoudre ce probleme de deconvolution, nous proposons un modele ARX-LF qui consiste a introduire, dans un processus lineaire de production de la parole, de l’information a priori sur l’ODG en utilisant un modele LF (Liljencrants Fant). L’estimation des parametres du modele ARX-LF selon un critere des moindres carres resulte en un probleme d’optimisation non-lineaire complexe. Nous introduisons donc une solution efficace basee sur un decouplage de l’estimation des parametres et sur de nombreuses optimisations algorithmiques. Les resultats d’estimation sont tres encourageants. D’une part, la methode d’inversion proposee conduit a une meilleure estimation des instants de fermeture que les methodes existantes. D’autre part, les ODG estimees ont pu etre corroborees par des mesures electroglottographiques. Dans une seconde partie, nous avons propose une methode de synthese et de modification de signaux de parole basee sur le modele ARX-LF. Nous nous sommes particulierement attaches a la modelisation de la composante residuelle et avons introduit une nouvelle methode de controle explicite de l’enveloppe temporelle du residu lors de la modification de signaux de parole. Des resultats en modification de duree et de frequence fondamentale permettent de comparer favorablement la methode proposee aux techniques existantes.