Automatic prosodic analysis for computer aided pronunciation teaching

Correct pronunciation of spoken language requires the appropriate modulation of acoustic characteristics of speech to convey linguistic information at a suprasegmental level. Such prosodic modulation is a key aspect of spoken language and is an important component of foreign language learning, for purposes of both comprehension and intelligibility. Computer aided pronunciation teaching involves automatic analysis of the speech of a non-native talker in order to provide a diagnosis of the learner's performance in comparison with the speech of a native talker. This thesis describes research undertaken to automatically analyse the prosodic aspects of speech for computer aided pronunciation teaching. It is necessary to describe the suprasegmental composition of a learner's speech in order to characterise signi cant deviations from a native-like prosody, and to o er some kind of corrective diagnosis. Phonological theories of prosody aim to describe the suprasegmental composition of speech for a speci c language. It is argued here that the suprasegmental composition of the speech of a non-native talker can be highly in uenced by mother-tongue interference thereby rendering a language-speci c phonological representation of prosody inappropriate. Moreover, languages vary in the way acoustic characteristics of speech are modi ed to manifest prosodic aspects of speech and the only secure means available to describe prosody for foreign language teaching therefore lies in an acoustic-phonetic representation. The automatic prosodic analysis of speech presented in this thesis aims to provide such an acoustic-phonetic representation. The prosodic aspects of speech are described in a syllabic domain which is synchronised with a phonetic segmentation. An algorithm is presented which groups acousticphonetic segments into syllabic units. The acoustic-phonetic syllabi cation is shown to correlate with phonological syllabi cation. The fundamental frequency (F ) of speech, the duration and energy of phonetic units and the vowel quality of syllable nuclei play important roles in characterising the prosodic features of stress, rhythm, and intonation. The determination of F is required as an initial process in the automatic prosodic analysis of speech. The problems of determining F in a way which minimises errors in prosodic analysis are addressed, since the F contour of an utterance is a ected by segmental content, micro-perturbations, the talker's anatomy and physiology together with errors involved in its determination from the speech waveform. Methods of speaker normalisation and piecewise stylisation of F contours are described and a method to process the F contour in order to locate and characterise pitch accents and thus provide an acoustic-phonetic description of intonation, is highlighted. Measurements of duration, energy and vowel quality are investigated with respect to their correlation with sentential stress. The process of analysing syllable prominence is complicated by the interaction of these acoustic features in the manifestation of stress and by the fact that they are i ii also in uenced by factors other than stress. The duration, energy and vowel quality of phonetic units vary due to acoustic-phonetic context, syllable length and syllable prominence levels. The research described in this thesis aims to normalise acoustic features for non-prosodic aspects of speech and to combine the processed acoustic features to form a prosodic description of speech. The combination of the acoustic features assumes that stress is predominantly marked by variations in duration, energy and vowel quality, and that pitch accents are marked by the melody of fundamental frequency. F can be used as a secondary cue to the location of prominent syllables because pitch accents are observed to fall on prominent syllables. The resultant, automatically determined, prosodic description is shown to be useful in comparing the prosodic aspects of the speech of a non-native learner of English with the speech of a native English talker. Zusammenfassung Automatische prosodische Analyse f ur Computer-unterst utzten Ausspracheunterricht Die angemessene Modulation der akustischen Merkmale der Sprache ist notwendig f ur die korrekte Aussprache gesprochener Sprache, damit die linguistische Information auf suprasegmentaler Ebene vermittelt werden kann. Eine solche prosodische Modulation ist Schl usselaspekt der gesprochenen Sprache und ein wichtiger Bestandteil des Lernens von Fremdsprachen, sowohl f ur das Verstehen als auch f ur das Verstandenwerden. Computerunterst utzter Ausspracheunterricht beinhaltet automatische Sprachanalyse eines Nicht-Muttersprachlers damit eine Diagnose der Leistung des Sch ulers im Vergleich zu der eines Muttersprachlers gemacht werden kann. Es ist notwendig, die suprasegmentale Zusammentstellung der Sprache eines Sch ulers zu beschreiben, um die bedeutenden Abweichungen von der muttersprachlichen Prosodie zu charakterisieren, und um eine Art korrektive Diagnose zu bieten. Phonologische Theorien der Prosodie beabsichtigen die suprasegmentale Zusammenstellung einer bestimmten Sprache zu beschreiben. Es wird hier argumentiert, da die suprasegmentale Zusammenstellung der Sprache eines Nicht-Muttersprachlers deutlich durch die eigene Muttersprache beein u t werden kann und damit eine sprach-spezi sche phonologische Representation unangemessen macht. Au erdem varieren Sprachen in der Art in der die akustischen Charakteristiken modi ziert werden, um die prosodischen Aspekte der Sprache zu manifestieren und die einzig sichere Art, um Prosodie f ur Fremdsprachenunterricht zu beschreiben, ist deshalb die akustisch-phonetische Representation. Die automatische prosodische Sprachanalyse, die in dieser Dissertation vorgestellt wird, versucht eine solch akustisch-phonetische Representation zu bieten. Die prosodischen Aspekte der Sprache werden in einer Silbendom ane beschrieben, welche mit einer phonetischen Segmentation synchronisiert ist. Ein Algorithmus wird vorgestellt, der akustisch-phonetische Segmente in Silbeneinheiten gruppiert. Es wird gezeigt, da die akustisch-phonetische Versilbung mit der phonologischen Versilbung korreliert. Die Grundfrequenz (F ) von Sprache, die Dauer und Energie phonetischer Einheiten und die Vokalqualit at vom Silbennuklei spielen eine wichtige Rolle in der Charakterisierung der prosodischen Merkmale Rhythmus, Intonation und Betonung. Die Feststellung von F ist notwendig als anf anglicher Proze in der automatischen prosodischen Sprachanalyse. Die Probleme werden addressiert, die auftreten, wenn man versucht F so festzustellen, da minimale Fehler in der prosodischen Analyse auftreten, da die F -Kontur einer  Au erung beein u t wird durch den segmentalen Inhalt, Mikrostorungen, Anatomie und Physiologie des Sprechers und die Fehler, die zusammenh angen mit iii iv der Determination der Sprachwellenform. Methoden der Sprechernormalisierung und die teilweise Stilisation von F Kontouren werden beschrieben und eine Methode wird hervorgehoben, um F Kontouren zu verarbeiten damit die Tonh ohenakzente lokalisiert und charakterisiert werden k onnen und dadurch eine akustisch-phonetische Beschreibunger der Intonation geboten wird. Messungen von Dauer, Energie und Vokalqualit at werden untersucht hinsichtlich ihrer Korrelation zur Satzbetonung. Der Prozess der Analyse von Silbenprominenz wird verkompliziert durch die Interaktion dieser akustischen Merkmale in der Manifestation von Betonung und dadurch, da sie ebenfalls durch Faktoren au er Betonung beein u t werden. Die Dauer, Energie und Vokalqualit at der phonetischen Einheiten varieren aufgrund des akustisch-phonetischen Kontextes, Silbenlange und Silbenprominenzh ohen. Die Forschung, die in dieser Arbeit beschrieben wird, versucht die akustischen Merkmale zu normalisieren f ur non-prosodische Aspekte der Sprache, und die verarbeiteten akustischen Merkmale zu kombinieren, um eine prosodische Beschreibung der Sprache zu bilden. Die Kombination von akustischen Merkmalen nimmt an, da Betonung  uberwiegend durch Variationen in Dauer, Energie und Vokalqualit at markiert wird, und da Tonh ohenakzente durch die Melodie der Grundfrequenz gekennzeichnet werden. F kann als sekund ares Merkmal f ur die Lokalisierung von prominenten Silben dienen, da festgestellt werden kann, da die Tonh ohenakzente auf prominente Silben fallen. Es wird gezeigt, da die daraus resultierende, automatisch determinierte, prosodische Beschreibung n utzlich ist, f ur den Vergleich von prosodischen Aspekten der Sprache eines nicht-muttersprachlichen Englischsch ulers mit der Sprache eines englischen Muttersprachlers. Translated by Miriam Eckert R esum e Analyse automatique de la prosodie pour l'enseignement de la prononciation a l'aide d'ordinateurs La prononciation correcte du langage oral n ecessite la modulation appropri ee des caract eristiques acoustiques de la parole a n de communiquer l'information linguistique a un niveau suprasegmental. Une telle modulation prosodique est un aspect-cl e du langage oral et une composante importante de l'apprentissage d'une langue etrang ere, pour des buts tant de compr ehension que d'intelligibilit e. L'enseignement de la prononciation a l'aide d'ordinateurs n ecessite l'analyse automatique de la parole d'une personne dont la langue en question n'est pas la langue maternelle a n de procurer un diagnostic de la performance de l' el eve en comparaison avec la parole d'un locuteur natif. Cette th ese d ecrit la recherche entreprise a n d'analyser automatiquement les aspects prosodiques de la parole pour l'enseignement de la prononciation a l'aide d'ordinateurs. Il est n ecessaire de d ecrire la composition suprasegmentale de la parole de l' el eve a n de caract eriser des d eviations signi catives de la prosodie native, et a n d'o rir un certain diagnostic de correction. Les th eories phonologiques de la prosodie ont pour but de d ec