Ein gehörorientierter Spracherkenner, der robust ist gegen zeitliche Schwankungen im Silben- und Phonembereich

Bei der automatischen Erkennung von Sprache fuhrt es haufig zu Problemen, wenn der verwendete Wortschatz eine zu hohe Varianz in der Aussprachegeschwindigkeit aufweist. Diese naturlichen Schwankungen betreffen sowohl die gesamte Lange einer Auserung als auch lokale Ubergange im Silben- und Phonembereich. In einer fruheren Veroffentlichung wurde ein gehororientiertes Sprachverarbeitungsmodell vorgestellt, das ein kurzes isoliert gesprochenes Wort unabhangig von seiner exakten Dauer auf einen Merkmalsvektor fester Lange abbildet [3]. Ein wesentliches Merkmal dieses Modells ist die Transformation des Zeitsignals in den Modulationsfrequenzbereich, eine Darstellung, wie sie auch entlang der Horbahn im auditorischen System von Saugetieren und Vogeln nachgewiesen wurde. Das konstante Format des Merkmalsvektors wird erreicht durch eine zeitliche Integration der miteinander korrelierten Kanale des Modulationsspektrogramms. Diese Methode kann unter Umstanden zum Verlust der Eindeutigkeit eines Wortes fuhren, etwa wenn sich zwei Auserungen lediglich in der Reihenfolge ihrer Phoneme unterscheiden.