Text-independent speaker verification based on high-level information extracted with data-driven methods

Cette these s’inscrit dans le cadre de la verification du locuteur qui vise a authentifier l’identite proclamee par le locuteur. La parole contient deux types d’informations caracterisant l’identite du locuteur. Le premier type (bas-niveau) reflete les proprietes spectrales de la parole qui sont liees a la structure physique de l’appareil vocal, alors que le deuxieme type d’information (haut-niveau) reflete les traits comportementaux tels que la prosodie, l’information phonetique, la prononciation, l’utilisation idiolectale de mots, les paternes conversationnels, etc. Recemment, diverses etudes ont prouve que les parametres haut-niveau caracterisent le locuteur et peuvent etre combines avec les informations bas-niveau afin d'augmenter la robustesse des systemes de verification du locuteur. Ces parametres sont habituellement extraits en analysant les sequences phonetiques produites par les systemes de reconnaissance automatique de la parole. Deux des problemes principaux qui surgissent , quand des systemes phonetiques sont developpes, sont les disparites possibles entre les donnees de developpement et d'evaluation et le manque de bases de donnees transcrites. Pour resoudre ces deux problemes nous proposons dans cette these l'utilisation d'une approche basee sur la segmentation automatique de la parole. De cette maniere, la disponibilite des corpus n'est plus un probleme et le corpus de developpement peut etre choisi de sorte qu'il soit le plus proche possible des conditions de travail. La contribution principale de cette these reside dans l'utilisation d'une methode de segmentation automatique de la parole pour extraire des informations pseudo-phonetiques et de type haut-niveau pour la verification du locuteur. La segmentation de la parole appliquee ici est basee sur l'approche ALISP (Automatic Language Independent Speech Processing). Nous avons montre, via cette these, que des unites automatiquement acquises des donnees parole peuvent etre utilises, comme les phonemes, dans differents niveaux afin d'extraire des informations complementaires et ameliorer les performances des sytemes de verification du locuteur. L'ensemble des resultats presentes dans cette these a ete valide sur des bases de donnees telephoniques dans le cadre des evaluations NIST en reconnaissance du locuteur.