Prédiction de l'indexabilité d'une transcription (Prediction of transcription indexability) [in French]

RÉSUMÉ Cet article présente une mesure de confiance sémantique permettant de prédire la qualité d’une transcription automatique dédiée à de la recherche d’information dans les documents audio (RIDA). La méthode proposée est basée sur une combinaison de la mesure de confiance issue du système automatique de reconnaissance de la parole (SRAP) et d’un index de compacité sémantique (ICS). Elle permet d’estimer la pertinence des mots en fonction du contexte sémantique dans lequel ils apparaissent. Les expériences sont menées sur le corpus de la campagne ESTER 2, en simulant un scénario classique d’utilisation d’un système de RIDA : les utilisateurs soumettent des requêtes textuelles à un moteur de recherche qui est supposé leur retourner les documents audio les plus pertinents. Les résultats démontrent l’intérêt d’utiliser un niveau d’information sémantique pour prédire l’indexabilité de la transcription.

[1]  Mikko Kurimo,et al.  Retrieving Speech Correctly Despite the Recognition Errors , 2005 .

[2]  Alex Acero,et al.  Soft indexing of speech content for search in spoken documents , 2007, Comput. Speech Lang..

[3]  Otis Gospodnetic,et al.  Lucene in Action (In Action series) , 2004 .

[4]  Lin-Shan Lee,et al.  Latent semantic retrieval of spoken documents over position specific posterior lattices , 2008, 2008 IEEE Spoken Language Technology Workshop.

[5]  Georges Linarès,et al.  A segment-level confidence measure for Spoken Document Retrieval , 2011, 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).

[6]  Gökhan Tür,et al.  Error prediction in spoken dialog: from signal-to-noise ratio to semantic confidence scores , 2005, Proceedings. (ICASSP '05). IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005..

[7]  Richard Sproat,et al.  Lattice-Based Search for Spoken Utterance Retrieval , 2004, NAACL.

[8]  Bhiksha Raj,et al.  A boosting approach for confidence scoring , 2001, INTERSPEECH.

[9]  Stephen Cox,et al.  High-level approaches to confidence estimation in speech recognition , 2002, IEEE Trans. Speech Audio Process..

[10]  Timothy J. Hazen,et al.  Retrieval and browsing of spoken content , 2008, IEEE Signal Processing Magazine.

[11]  Richard M. Stern,et al.  Integration of continuous speech recognition and information retrieval for mutually optimal performance , 1999 .

[12]  Aaron E. Rosenberg,et al.  SCANMail: a voicemail interface that makes speech browsable, readable and searchable , 2002, CHI.

[13]  Frank Rosenblatt,et al.  PRINCIPLES OF NEURODYNAMICS. PERCEPTRONS AND THE THEORY OF BRAIN MECHANISMS , 1963 .

[14]  Ellen M. Voorhees,et al.  The TREC Spoken Document Retrieval Track: A Success Story , 2000, TREC.

[15]  Bhuvana Ramabhadran,et al.  Building an information retrieval test collection for spontaneous conversational speech , 2004, SIGIR '04.