Détection de locuteurs dans les séries TV

La segmentation de flux audio en locuteurs apparait particulierement delicate lors-qu'elle est appliquee a des films de fiction, ou de nombreux personnages parlent dans des conditions acoustiques variables (musique de fond, bruitages, fluctuations dans l'intonation...). Au-dela d'une telle variabilite acoustique, ce type de films exhibe cependant de la regularite sur le plan visuel, particulierement dans les passages dialogues. Nous introduisons dans ce papier une methode en deux temps pour proceder a la segmentation en locuteurs d'episodes de series TV : un premier regroupement en locuteurs est effectue localement, dans les limites de scenes visuellement identifiees comme des dialogues ; les locuteurs conjectures sont ensuite compares lors d'une deuxieme phase de regroupement afin de detecter les locuteurs recurrents : cette deuxieme etape de regroupement a lieu sous la contrainte que les differents locuteurs impliques dans un meme dialogue soient assignes a des groupes distincts. Les performances obtenues par notre approche sont comparees a celles qu'on obtient en appliquant aux memes donnees des outils standards de segmentation en locuteurs.

[1]  P. Rousseeuw Silhouettes: a graphical aid to the interpretation and validation of cluster analysis , 1987 .

[2]  John S. Boreczky,et al.  Comparison of video shot boundary detection techniques , 1996, J. Electronic Imaging.

[3]  Irena Koprinska,et al.  Temporal video segmentation: A survey , 2001, Signal Process. Image Commun..

[4]  John R. Smith,et al.  Semantic Indexing of Multimedia Content Using Visual, Audio, and Text Cues , 2003, EURASIP J. Adv. Signal Process..

[5]  Jean Carletta,et al.  The AMI Meeting Corpus: A Pre-announcement , 2005, MLMI.

[6]  Nicu Sebe,et al.  Content-based multimedia information retrieval: State of the art and challenges , 2006, TOMCCAP.

[7]  S. S. Ravi,et al.  Using instance-level constraints in agglomerative hierarchical clustering: theoretical and empirical results , 2009, Data Mining and Knowledge Discovery.

[8]  Chuohao Yeo,et al.  Multi-modal speaker diarization of real-world meetings using compressed-domain video features , 2009, 2009 IEEE International Conference on Acoustics, Speech and Signal Processing.

[9]  Tien Ping Tan,et al.  Recherche par le contenu dans des documents audiovisuels multilingues , 2009, CORIA.

[10]  Georges Quénot,et al.  Recherche par le contenu dans des documents audiovisuels multilingues , 2010 .

[11]  Patrick Kenny,et al.  Front-End Factor Analysis for Speaker Verification , 2011, IEEE Transactions on Audio, Speech, and Language Processing.

[12]  Thierry Bazillon,et al.  Speaker diarization of heterogeneous web video files: A preliminary study , 2011, 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).

[13]  Driss Matrouf,et al.  Intersession Compensation and Scoring Methods in the i-vectors Space for Speaker Recognition , 2011, INTERSPEECH.

[14]  Lori Lamel,et al.  Comparing Multi-Stage Approaches for Cross-Show Speaker Diarization , 2011, INTERSPEECH.

[15]  Dong Wang,et al.  A Comparative Study of Bottom-Up and Top-Down Approaches to Speaker Diarization , 2012, IEEE Transactions on Audio, Speech, and Language Processing.

[16]  Hervé Bredin,et al.  Segmentation of TV shows into scenes using speaker diarization and speech recognition , 2012, 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).

[17]  Mickael Rouvier,et al.  An open-source state-of-the-art toolbox for broadcast news diarization , 2013, INTERSPEECH.

[18]  Delphine Charlet,et al.  Unsupervised face identification in TV content using audio-visual sources , 2013, 2013 11th International Workshop on Content-Based Multimedia Indexing (CBMI).

[19]  Philippe Ercolessi Extraction multimodale de la structure narrative des épisodes de séries télévisées , 2013 .