Nommage non-supervisé des personnes dans les émissions de télévision : une revue du potentiel de chaque modalité

L’identification de personnes dans les emissions de television est un outil precieux pour l’indexation de ce type de videos mais l’utilisation de modeles biometriques n’est pas une option viable sans connaissance a priori des personnes presentes dans les videos. Les noms prononces ou ecrits peuvent nous fournir une liste de noms hypotheses. Nous proposons une comparaison du potentiel de ces deux modalites (noms prononces ou ecrits) afin d’extraire le nom des personnes parlant et/ou apparaissant. Les noms prononces proposent un plus grand nombre d’occurrences de citation mais les erreurs de transcription et de detection de ces noms reduisent de moitie le potentiel de cette modalite. Les noms ecrits beneficient d’une amelioration croissante de la qualite des videos et sont plus facilement detectes. Par ailleurs, l’affiliation aux locuteurs/visages des noms ecrits reste plus simple que pour les noms prononces.

[1]  Sylvain Meignier,et al.  Automatic named identification of speakers using diarization and ASR systems , 2009, 2009 IEEE International Conference on Acoustics, Speech and Signal Processing.

[2]  Changsheng Xu,et al.  Character Identification in Feature-Length Films Using Global Face-Name Matching , 2009, IEEE Transactions on Multimedia.

[3]  Takeo Kanade,et al.  Name-It: Naming and Detecting Faces in Video by the Integration of Image and Natural Language Processing , 1997, IJCAI.

[4]  Takeo Kanade,et al.  Name-It: Naming and Detecting Faces in News Videos , 1999, IEEE Multim..

[5]  Olivier Galibert,et al.  The REPERE Corpus : a multimodal corpus for person recognition , 2012, LREC.

[6]  Denyse Baillargeon,et al.  Bibliographie , 1929 .

[7]  Julie Mauclair,et al.  Speaker Diarization: About whom the Speaker is Talking ? , 2006, 2006 IEEE Odyssey - The Speaker and Language Recognition Workshop.

[8]  Paul Deléglise,et al.  Extracting true speaker identities from transcriptions , 2007, INTERSPEECH.

[9]  Qingming Huang,et al.  Naming faces in broadcast news video by image google , 2008, ACM Multimedia.

[10]  Rong Yan,et al.  Multiple instance learning for labeling faces in broadcasting news video , 2005, MULTIMEDIA '05.

[11]  Ricky Houghton Named Faces: Putting Names to Faces , 1999, IEEE Intell. Syst..

[12]  Jean-Luc Gauvain,et al.  The LIMSI Broadcast News transcription system , 2002, Speech Commun..

[13]  Jean-Luc Gauvain,et al.  Speaker diarization from speech transcripts , 2004, INTERSPEECH.

[14]  Andrew Zisserman,et al.  Taking the bite out of automated naming of characters in TV video , 2009, Image Vis. Comput..

[15]  L. Lamel,et al.  A comparative study using manual and automatic transcriptions for diarization , 2005, IEEE Workshop on Automatic Speech Recognition and Understanding, 2005..

[16]  Jun Yang,et al.  Naming every individual in news video monologues , 2004, MULTIMEDIA '04.

[17]  Takeo Kanade,et al.  Name-It: association of face and name in video , 1997, Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.

[18]  Georges Quénot,et al.  Unsupervised Speaker Identification using Overlaid Texts in TV Broadcast , 2012, INTERSPEECH.

[19]  Sophie Rosset,et al.  Models Cascade for Tree-Structured Named Entity Detection , 2011, IJCNLP.

[20]  Georges Quénot,et al.  From Text Detection in Videos to Person Identification , 2012, 2012 IEEE International Conference on Multimedia and Expo.