Percol0 - un système multimodal de détection de personnes dans des documents vidéo (Percol0 - A multimodal person detection system in video documents) [in French]

Identifier et nommer a chaque instant d'une video l'ensemble des personnes presentes a l'image ou s'exprimant dans la bande son fait parti de ces nouveaux outils de fouille de donnees. D'un point de vue scientifique la reconnaissance de personnes dans des documents audiovisuels est un probleme difficile a cause des differentes ambiguites que presentent l'audio, la video et leur association. Nous presentons dans cette etude le systeme PERCOL0, developpe dans le cadre du defi REPERE, permettant de detecter la presence de personnes (audible et/ou visuelle) dans des documents video, sans utiliser de modeles de locuteurs a priori.

[1]  Georges Linarès,et al.  The LIA Speech Recognition System: From 10xRT to 1xRT , 2007, TSD.

[2]  Frédéric Béchet,et al.  Unsupervised knowledge acquisition for Extracting Named Entities from speech , 2010, 2010 IEEE International Conference on Acoustics, Speech and Signal Processing.

[3]  Azriel Rosenfeld,et al.  Face recognition: A literature survey , 2003, CSUR.

[4]  Chabane Djeraba,et al.  Ré-identification de personnes dans les journaux télévisés basée sur les Histogrammes spatio-temporels , 2012, EGC.

[5]  Corinne Fredouille,et al.  New implementations of the E-HMM-based system for speaker diarization in meeting rooms , 2008, 2008 IEEE International Conference on Acoustics, Speech and Signal Processing.

[6]  Christophe Garcia,et al.  text Detection with Convolutional Neural Networks , 2008, VISAPP.

[7]  Rohit Prasad,et al.  Multi-frame combination for robust videotext recognition , 2008, 2008 IEEE International Conference on Acoustics, Speech and Signal Processing.

[8]  Yongdong Zhang,et al.  Confusion network based Video OCR post-processing approach , 2009, 2009 IEEE International Conference on Multimedia and Expo.

[9]  Jean-Luc Gauvain,et al.  Multistage speaker diarization of broadcast news , 2006, IEEE Transactions on Audio, Speech, and Language Processing.