Annotation de vidéos par paires rares de concepts

La detection d'un concept visuel dans les videos est une tâche difficile, specialement pour les concepts rares ou pour ceux dont il est complique de decrire visuellement. Cette question devient encore plus difficile quand on veut detecter une paire de concepts au lieu d'un seul. En effet, plus le nombre de concepts presents dans une scene video est grand, plus cette derniere est complexe visuellement, et donc la difficulte de lui trouver une description specifique s'accroit encore plus. Deux directions principales peuvent eˆtre suivies pour tacler ce probleme: 1) detecter chaque concept separement et combiner ensuite les predictions de leurs detecteurs correspondants d'une maniere similaire a celle utilisee souvent en recherche d'information, ou 2) considerer le couple comme un nouveau concept et generer un classifieur supervise pour ce nouveau concept en inferant de nouvelles annotations a partir de celles des deux concepts formant la paire. Chacune de ces approches a ses avantages et ses inconvenients. Le probleme majeur de la deuxieme methode est la necessite d'un ensemble de donnees annotees, surtout pour la classe positive. S'il y a des concepts rares, cette rarete s'accroit encore plus pour les paires formees de leurs combinaisons. D'une autre part, il peut y avoir deux concepts assez frequents mais il est tres rare qu'ils occurrent conjointement dans un meˆme document. Certains travaux de l'etat de l'art ont propose de palier ce probleme en recoltant des exemples representatifs des classes etudiees du web, mais cette tâche reste couˆteuse en temps et argent. Nous avons compare les deux types d'approches sans recourir a des ressources externes. Notre evaluation a ete realisee dans le cadre de la sous-tâche "detection de paire de concepts" de la tâche d'indexation semantique (SIN) de TRECVID 2013, et les resultats ont revele que pour le cas des videos, si on n'utilise pas de ressources d'information externes, les approches qui fusionnent les resultats des deux detecteurs sont plus performantes, contrairement a ce qui a ete montre dans des travaux anterieurs pour le cas des images fixes. La performance des methodes decrites depasse celle du meilleur resultat officiel de la campagne d'evaluation precedemment citee, de 9% en termes de gain relatif sur la precision moyenne (MAP).

[1]  Marcel Worring,et al.  This article has been accepted for publication in a future issue of this journal, but has not been fully edited. Content may change prior to final publication. Harvesting Social Images for Bi-Concept Search , 2022 .

[2]  Chong-Wah Ngo,et al.  Concept-Driven Multi-Modality Fusion for Video Search , 2011, IEEE Transactions on Circuits and Systems for Video Technology.

[3]  Stéphane Ayache,et al.  Video Corpus Annotation Using Active Learning , 2008, ECIR.

[4]  Alan F. Smeaton Independence of Contributing Retrieval Strategies in Data Fusion for Effective Information Retrieval , 1998, BCS-IRSG Annual Colloquium on IR Research.

[5]  Gang Wang,et al.  Joint learning of visual attributes, object classes and visual saliency , 2009, 2009 IEEE 12th International Conference on Computer Vision.

[6]  Foster Provost,et al.  The effect of class distribution on classifier learning: an empirical study , 2001 .

[7]  Denyse Baillargeon,et al.  Bibliographie , 1929 .

[8]  Rong Yan,et al.  The combination limit in multimedia retrieval , 2003, MULTIMEDIA '03.

[9]  Thomas G. Dietterich,et al.  Improving SVM accuracy by training on auxiliary data sources , 2004, ICML.

[10]  Christopher M. Bishop,et al.  Pattern Recognition and Machine Learning (Information Science and Statistics) , 2006 .

[11]  Marcel Worring,et al.  Adding Semantics to Detectors for Video Retrieval , 2007, IEEE Transactions on Multimedia.

[12]  Dong Wang,et al.  Video search in concept subspace: a text-like paradigm , 2007, CIVR '07.

[13]  John Platt,et al.  Probabilistic Outputs for Support vector Machines and Comparisons to Regularized Likelihood Methods , 1999 .

[14]  Dong Xu,et al.  Columbia University TRECVID-2006 Video Search and High-Level Feature Extraction , 2006, TRECVID.

[15]  Georges Quénot,et al.  Hierarchical Late Fusion for Concept Detection in Videos , 2012, ECCV Workshops.

[16]  Georges Quénot,et al.  Evaluations of multi-learner approaches for concept indexing in video documents , 2010, RIAO.

[17]  Djoerd Hiemstra,et al.  A probabilistic ranking framework using unobservable binary events for video search , 2008, CIVR '08.

[18]  Thomas S. Huang,et al.  One-class SVM for learning in image retrieval , 2001, Proceedings 2001 International Conference on Image Processing (Cat. No.01CH37205).