Recherche visuo-textuelle d'images sur le Web améliorée par sélection de la dimension

Dans cet article, nous proposons une methode pour ameliorer la recherche d’images sur le web dans le cas de requetes bimodales composees de quelques mots et de quelques images. Pour chaque page web et chaque requete, une moyenne ponderee fusionne les distances textuelles basees sur tfidf et les distances visuelles. Nous montrons alors que cette recherche bi-modale d’images peut etre optimisee en analysant simplement des images recuperees en ligne par des requetes purement textuelle sur un moteur classique de recherche d’images sur le web. Nous approximons alors une Analyse Lineaire Discriminante (ALDA) sur ces images de developpement pour estimer le sous-ensemble de traits optimaux de chaque requete traitee. Nous testons notre methode sur la campagne Techno-Vision ImagEVAL (notre equipe s’y est classee 2nde sur 4), avec 700 URLs (700 pages web et 10k images). Nous discutons le comportement des resultats des requetes en fonction du taux de texte dans la fusion. Les resultats montrent alors que nous pouvons automatiquement reduire le nombre de dimensions afin d’obtenir une reduction du temps de calcul de 35% sans degradation des scores de Mean Average Precison.

[1]  Hervé Glotin,et al.  Shape reasoning on mis-segmented and mis-labeled objects using approximated Fisher criterion , 2006, Comput. Graph..

[2]  Berthier A. Ribeiro-Neto,et al.  Image retrieval using multiple evidence ranking , 2004, IEEE Transactions on Knowledge and Data Engineering.

[3]  Thomas S. Huang,et al.  Unifying Keywords and Visual Contents in Image Retrieval , 2002, IEEE Multim..

[4]  Patrick Gros,et al.  Robust Object Recognition in Images and the Related Database Problems , 2004, Multimedia Tools and Applications.

[5]  Hervé Glotin,et al.  Enhancement of Textual Images Classification Using Segmented Visual Contents for Image Search Engine , 2005, Multimedia Tools and Applications.

[6]  Rohini K. Srihari,et al.  Automatic Indexing and Content-Based Retrieval of Captioned Images , 1995, Computer.

[7]  Jonathan Goldstein,et al.  When Is ''Nearest Neighbor'' Meaningful? , 1999, ICDT.

[8]  S. Sclaroff,et al.  Combining textual and visual cues for content-based image retrieval on the World Wide Web , 1998, Proceedings. IEEE Workshop on Content-Based Access of Image and Video Libraries (Cat. No.98EX173).

[9]  Denyse Baillargeon,et al.  Bibliographie , 1929 .

[10]  R. Manmatha,et al.  A Model for Learning the Semantics of Pictures , 2003, NIPS.

[11]  S. Sclaroff,et al.  ImageRover: a content-based image browser for the World Wide Web , 1997, 1997 Proceedings IEEE Workshop on Content-Based Access of Image and Video Libraries.

[12]  James Ze Wang,et al.  Automatic Linguistic Indexing of Pictures by a Statistical Modeling Approach , 2003, IEEE Trans. Pattern Anal. Mach. Intell..

[13]  David A. Forsyth,et al.  Learning the semantics of words and pictures , 2001, Proceedings Eighth IEEE International Conference on Computer Vision. ICCV 2001.

[14]  Hervé Glotin,et al.  LDA Versus MMD Approximation on Mislabeled Images for Dependant Selection of Visual Features and Their Heterogeneity , 2006, 2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings.

[15]  Keiji Yanai,et al.  Image region entropy: a measure of "visualness" of web images associated with one concept , 2005, MULTIMEDIA '05.

[16]  Gerard Salton,et al.  Term-Weighting Approaches in Automatic Text Retrieval , 1988, Inf. Process. Manag..