论文信息 - Effectively Mining Wikipedia for Clustering Multilingual Documents

Effectively Mining Wikipedia for Clustering Multilingual Documents

This paper presents Multilingual Document Clustering (MDC) usingWikipedia on comparable corpora. Particularly, we utilized the cross lingual links, category, outlinks, Infobox information present in Wikipedia to enrich the document representation. We have used Bisecting k-means algorithm for clustering multilingual documents based on the document similarities. Experiments are conducted based on the usage of English and Hindi Wikipedia. We have considered English and Hindi Datasets provided by FIRE'10 for Ad-hoc Cross-Lingual document retrieval task on Indian languages. No language specific tools are used, which makes the proposed approach easily extendable for other languages. The system is evaluated using F-score and Purity measures and the results obtained are encouraging.

Vasudeva Varma | N. Kiran Kumar | G. S. K. Santosh

[1] Bruno Pouliquen,et al. Cross-Lingual Document Similarity Calculation Using the Multilingual Thesaurus EUROVOC , 2002, CICLing.

[2] C. A. Coelho,et al. A STATISTICAL APPROACH FOR MULTILINGUAL DOCUMENT CLUSTERING AND TOPIC EXTRACTION FROM CLUSTERS , 2007 .

[3] Bruno Pouliquen,et al. Exploiting multilingual nomenclatures and language-independent text features as an interlingua for cross-lingual text analysis applications , 2006, ArXiv.

[4] Xiaohua Hu,et al. Exploiting Wikipedia as external knowledge for document clustering , 2009, KDD.

[5] Romaric Besançon,et al. Multilingual document clusters discovery , 2004, RIAO.

[6] Vasudeva Varma,et al. An Iterative approach to extract dictionaries from Wikipedia for under-resourced languages , 2010 .

[7] Turid Hedlund,et al. Dictionary-Based Cross-Language Information Retrieval: Problems, Methods, and Research Findings , 2001, Information Retrieval.

[8] Vasudeva Varma,et al. Multilingual Document Clustering Using Wikipedia as External Knowledge , 2011, IRFC.