Automatic Discovery of Attribute Words from Web Documents and Criteria for Human Evaluation

本論文では, 広範な概念クラスの属性語を日本語のWeb文書から獲得する手法を提案する.提案する手法は, Web検索を用いて得られた候補の単語を言語的パターン・HTMLタグ・単語の出現の統計量から計算されるスコアで順位付けする簡単な教師無しの獲得手法である.また, 本論文では, 獲得された属性語を人手で評価するための質問解答可能性に基づく評価手順を提案する.この評価手順に従い22個の概念クラスに関して提案獲得手法を人手で評価し, 提案手法により属性語を高精度で獲得可能であること, また, スコアに用いた各手がかりが実際に性能に貢献していることを確認した.