Question Type Classification Using Word Attribute N-gram and Statistical Machine Learning

質問タイプ同定とは,自然文で与えられた質問文の意図を同定する技術である.この技術は,ユー ザからの要求意図を正しく理解するために必須であり,質問応答,対話,情報検索/抽出等関連する 様々なアプリケーションに広く適用可能である.精度の良い質問タイプ同定を実現するためには,質 問文中の多種多様な言語表現から質問タイプ同定に有効な特徴を抽出することと,抽出された様々な 特徴から最適な質問タイプ同定器を構築することが必要となる.本論文では,質問タイプ同定のため の特徴を単語属性 N-gram により抽出する手法を提案し,この単語属性 N-gram と機械学習手法 Support Vector Machine(SVM)とを組み合わせた質問タイプ同定手法を提案する.質問文 10,000 問を用いた評価実験により既存手法との比較を行い,提案手法の有効性を実証した.さらに,単語属 性 N-gramにより抽出された素性を解析した結果についても報告する.

[1]  Christiane Fellbaum,et al.  Book Reviews: WordNet: An Electronic Lexical Database , 1999, CL.

[2]  Kentaro Ogura,et al.  ALT-J/E, a Japanese to English Machine Translation System for Communication with Translation , 1994, IFIP Congress.

[3]  Corinna Cortes,et al.  Support-Vector Networks , 1995, Machine Learning.

[4]  Qiming Chen,et al.  PrefixSpan,: mining sequential patterns efficiently by prefix-projected pattern growth , 2001, Proceedings 17th International Conference on Data Engineering.

[5]  Thorsten Joachims,et al.  Text Categorization with Support Vector Machines: Learning with Many Relevant Features , 1998, ECML.

[6]  Salim Roukos,et al.  IBM's Statistical Question Answering System-TREC 11 , 2001, TREC.

[7]  Adwait Ratnaparkhi,et al.  Question Answering Using Maximum-Entropy Components , 2001, NAACL.

[8]  Masahiko Haruno,et al.  Feature Selection in SVM Text Categorization , 1999, AAAI/IAAI.

[9]  Bernhard Schölkopf,et al.  Extracting Support Data for a Given Task , 1995, KDD.

[10]  Sanda M. Harabagiu,et al.  Experiments with Open-Domain Textual Question Answering , 2000, COLING.

[11]  Bernhard Schölkopf,et al.  Comparison of View-Based Object Recognition Algorithms Using Realistic 3D Models , 1996, ICANN.

[12]  Adwait Ratnaparkhi,et al.  IBM's Statistical Question Answering System , 2000, TREC.

[13]  Jason Weston,et al.  Support vector machines for multi-class pattern recognition , 1999, ESANN.

[14]  Jason Weston,et al.  Multi-Class Support Vector Machines , 1998 .