Improving SVM Active Learning: An Empirical Study in Japanese Word Segmentation

本論文では, サポートベクタマシンの能動学習が一定以上の複雑さを持つ自然言語処理のタスクに対してどれだけうまく働くかを議論している. 日本語の単語分割をその題材として用いる. 特に, 能動学習のプールのサイズが学習曲線にどう影響するのか議論する. ある精度を達成しようと考えるとき, 大きなプールを用いた場合には, 学習の初期の段階で, 小さなプールを用いた場合よりも多くの正解事例が必要になることが分かった. さらに, プールに徐々にラベルなし事例を加えていくことで, 多数のラベルなし事例を効果的に使う新しい方法を提案する. 実験によれば, 従来手法よりも提案手法のほうが少ないラベル付き事例で済むことが分かった. 97.0%の精度を得るのに, 我々の手法では, 従来の能動学習手法で必要とされるラベル付き事例数の59.3%で済み, ランダムサンプリングで必要とされるラベル付き事例数の17.4%で済ますことができた.

[1]  Jian Su,et al.  Multi-Criteria-based Active Learning for Named Entity Recognition , 2004, ACL.

[2]  William A. Gale,et al.  A sequential algorithm for training text classifiers , 1994, SIGIR '94.

[3]  Hiroyuki Shinnou Deterministic Japanese Word Segmentation by Decision List Method , 2000, PRICAI.

[4]  Greg Schohn,et al.  Less is More: Active Learning with Support Vector Machines , 2000, ICML.

[5]  Yuji Matsumoto,et al.  Japanese Dependency Structure Analysis Based on Support Vector Machines , 2000, EMNLP.

[6]  Raymond J. Mooney,et al.  Active Learning for Natural Language Parsing and Information Extraction , 1999, ICML.

[7]  Andrew McCallum,et al.  Employing EM and Pool-Based Active Learning for Text Classification , 1998, ICML.

[8]  Thorsten Joachims,et al.  Text Categorization with Support Vector Machines: Learning with Many Relevant Features , 1998, ECML.

[9]  Daphne Koller,et al.  Support Vector Machine Active Learning with Applications to Text Classification , 2000, J. Mach. Learn. Res..

[10]  Walter Daelemans,et al.  Morphological Analysis as Classification: an Inductive-Learning Approach , 1996, ArXiv.

[11]  Yuji Matsumoto,et al.  Chunking with Support Vector Machines , 2001, NAACL.

[12]  Yuji Matsumoto,et al.  Use of Support Vector Learning for Chunk Identification , 2000, CoNLL/LLL.

[13]  Shlomo Argamon,et al.  Committee-Based Sampling For Training Probabilistic Classi(cid:12)ers , 1995 .

[14]  David Yarowsky,et al.  Minimally Supervised Morphological Analysis by Multimodal Alignment , 2000, ACL.

[15]  John C. Platt,et al.  Fast training of support vector machines using sequential minimal optimization, advances in kernel methods , 1999 .