Gradual Fertilization of Case Frames

本稿では, 格フレーム辞書を漸次的に自動構築する手法を提案する.カバレージの高い格フレーム辞書を構築するために, 大規模コーパスから徐々に確からしい情報を抽出する.まず, コーパスを構文解析し, 構文的曖昧性のない述語項構造のみを抽出・クラスタリングすることによって, 1次格フレーム辞書を得る.次に, 1次格フレーム辞書を用いてコーパスを格解析し, 新たに分かる確実な情報を抽出し, 2次格フレーム辞書を構築する.このように徐々に新たな情報を加えていくことによって, 高次格フレーム辞書を構築する.結果として得られた格フレーム辞書は, 二重主語構文, 連体修飾の外の関係, 格変化といった複雑な言語現象を解析することを可能にする.新聞記事26年分, 約2600万文のコーパスから格フレーム辞書を構築し2種類の評価を行った.1つは, 得られた格フレームを人手で評価するものであり, もう1つは得られた格フレーム辞書を用いた構文・格解析実験による評価である.これらの結果, 本手法の有効性が確かめられた.

[1]  H. Isahara,et al.  Japanese case analysis based on machine learning method that uses borrowed supervised data , 2005, 2005 International Conference on Natural Language Processing and Knowledge Engineering.

[2]  Mine Tsunenori,et al.  Sense Discrimination of Verbs Using EDR Dictionary , 1996 .

[3]  Makoto Nagao,et al.  A Syntactic Analysis Method of Long Japanese Sentences Based on the Detection of Conjunctive Structures , 1994, CL.

[4]  Kentaro Torisawa An Unsupervised Method for Canonicalization of Japanese Postpositions , 2001, NLPRS.

[5]  Christopher D. Manning Automatic Acquisition of a Large Sub Categorization Dictionary From Corpora , 1993, ACL.

[6]  Michael R. Brent,et al.  From Grammar to Lexicon: Unsupervised Learning of Lexical Syntax , 1993, Comput. Linguistics.

[7]  Anna Korhonen,et al.  Improving Subcategorization Acquisition Using Word Sense Disambiguation , 2003, ACL.

[8]  Masahiko Haruno A Case Frame Learning Method for Japanese Polysemous Verbs , 1995 .

[9]  Makoto Nagao,et al.  A Method of Case Structure Analysis for Japanese Sentences Based on Examples in Case Frame Dictionary , 1994 .

[10]  Makoto Nagao,et al.  Building a Japanese parsed corpus while improving the parsing system , 1997 .

[11]  Daisuke Kawahara,et al.  Japanese Case Frame Construction by Coupling the Verb and its Closest Case Component , 2001, HLT.

[12]  Manabu Okumura,et al.  Corpus-Based Analysis of Japanese Relative Clause Constructions , 2005, IJCNLP.

[13]  Kôiti Hasida,et al.  Construction of a Japanese Relevance-tagged Corpus , 2002, LREC.

[14]  Manabu Okumura,et al.  Analysis of Japanese relative clauses , 2005 .

[15]  Ted Briscoe,et al.  Automatic Extraction of Subcategorization from Corpora , 1997, ANLP.

[16]  Takehito Utsuro,et al.  Maximum Entropy Model Learning of Subcategorization Preference , 1997, VLC.

[17]  Alex Waibel,et al.  The Automatic Acquisition of Frequencies of Verb Subcategorization Frames from Tagged Corpora , 2002 .