Japanese to English Sentence Pattern Generations for Semantically Non-Linear Complex Sentences
暂无分享,去创建一个
要素合成法を基本とした従来の機械翻訳方式の限界を突破する方法として,非線形な言語表現の構造を意味のまとまる単位 あらまし にパターン化した文型パターン翻訳方式が期待される.本論文では,重文と複文を対象に,この方式の実現に必要な文型パターン辞書 100 15 12.8 を試作した.具体的には, 万件の日英対訳コーパスから2つ又は3つの述部を持つ重文と複文合計 万件を抽出し,単語レベル( 万件),句レベル( 万件),節レベル( 万件)の3種類のグループからなる文型パターン辞書(合計 万件,異なり 万件収録)を 10.5 1.3 24.6 22.1 作成した.各文型パターンは,いずれも形態素解析によって得られる文法情報を用いて記述することとし,対訳標本文に含まれる線形な 表現要素を半自動的に変数化,関数化することなどにより作成したものである.従来,大規模な文型パターン辞書の開発は,文型パター ン間の意味的排他性実現の困難性と膨大な開発コストが問題となるため,適用対象を限定するなど小規模な実現例しか見られなかった. しかし,今回の試作によって,ほぼすべての標本文( )が多くの線形要素(平均4~5カ所)を持つことが分かった.また,それらの要素 99% を半自動的に関数化,変数化を行うことにより,文型パターンの開発コストは人手に頼る方法の約 に削減できた.これにより,実験的検 1/10 討に必要な規模の文型パターン辞書を構築することができた. キーワード: 機械翻訳,文型パターン,言語知識ベース,要素合成法,非線形要素,汎化