Error Analysis on Product Attribute Value Extraction

本稿では商品の属性値抽出タスクにおけるエラー分析のひとつの事例研究について 報告する.具体的には,属性値辞書を用いた単純な辞書マッチに基づく属性値抽出 システムを構築し,人手により属性値がアノテーションされたコーパスに対してシ ステムを適用することで明らかとなる False-positive, False-negative 事例の分析を 行った.属性値辞書は商品説明文に含まれる表や箇条書きなどの半構造化データを 解析することで得られる自動構築したものを用いた.エラー分析は実際のオンライ ンショッピングサイトで用いられている 5つの商品カテゴリから抽出した 100商品 ページに対して行った.そして分析を通してボトムアップ的に各事例の分類を行っ てエラーのカテゴリ化を試みた.本稿ではエラーカテゴリおよびその実例を示すだ けでなく,誤り事例を無くすために必要な処理・データについても検討する. キーワード:商品の属性値抽出,オンラインショッピング,エラー分析,エラーのカテゴリ化