A Localization Method of Video Text in TV Program Video using Edge Space Pattern

あらまし 本論文では,エッジ空間パターンを利用したテレビ番組映像からの字幕テキスト領域の検出手法を提案する.エッジ空 間パターンは,文字を形成する線や点の配置を反映した特徴量であり,着目画素の周囲におけるエッジの分布パターンに基づいて算 出される.エッジの交差や直線以外のエッジも考慮することができ,背景画像の変動にも頑健な特徴量である.提案手法では,番組 映像から取得したフレーム画像を走査窓で走査し,窓領域から算出した特徴量を機械学習で判別することによって字幕テキストの候 補領域を求める.その後,検出された候補領域をエッジ密度や領域の形状などに基づいて選別し,字幕テキスト領域の外接矩形を検 出する.約 10 時間のテレビ番組映像を対象とした評価実験では,再現率が 89.9%,適合率が 88.0%,F 値が 0.889 という結果が得 られ,従来手法よりも F 値が 0.135 向上することが確認された.

[1]  Yonatan Wexler,et al.  Detecting text in natural scenes with stroke width transform , 2010, 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.

[2]  Noboru Babaguchi,et al.  Event based indexing of broadcasted sports video by intermodal collaboration , 2002, IEEE Trans. Multim..

[3]  Jing Zhang,et al.  Text Detection Using Edge Gradient and Graph Spectrum , 2010, 2010 20th International Conference on Pattern Recognition.

[4]  Chih-Jen Lin,et al.  LIBLINEAR: A Library for Large Linear Classification , 2008, J. Mach. Learn. Res..

[5]  Yoshinobu Hotta,et al.  Video caption duration extraction , 2008, 2008 19th International Conference on Pattern Recognition.

[6]  Lei Huang,et al.  A New Block Partitioned Text Feature for Text Verification , 2009, 2009 10th International Conference on Document Analysis and Recognition.

[7]  Jorge Stolfi,et al.  SnooperText: A text detection system for automatic indexing of urban scenes , 2014, Comput. Vis. Image Underst..

[8]  Jorge Stolfi,et al.  T-HOG: An effective gradient-based descriptor for single line text regions , 2013, Pattern Recognit..

[9]  Anil K. Jain,et al.  Text information extraction in images and video: a survey , 2004, Pattern Recognit..