Haber Bültenlerinde Kayan Yazi Tanima Sliding Text Recognition in Broadcast News

In this study, a method is proposed for the recognition of sliding text in broadcast news videos. Video frames are converted into binary images, from which horizontal and vertical projection histograms are extracted to determine the position of the text band. After some noise removal operations, which make use of the redundancy between video frames, the text image is segmented into individual characters by connected component analysis. Template matching is used for character recognition. The strings obtained by recognition in consecutive images are aligned in space and time, which leads to a complete transcription of the whole program. Some similarly shaped characters may be confused with each other. To overcome this, Transformation Based Learning algorithm is used and corrective rules are learned from a training text. The proposed method achieves 99% character recognition accuracy and 92% word recognition accuracy. 1. Giris Cokluortam bilgi cikarimi alanindaki calismalar son yillarda buyuk gelisme kaydetmistir. Video icinde yer alan yazilar, arsivleme, dizinleme ve geri getirim acisindan onemli tamamlayici bilgi turlerinden biridir. Metinsel ogelerin goruntude cokca on plana ciktigi haber bultenlerinin cevriyazimi bu bakimdan ilgi goren bir uygulama alanidir. Haber bulteni videolarindan yazi tanima ile programa ait metin tabanli sorgulama sistemleri gelistirilebilmektedir. Ayrica kayan yazi takibi ile, daha dusuk tanima oranlari veren konusma tanimada yapilan hatalar denetlenip otomatik olarak duzeltilebilir. Literaturdeki calismalarin cogu, video cercevelerindeki sabit metin bolgelerinin tespiti konusunda yogunlasmaktadir (1-3). Bazi calismalar metnin hareketini de goz onune alarak metnin bulundugu bolgenin takibini yapmakta veya ardisik cercevelerdeki fazlalik bilgiyi kullanarak goruntu kalitesi ve dolayisiyla tanima basarisini artirmaya calismaktadir (4,5). Video goruntusundeki yazi iceren alanlarin tespiti icin cogunlukla imge kenar bilgisi kullanilmaktadir: Gri olcekli veya ikili imgenin izdusum histogramlari cikarilarak keskin ton (arka plan - karakter) gecislerinin bulundugu bolgeler metin bolgeleri olarak alinir (4). Doku tabanli tanimada ise karakterlerin goruntudeki diger ogelerden farkli ve degismeyen dokuya sahip oldugu kabul edilir ve maskeleme/suzgecleme yapilarak karakterler ayristirilir (6). Karakter tanima islemi bircok calismada ticari optik karakter tanima (OCR) yazilimlarina birakilmistir (1,5). (2)'de ise karakter tanima, onceden belirlenmis sablonlarin ilinti tabanli e slestirmesi ile yapilmaktadir. Yine ayni calismada, taninan sozcugun, alana ozel bir sozlukte yer alan en yakin sozcukle karsilastirilmasi ve bu sayede tanima basariminin artirilmasi saglanmistir. Videodaki hareketli yazinin takibinde dogrusal hareket modeli varsayilmakta ve karsilikli ilinti kullanilarak iki cerceve arasindaki kayma miktari belirlenmektedir (4). (5)'te, ardisik cerceveler arasinda ortalama alinarak dusuk goruntu kalitesi iyilestirilmeye calisilmistir. Bu calismada haber bultenlerindeki kayan yazilari taniyan ve dil kurallari cercevesinde hatalari duzelten bir yontem onerilmektedir. 2. bolumde, calismada kullanilan veri kumesi hakkinda bilgi verilmekte; 3. bolumde temel yazi tespiti ve tanima sisteminden soz edilmekte ve sonuclar verilmektedir. Hatali taninan karakterlerin dil isleme ile duzeltilmesi ve buna bagli sonuclar ise 4. bolumde sunulmaktadir. Son bolum, calismayla ilgili genel degerlendirmeleri icermektedir.

[1]  Vladimir I. Levenshtein,et al.  Binary codes capable of correcting deletions, insertions, and reversals , 1965 .

[2]  David S. Doermann,et al.  Automatic text tracking in digital videos , 1998, 1998 IEEE Second Workshop on Multimedia Signal Processing (Cat. No.98EX175).

[3]  Jack D. Tubbs,et al.  A note on binary template matching , 1989, Pattern Recognit..

[4]  Eric Brill,et al.  Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging , 1995, CL.

[5]  N. Otsu A threshold selection method from gray level histograms , 1979 .

[6]  Ellen K. Hughes,et al.  Video OCR for digital news archive , 1998, Proceedings 1998 IEEE International Workshop on Content-Based Access of Image and Video Database.

[7]  Ashraf A. Kassim,et al.  Detection and Interpretation of Text Information in Noisy Video Sequences , 2006, 2006 9th International Conference on Control, Automation, Robotics and Vision.

[8]  Eric Brill,et al.  Automatic Rule Acquisition for Spelling Correction , 1997, ICML.

[9]  M. Leon,et al.  TEXT DETECTION IN IMAGES AND VIDEO SEQUENCES , 2005 .

[10]  Jean-Marc Odobez,et al.  Text detection, recognition in images and video frames , 2004, Pattern Recognit..

[11]  Grace Ngai,et al.  Transformation Based Learning in the Fast Lane , 2001, NAACL.

[12]  Rongrong Wang,et al.  A novel video caption detection approach using multi-frame integration , 2004, ICPR 2004.