電視新聞語料場景的自動切割與分類 (Automatic Scene Segmentation and Classification in Television News Database) [In Chinese]

摘要 在本篇論文中,我們提出場景自動切割與分類的演算法,我們將一小時新聞分成為四種場 景:新聞主播報導(Anchor Reporting)、現場採訪報導(Live Reporting)、氣象主播報導(Weather Anchor Reporting)與廣告(Commercials)。我們擷取了時域與頻域的特徵值用以描述場景的特性, 並使用高斯混合模型(Gaussian Mixture Model)當作場景分類器。場景切割的策略有兩種:(1)每秒 移動策略、(2)快速策略。每秒移動策略,是利用每次移動一秒,並觀察3秒的聲音去決定場景的 轉換點,效能評估方面,其Deletion Rate為5.56%,Insertion Ration為5.56%。由於上述的方法耗費 計算的時間較久,因此我們也開發了一套快速策略,其Deletion Rate為2.27%,Insertion Ration為 5.4%。在場景分類方面,我們使用了MFCC、LSTER、HZCRR、SF與MFS去將經過真實轉換點切 割出的一段段聲音去作分類,可以達到92.5%的平均正確率。