應用前的處理分析

第五章應用：從新聞中切出氣象播報片段

5.1 應用前的處理分析

為了能夠偵測出氣象播報的時間，我們需要訓練一些SVM models 來分辨不同的語者，然後再利用這些models 來對新聞做辨識，將新聞的內容對不同的語者做分類，以找到氣象主播說話的起始與結束點。當我們決定這麼做時，首先

會面臨到一個問題，因為一個完整的新聞節目中，出現的語者不只一人，且每天出現的語者也不見得都一樣(每天新聞的外景主播以及事件的主角人物，甚至新聞節目中穿插的廣告)，所以為了達到有效的對新聞節目中語者的分類且能夠將氣象主播的片段突顯出來，待訓練語者的選擇將會影響到新聞中語者的分類好壞。此外，如果訓練的語者數量太多，會影響到判斷的速度。因此，為了兼顧準確度以及速度，待訓練語者的選取及語者數量的決定是整個過程中首要注意的問題。

本實驗中，我們總共選擇了10 個語者來訓練出我們的 SVM models，10 個語者分別為李四端、周明華、莊開文、張彭雯、徐俊相、陳來發、王欣怡、竹幼婷、一名外場男記者和外場女記者，不包含廣告中的人物，因為新聞中，每則廣告出現的時機次數都不定，且廣告的變化性相當大，所以如果把廣告中人物的聲音加入我們的訓練語料中並不是一個好的做法，對於新聞的語者分類也不合適，且廣告不是我們所要尋找的目標，因此我們不特別去針對廣告做分類。

我們選擇的語者的條件主要考量為出現的可能性與時間性。在一段新聞節目中，主播是肯定且出現機會最高的一個語者，因此為了對新聞內容做一個適當的切割分類，新聞主播一定是我們要訓練的語者。在我們10 個語者中，李四端、

周明華、莊開文、張彭雯和徐俊相等五個都是可能的新聞主播。另外，因為新聞節目中，一定會有新聞現場或負責講述該則新聞事件始末的記者，所以我們 (我們分別選擇了一個男性的外

場記者和女性的外場記者)。顯然的，氣象主播是必然的訓練對象，所以我們把陳來發、王欣怡和竹幼婷三個氣象主播也加入了我們的訓練語料中。

我們採用12 orders 的 Mel-Frequency Cepstral Coefficients ( MFCC )和 Delta-MFCC 共 24 維，而 frame size 為 512 個 samples 來當作語者的 features。

在抽取features 前我們將靜音( silence )的部分捨去，增加所抽取 features 的獨特性，以利於 SVM models 的準確性。每個語者的訓練語料長度為 30~40 秒，

K-means clustering 的 K=20、T=0.7，以”one-against-another method”建立多類別的 SVM models，採用 RBF kernel function 而懲罰參數( penalty parameter ) C=32、σ² = 1。

為了讓待辨識的語料長度足以被準確的判斷，我們所設定的辨識單位長度不能夠太短，但為了讓我們所找出的氣象報導的起始與結束時間準確，我們所設定的辨識單位長度不能太長，因此我們選定3 秒的長度為我們的辨識語料長度，

如此可以兼顧判斷的準確性以及氣象報導起始與結束時間的精準度。因此一個小時的新聞節目, 總共會有 1200 個待辨識單位，我們從這 1200 個辨識單位的結果來找出氣象播報的位置。

News video extracting News audio 16KHz, 8bit wave signal tranforming

3-sec unit-1

Segmenting

...

Extracting MFCC

scaling

Weather-forecasting candidates segmenting

Result

The first-Pass

3-sec

unit-1

….

Extracting MFCC scaling The Second-Pass

圖 5-1 氣象播報偵測流程圖。

在文檔中以叢集為基礎的支撐向量機學習及其應用於語者辨識 (頁 42-45)

第五章 應用：從新聞中切出氣象播報片段

5.1 應用前的處理分析

第五章應用：從新聞中切出氣象播報片段