• 沒有找到結果。

第五章 應用:從新聞中切出氣象播報片段

5.1 應用前的處理分析

為了能夠偵測出氣象播報的時間,我們需要訓練一些SVM models 來分辨不 同的語者,然後再利用這些models 來對新聞做辨識,將新聞的內容對不同的語 者做分類,以找到氣象主播說話的起始與結束點。當我們決定這麼做時,首先

會面臨到一個問題,因為一個完整的新聞節目中,出現的語者不只一人,且每 天出現的語者也不見得都一樣(每天新聞的外景主播以及事件的主角人物,甚至 新聞節目中穿插的廣告),所以為了達到有效的對新聞節目中語者的分類且能夠 將氣象主播的片段突顯出來,待訓練語者的選擇將會影響到新聞中語者的分類 好壞。此外,如果訓練的語者數量太多, 會影響到判斷的速度。因此,為了兼 顧準確度以及速度,待訓練語者的選取及語者數量的決定是整個過程中首要注 意的問題。

本實驗中,我們總共選擇了10 個語者來訓練出我們的 SVM models,10 個 語者分別為李四端、周明華、莊開文、張彭雯、徐俊相、陳來發、王欣怡、竹 幼婷、一名外場男記者和外場女記者,不包含廣告中的人物,因為新聞中,每 則廣告出現的時機次數都不定,且廣告的變化性相當大,所以如果把廣告中人 物的聲音加入我們的訓練語料中並不是一個好的做法,對於新聞的語者分類也 不合適,且廣告不是我們所要尋找的目標,因此我們不特別去針對廣告做分類。

我們選擇的語者的條件主要考量為出現的可能性與時間性。在一段新聞節目 中,主播是肯定且出現機會最高的一個語者,因此為了對新聞內容做一個適當 的切割分類,新聞主播一定是我們要訓練的語者。在我們10 個語者中,李四端、

周明華、莊開文、張彭雯和徐俊相等五個都是可能的新聞主播。另外,因為新 聞節目中,一定會有新聞現場或負責講述該則新聞事件始末的記者,所以我們 (我們分別選擇了一個男性的外

場記者和女性的外場記者)。顯然的,氣象主播是必然的訓練對象,所以我們把 陳來發、王欣怡和竹幼婷三個氣象主播也加入了我們的訓練語料中。

我們採用12 orders 的 Mel-Frequency Cepstral Coefficients ( MFCC )和 Delta-MFCC 共 24 維,而 frame size 為 512 個 samples 來當作語者的 features。

在抽取features 前我們將靜音( silence )的部分捨去,增加所抽取 features 的獨特 性, 以利於 SVM models 的準確性。每個語者的訓練語料長度為 30~40 秒,

K-means clustering 的 K=20、T=0.7,以”one-against-another method”建立多類 別的 SVM models,採用 RBF kernel function 而懲罰參數( penalty parameter ) C=32、σ2 = 1。

為了讓待辨識的語料長度足以被準確的判斷,我們所設定的辨識單位長度不 能夠太短,但為了讓我們所找出的氣象報導的起始與結束時間準確,我們所設 定的辨識單位長度不能太長,因此我們選定3 秒的長度為我們的辨識語料長度,

如此可以兼顧判斷的準確性以及氣象報導起始與結束時間的精準度。因此一個 小時的新聞節目, 總共會有 1200 個待辨識單位,我們從這 1200 個辨識單位的結 果來找出氣象播報的位置。

News video extracting News audio 16KHz, 8bit wave signal tranforming

3-sec unit-1

Segmenting

...

Extracting MFCC

scaling

Weather-forecasting candidates segmenting

Result

The first-Pass

3-sec

unit-1

….

Extracting MFCC scaling The Second-Pass

圖 5-1 氣象播報偵測流程圖。

相關文件