第三章 在主播有背景音樂的新聞環境下-
3.2 以語者識別為基礎的電視新聞主播偵測
3.2.2 應用語者識別於新聞語料的分類與新聞主播的偵測
依上一節所述我們可將電視新聞語料分成六大類並且分別訓練六類新聞語 者的高斯混合模型(GMM),六類語者分別為沒有背景音樂的主播、主播含有背景 音樂、外景男記者、外景女記者、廣告男音、廣告女音且其對應的 GMM 參數集分 別為θ1,θ2,θ3,θ4,θ5,θ6,則我們可將 3.1 節介紹的非監督式的電視新聞故事切割 方法修改為三個步驟:
1. 以 BIC 做新聞語者的分段,可得到多個沒有語者交換點的新聞音段,假設 為分段後的新聞音段的集合。
} ,..., ,
{S1 S2 SN S =
2. 將新聞音段集合 S 中的每一新聞音段分別丟入 GMM 語者識別器做新聞語者的 分類,因此可將新聞語料分成六類,以圖 3.3 來表示 GMM 新聞語者識別器。
3. 將被分類到新聞中沒有背景音樂的主播群內的所有新聞音段作 BIC 語者音段 分群,因為以 GMM 為基礎的語者識別的正確率不可能達到百分之百完全正 確,但只會有極少部分非真正沒有背景音樂的主播語料被分類到新聞中沒有 背景音樂的主播群中,因此我們利用 BIC 語者音段分群,藉此將極少部分的 非新聞純主播語料再分離開來,此時再分完群之後,我們就可認定最大群即 為真正的新聞中沒有背景音樂的主播音段群,完成新聞主播(不具背景音樂) 偵測。
最後將主播音段群內的音段以時間前後做排序,因此每段主播的開始時間到下一 段主播的開始時間之間當作一段新聞故事,如此即完成新聞故事的切割。
特徵參數抽取 X
新聞音段 新聞語者1
θ1
新聞語者2 θ2
新聞語者6 θ6 識別出語者身分
Max
…
∑
ilogP(xi |θ1)∑
ilogP(xi |θ6)∑
ilogP(xi |θ2)圖 3.3 GMM 新聞語者識別器
第 4 章 驗結果
在這章中對於第三章所提之在有些主播音段有背景音樂的新聞環境下,作電
.1 實驗環境及資料來源
以 Intel Pentium-4 2.4Ghz 的時脈速
主播音段部份都有明顯的背
.2 實驗方式
兩部份:訓練電視新聞語者的高斯混合模型及計算以第三
實
視新聞純主播(沒有背景音樂的主播片段)偵測的方法,加以實作,並設計實驗以 評估此方法的效能。
4
對於實驗的平台,在硬體方面使用了
率中央處理器的個人電腦,搭配有 1Gigabytes 主記憶體,並接有電視影像擷取 卡,作業系統為 Microsoft Windows XP 專業版。
實驗對象為有線電視東森新聞台,且選擇大部分
景音樂,只有少部分主播音段為沒有背景音樂的主播語音的新聞時段,並以電視 影像擷取卡將電視新聞直接錄成影像檔(.asf)和音訊檔(.wav) ,音訊取樣頻率 (sample rate)為 44.1k,每個 sample 16bits 大小,且實驗中的語音參數抽取 為 mfcc,維度皆為 24 維,用於電視新聞主播偵測。
4
本論文實驗流程分
章所提的以高斯混合模型為基礎的語者識別技術用於電視新聞主播偵測的方式
偵測沒有背景音樂的主播音段的正確率,分別敘述如下:
1. 訓練六大類新聞語者的高斯混合模型:
分別收集這六類語料以作為訓練新
2. 算以語者識別為基礎的新聞沒有背景音樂的主播音段偵測的正確率:
主 如第三章所提,將新聞語料分成六大類,
聞語者的高斯混合模型,分別為:沒有背景音樂的主播音段、主播含有背景音 樂、外景男音、外景女音、廣告男音、廣告女音,實驗中將收集四個時段的 新聞來評估此方法的可行性,即有四個沒有背景音樂的主播語者的 GMM,和 其對應的含有背景音樂的四個 GMM,再加上外景兩個 GMM 和廣告的兩個 GMM,
分別以 “BIC 為基礎的自我學習成長的方法"來學習語者的 GMM,訓練語料 的長度約為三到四分鐘,流程如圖 4.1,分別得到四個沒有背景音樂的主播 (四位主播分別為盧秀芳、王佳婉、趙心屏、馬千惠)的 GMM 其高斯元件個數 分別為 68、81、78、84,其對應的含有背景音樂的的四個 GMM 其高斯元件個 數分別為 72、86、83、61,而外景男音與外景女音 GMM 的高斯元件個數分別 為 133、121,廣告男音與廣告女音 GMM 的高斯元件個數分別為 112、139。
以BIC為基礎的自我學習成長 訓練新聞語者的GMM 收集訓
練語料 新聞語者的GMM
圖 4.1: 訓練新聞語者 GMM 流程
計
在完成訓練新聞語者的高斯混合模型之後,我們將分別測試這四個時段的 播新聞語料,每次測試為一個主播的新聞時段,長度為一個小時,實驗流程 如圖 4.2:首先錄製一個小時的新聞,接著以 BIC 語者分段將新聞分成多段沒 有語者交換點的新聞語者音段,再將每一段的新聞音段分別丟入 GMM 新聞語
新聞音段有那些屬於純主播音段(沒有背景音樂的音段),接著把 GMM 語者識 別的結果被分類到純主播類的作比較,分別計算 precision 及 recall,來評 估其優劣,其中 precision 代表程式所找到的純主播群中的音段個數(分 母),當中有幾個和人工標出的純主播音段相符(分子);recall 代表人工標 出的所有純主播音段中(分母),被程式找到純主播音段的個數(分子)。
錄製新聞節目
將一小時新聞作 BIC 語 者分段
將每一新聞音段分別 丟入 GMM 語者識別器做
分類
人工標記出哪些為新聞純 主播音段
計算純主播偵測結果 precision 和 recall
圖 4.2: 以 GMM 語者識別來偵測純主播實驗流程
4.3 實驗數據與結果
在本節中將列出以 GMM 語者識別為基礎的新聞沒有背景音樂的主播偵測的實 驗結果,以驗
證我們所提出的在有些主播音段有背景音樂的電視新聞的環境下,仍然能偵測出 純主播的音段(沒有背景音樂的音段) ,以確認其在新聞節目中的位置。
實驗一:
如上節所述,我們選擇四個不同時段的四個主播為實驗對象,每次實驗為完 整一各小時的新聞節目,每一主播時段分別用五天(即每天一個小時,共五天) 的新聞作為測試語料,表 4-1 分別列出 precision 和 recall 的實驗結果。
表 4-1 以 GMM 語者識別來偵測新聞純主播的四個時段五天的實驗結果 GMM68-盧秀芳 Precision Recall
1 17/17(100%) 17/18(94%) 2 8/8(100%) 8/9(89%) 3 16/16(100%) 16/18(89%) 4 4/4(100%) 4/7(58%) 5 7/8(88%) 7/7(100%)
平均 97.6 86
GMM81-王佳婉 Precision Recall 1 7/7(100%) 7/8(88%) 2 13/13(100%) 13/15(87%) 3 3/4(75%) 3/3(100%) 4 4/4(100%) 4/5(80%) 5 10/10(100%) 10/12(83%)
平均 95 87.6
GMM78-趙心屏 Precision Recall 1 17/17(100%) 17/19(89%) 2 17/18(94%) 17/20(85%) 3 16/16(100%) 16/19(84%) 4 12/12(100%) 12/12(100%) 5 15/15(100%) 15/17(88%) 平均 98.8 89.2
GMM84-馬千惠 Precision Recall 1 19/20(95%) 19/19(100%) 2 25/27(93%) 25/27(93%) 3 20/20(100%) 20/22(91%) 4 19/19(100%) 19/19(100%) 5 16/16(100%) 16/18(89%) 平均 97.6 94.6
實驗一討論:
由實驗數據我們可以發現,precision 大都非常的高,表示純主播 GMM 接受 條件越嚴格,較不容易有錯誤出現(所謂錯誤是說非純主播音段被認為是純主播 音段的情況),但相對的 recall 就較低,即比較可能出現比較多的漏失(純主播 音段被分類到其他語者),整體來說,新聞純主播群仍然包含了絕大部分測試新 聞節目中的新聞純主播語料,因此以語者識別為基礎的新聞純主播偵測確實可以 切割出新聞節目中沒有背景音樂的新聞故事,更以利於後端實作語音音節辨識與 新聞主播語音檢索系統。
實驗二:
實驗二選擇新聞時段為盧秀芳主播為實驗對象,將新聞六大類語料分別以固 定 16、32、64、96 個高斯元件的方式以 EM 演算法訓練新聞六大類語者的高斯混 合模型,並分別與原本以 “BIC 為基礎的自我學習成長的方法"來訓練新聞六 大類語者的方式做比較(由實驗一盧秀芳其高斯元件為 GMM68),同樣選擇五天五 個小時的新聞語料做測試,表 4-2 分別列出其純主播的 precision 與 recall 的 結果。
表 4-2: 比較固定高斯元件個數的方式來訓練語者 GMM 與以 “BIC 為基礎 自我學習成長的方法"來訓練語者 GMM,以比較兩種方式的優劣 GMM16 Precision Recall GMM96 Precision Recall 1 12/12 12/13 1 13/13 13/13 2 9/12 9/10 2 10/11 10/10 3 15/19 15/15 3 15/15 15/15 4 9/10 9/9 4 9/9 9/9 5 9/10 9/9 5 9/10 9/9
平均 86.8 96.4 平均 96.2 100%
GMM 32 Precision Recall GMM68 Precision Recall 1 13/14 13/13 1 10/10 10/13 2 10/10 10/10 2 7/7 7/10 3 15/15 15/15 3 13/13 13/15 4 9/12 9/9 4 8/8 8/9 5 8/9 8/9 5 7/7 7/9 平均 91 97.8 平均 100% 80.2 GMM 64 Precision Recall
1 12/13 12/13 2 9/10 9/10 3 15/15 15/15 4 7/7 7/9 5 8/9 8/9 平均 94.2 89.8
實驗二討論:
由實驗二結果顯示以自動決定高斯元件個數的方式比其他以固定元件方式 訓練的高斯元件方式,其結果雖然 precision 比其他高,但整體效果似乎沒有明 顯差距,其可能原因:1. 測試資料不夠多,2. 實驗列表只列出純主播類的 precision 與 recall,或許其他類其結果會明顯比以固定元件訓練方式來的好。
第 5 章
系統應用:電視新聞語音檢索系統
在本章中將介紹應用本論文所提之電視新聞純主播偵測方法偵測出沒有背 景音樂的新聞主播音段,進一歩針對主播音段加以實作語音音節辨識,成為新聞 主播語音檢索文件,最後實作出電視新聞語音檢索系統。因此本章第一節先介紹 語音音節辨識與語者調適的實作方法,接著第二節介紹以音節(syllables)為索 引特徵(indexing terms)的資訊檢索模型(information retrieval model)的實 作方式,最後第三節為整個新聞語音檢索系統的架構以及末節的檢索效能評估。
5.1 語音辨識與語者調適之實作
目前在語音辨識的部份較為普遍而辨識效果較好之語音辨識核心大多使用 隱藏式馬可夫模型(Hidden Markov Model, HMM) 【7】【8】,因此本論文在語音 辨識與語者調適實作方面,使用了劍橋大學工程系(Cambridge University Engineering Department)所發展的 Hidden Markov Model Toolkit(HTK)第 3.2.1 版的發展工具來建立我們系統所需的語音音節辨識的功能 【9】。
在 語 音 特 徵 參 數 方 面 使 用 了 12 維 的 梅 爾 倒 頻 譜 參 數 (Mel-Frequency Cepstral Coefficients, MFCC),加上對數能量參數,共 13 維參數,再計算此
13 維參數其一階差量和二階差量共計 39 維的語音特徵參數,而在訓練語料方 面,使用了 TCC300 國語語音資料庫 【10】,TCC300 為國立台灣大學,國立交通 大學,國立成功大學各自之語音資料庫所集合而成,屬於麥克風朗讀語音,共三 百人的語音資料,當中兩百六十個語者當作訓練語料,四十個語者為測試語料,
以 HTK TOOL 訓練出語者無關(speaker independent)的隱藏式馬可夫模型(聲母 與韻母共一百五十一個中文語音基本單位的 HMM),用來做音節辨識。
辨識過程分為兩階段(使用 HTK recognizer),對於連續語音,先辨識出整 段音節結果與各音節在此段語音中出現的時間,再以此時間資訊,對特徵參數依 各音節作分段(utterance segment),分成各單音節的特徵參數,進入第二階段 的辨識,對各單音節作辨識,輸出機率值前五大的候選音節結果(成為 syllable lattice),本論文將每一主播音段經過此兩階段的音節辨識所得到的 syllable lattice 當作欲被檢索的新聞主播語音文件,表 5-1 列出 TCC300 測試語料的音 節正確率(Correct)與精確率(Accuracy),公式說明如下:
% 100
% 100
− ×
=
×
=
N I Accuracy H
N Correct H
其中 N 為測試語料文稿中所有音節的數量,H 為辨識結果中正確的音節數量,I 為插入型錯誤的數量(Insertion error)。
表 5-1: 以 TCC300 中 260 人所訓練的 HMM(稱為原始 HMM),
並以 TCC300 的測試語料測試其音節辨識率
並以 TCC300 的測試語料測試其音節辨識率