第一章 前言
1.4 章節介紹
在以下章節中,第二章首先介紹模型選擇與貝氏資訊法則(BIC)以及 BIC 如 何應用於語者分段與語者音段分群的技術,緊接者介紹以高斯混合模型為基礎的 語者識別技術;第三章則是本論文提出如何在主播音段有背景音樂的新聞環境 下,找出純主播音段(沒有背景音樂的主播音段)並切割新聞故事;第四章是以第 三章所提出的新聞沒有背景音樂的主偵測的方法的實驗結果,以驗證其可行性與 效能;第五章是整合一些語音方面的相關技術,包括:以第三章所提之電視新聞主 播偵測及新聞故事切割、沒有背景音樂的主播音段的音節辨識並實作電視新聞語 音檢所系統;第六章則是結論及對未來的展望。
第 2 章
BIC 在語者分段及語者分群與語者識別 之相關研究
2.1 模型選擇與貝氏資訊法則(BIC)
貝氏資訊法則(Bayesian Information Criterion,BIC)是一種模型選擇的法則,最 先由 G.Schwarz 【2】所提出,所謂模型選擇指的是給定一資料集
和一個機率模型候選集
2.2 BIC 語者分段與分群
近年來對於語者分段與分群 【13】的相關技術大概可歸為三大類:
(1) 以模型為基礎(GMM-based)【5】: 這種方式需要依靠事先訓練好的模型來區 分 出不同的語者,但實際上並不可能取得各種的語者模型。
(2) 以距離為基礎(Metric-based)【6】: 利用滑動視窗(sliding window),每 次計算相鄰視窗間的距離,距離的量測方式可採用 KL2,但需要由訓練資料 與經驗來決定門檻值(threshold),最後選擇在門檻值之上的最高點,因此對 於實際測試資料上,效果並不穩定。
(3) 以模型選擇為基礎(Model-Selection-based): 由 Chen 於 1998 年提出【4】, 有別於傳統的語者分段方式,他利用貝氏資訊法則(BIC)的模型選擇理論來檢 驗音段中是否有語者交換點(change point),其優點是不需要事先知道各種 語者的模型也無需訓練語者的模型。
)
b>0,所以最後選擇具有最大ΔBIC值且大於零的點為語者交換 點,否則此音段沒有語者交換點。
2.3 以高斯混合模型為基礎的語者識別
所謂語者識別(Speaker Identification)是從一群已知的語者中識別出與一個未 知輸入的聲音最相似的語者,如圖 2-1 表示模型訓練的步驟,首先將 N 位語者的 訓練語料經由特徵參數的擷取(Feature extraction)後得到特徵參數向量,再經由語 者模型訓練的方法來訓練每位語者的模型,可代表每位語者的語音特性,語者模 型訓練的方法主要有向量量化(Vector Quantization-VQ)、徑向基底函數(Radial basis function-RBF)和高斯混合模型(Gaussian Mixture Models-GMM)等方法。
語者模型1
圖 2-1 語者模型訓練流程圖
將 N 位語者語音資料訓練成 N 個語者模型之後,接著進行語者識別的步驟,
如圖 2-2 所示,同樣將一測試語料經過特徵參數擷取之後得到特徵向量,接著將 語音的特徵向量丟進分類器(classifier)中進行分類,然後從已訓練好的語者模型 中找出與輸入最相近的語者身份,即為識別出的語者。
抽取特徵參數
(Feature extraction)
語者模型訓練
(Speaker model 語者模型2
訓練語料 特徵向量
. .
語者模型 N
圖 2-2 語者識別的步驟
此 外 , 根 據 訓 練 與 測 試 語 句 可 將 語 者 識 別 分 為 文 本 相 關 的 語 者 識 別 (Text-dependent Speaker Identification)和文本獨立的語者識別(Text-independent Speaker Identification),前者的訓練和測試語料必須是特定的文字內容,而後者 可以接受不受限制的文字發音,在測試時也不要求測試者所唸的文字內容。本論 文主要探討文本獨立的語者識別,而前人的研究中以高斯混合模型為基礎的文本 獨立的語者識別已有不錯的成果【1】,以下將簡單介紹以高斯混合模型為基礎的 語者識別技術:
高斯混合模型(GMM)
高斯混合模型的機率密度函數(probability density function)如下:
)
其中第 i 個高斯元件(Gaussian component)的高斯函數為
) (covariance matrix)
∑i
z wi為高斯元件(component)的權重(weight),且 1 料,最常用的方法是最大概似估計(maximum-likelihood estimation, ML),給定訓 練語料並抽取特徵參數向量集X ={x1,x2,...,xN},ML 就是要去估計 GMM 的參數, EM(expectation-maximization)演算法 【14】。給定模型的參數初始值,以迭代 的方式去調整 GMM 的參數,保證每次調整過後的新參數 滿足 p(X| )≧p(X|
Mixture Weights:
)
Mean vector:
)
Covariance matrix (diagonal): 最適合來描述 X),一般以具有最大事後(posteriori)機率的準則來決定:
)
第 3 章
在主播有背景音樂的新聞環境下作新聞 主播的偵測與新聞故事的切割
本章敘述在有些主播有背景音樂的電視新聞節目的環境下,說明如何將每天 錄製的新聞做分析,以達成自動切割新聞故事(圖 3.1 為電視新聞結構示意圖),
於本章 3.1 節首先介紹前人【3】非監督式的自動切割新聞的作法,但是若新聞 節目當中,有某些新聞主播片段有無法預測的背景音樂,則之前的方法將會受到 有背景音樂的主播片段影響以致無法正確切割出新聞故事,因此本論文 3.2 節將 針對此點提出一個監督式的解決方式,以語者識別為基礎將新聞語料做分類,以 偵測出沒有背景音樂的主播新聞故事,因為我們將於後端實作主播音節辨識與新 聞主播語音檢索系統(將在第五章介紹),而若主播音段有背景音樂會大大降低主 播音節辨識的正確率與語音檢索的效能,故我們捨棄有背景音樂的主播新聞故 事。
圖 3.1 電視新聞節目的結構
3.1 非監督式的電視新聞故事切割
本節說明論文【3】所提之電視新聞主播偵測方法,一般來說,電視新聞的 結構如同圖 3.1,而且新聞主播的音段數目通常是新聞節目中最多的,所以根據 以上的特性可以偵測出新聞節目中的主播,進而做新聞故事的切割,作法主要分 為二個步驟:
步驟一: 以 BIC 作新聞語者分段。
步驟二: 由步驟一所分割出來的新聞音段作 BIC 音段分群,並根據新聞節目中主 播音段為最多的原則,認為段數最多最大群的為新聞主播的音段群。
最後將主播音段群內的音段以時間前後做排序,因此每段主播的開始時間到下一 段主播的開始時間之間即為一段新聞故事,如此即完成新聞故事的切割。
其中步驟一、二的演算法如下:
以 BIC 作新聞語者分段(步驟一)
新聞節目屬於多個語者交換點的偵測,圖 3.2 說明了它的作法,以 10 秒為 一音窗(audio window),用 BIC 偵測音窗內是否有語者交換點,若此音窗無語者 交換點則以重疊 5 秒的方式偵測下一個音窗,一旦偵測到交換點,則從此交換點 重新開始再取下一個音窗繼續偵測,如此重複直到找完整段新聞為止。
圖 3.2:電視新聞的多個語者交換點偵測
以 BIC 作新聞音段的分群(步驟二)
當偵測出新聞音段中所有的語者交換點之後,即可將此音段分割成多個沒有 語者交換點的音段,這些音段當中新聞主播音段會出現多次且散落在新聞節目當 中,所以在做完語者分段之後可做分群,將相同語者的音段集合起來,假設 是新聞音段的集合,以階層式的分群法來對 S 作分群,演算法 如下:
} ,..., ,
{S1 S2 Sn S =
1. 初始每一群節點Ci只包含一個新聞音段Si
2. 計算任兩節點的距離(以ΔBIC 為距離衡量,方程式 2.3) 3. 選擇最近的兩節點(ΔBIC 最小)
若ΔBIC < 0
則合併此兩節點並回到演算法步驟 2 否則(即ΔBIC>=0) 分群完成
4. 最後選擇最大群(段數最多)為新聞主播音段群
非純粹只有主播的聲音,通常會伴隨有明顯的背景音樂,造成沒有背景音樂的主 播音段與含有背景音樂的主播音段的語音特性明顯不同,破壞了上述方法中最大 群為新聞主播群的假設,故若以上述非監督式的電視新聞主播偵測方法偵測將無 法正確切割新聞故事;再者,若要繼續針對新聞主播音段進行語音的音節辨認,
具有背景音樂的主播音段勢必會大大降低音節辨認的正確率,因此本論文下一節 將以監督式的方式針對固定時段的新聞以語者識別為基礎來做電視新聞主播音 段(不具背景音樂的主播音段)的偵測,以利進一歩實作電視新聞語音檢索系統 (在第五章介紹)。
3.2 以語者識別為基礎的電視新聞主播偵測
在第二章中介紹了如何用高斯混合模型來做語者識別,在本節中,我們要介 紹在新聞主播有背景音樂的環境下以 GMM 為基礎的語者識別方法來電視新聞語 料的分類,以擷取新聞中沒有背景音樂的主播音段並切割新聞故事。
3.2.1 新聞語者的分類與訓練新聞語者的高斯混合模型
在電視新聞節目中,除了新聞主播之外,還有外景記者和外景中不特定人士 的語料和廣告語料等,對於語者的高斯混合模型而言,我們將新聞語料細分為六 大類—沒有背景音樂的主播語料、含有背景音樂的主播語料、外景男記者包含外 景不特定的男性語料、外景女記者包含外景不特定的女性語料、廣告中男性語 料、廣告中女性語料,接著以 GMM 為基礎的語者識別方法來做新聞語料的分類,
為這六大類新聞語者的語料訓練其 GMM,首先需要收集六大類語者的新聞訓練語 料,收集方式如下:
1. 沒有背景音樂的主播語料: 收集事先選定的時段的新聞主播的語料約四分 鐘,不具任何背景音樂。
2. 含有背景音樂的主播語料: 收集該時段的新聞主播含有背景音樂的語料約四 分鐘,此四分鐘的語料須盡量包含新聞中出現過在主播音段的背景音樂。
3. 外景男性聲音語料: 收集外景新聞的語料約四分鐘,其中包括外景男記者的 聲音,與外景之中非記者的男性聲音,且大部分語料需伴隨著明顯的外在環 境的吵雜聲。
4. 外景女性聲音語料: 收集外景新聞的語料約四分鐘,其中包括外景女記者的 聲音,與外景之中非記者的女性聲音,且大不分語料需伴隨著明顯的外在環 境的吵雜聲。
5. 廣告中男性語料: 收集了約四分鐘廣告中男性的語料,其中絕大部分語料有 各種不同的背景音樂或聲音特效。
6. 廣告中女性語料: 收集了約四分鐘廣告中女性的語料,其中絕大部分語料有 各種不同的背景音樂或聲音特效。
當收集完新聞語者的訓練語料之後,接著進行訓練六類新聞語者的 GMM,然而若 純粹以傳統的 EM(Expectation-Maximization)演算法的方式來學習新聞語者的 高斯混合模型會有下列幾項缺點:
1. EM 演算法必須事先設定好六類新聞語者 GMM 的高斯元件個數(components),
也必須先給定模型參數集的初始值,因此容易發生預測過多或過少高斯元件 的情形,造成過度表示或不足以表示語者的語音特徵分佈。
也必須先給定模型參數集的初始值,因此容易發生預測過多或過少高斯元件 的情形,造成過度表示或不足以表示語者的語音特徵分佈。