以高斯混合模型為基礎的語者識別

第二章 BIC 在語者分段及語者分群與語者識別之相關研究

2.3 以高斯混合模型為基礎的語者識別

所謂語者識別(Speaker Identification)是從一群已知的語者中識別出與一個未知輸入的聲音最相似的語者，如圖 2-1 表示模型訓練的步驟，首先將 N 位語者的訓練語料經由特徵參數的擷取(Feature extraction)後得到特徵參數向量，再經由語者模型訓練的方法來訓練每位語者的模型，可代表每位語者的語音特性，語者模型訓練的方法主要有向量量化(Vector Quantization-VQ)、徑向基底函數(Radial basis function-RBF)和高斯混合模型(Gaussian Mixture Models-GMM)等方法。

語者模型1

圖 2-1 語者模型訓練流程圖

將 N 位語者語音資料訓練成 N 個語者模型之後，接著進行語者識別的步驟，

如圖 2-2 所示，同樣將一測試語料經過特徵參數擷取之後得到特徵向量，接著將語音的特徵向量丟進分類器(classifier)中進行分類，然後從已訓練好的語者模型中找出與輸入最相近的語者身份，即為識別出的語者。

抽取特徵參數

(Feature extraction)

語者模型訓練

(Speaker model 語者模型2

訓練語料特徵向量

. .

語者模型 N

圖 2-2 語者識別的步驟

此外，根據訓練與測試語句可將語者識別分為文本相關的語者識別 (Text-dependent Speaker Identification)和文本獨立的語者識別(Text-independent Speaker Identification)，前者的訓練和測試語料必須是特定的文字內容，而後者可以接受不受限制的文字發音，在測試時也不要求測試者所唸的文字內容。本論文主要探討文本獨立的語者識別，而前人的研究中以高斯混合模型為基礎的文本獨立的語者識別已有不錯的成果【1】，以下將簡單介紹以高斯混合模型為基礎的語者識別技術：

高斯混合模型(GMM)

高斯混合模型的機率密度函數(probability density function)如下:

)

其中第 i 個高斯元件(Gaussian component)的高斯函數為

) (covariance matrix)

∑i

z w_i為高斯元件(component)的權重(weight)，且 1 料，最常用的方法是最大概似估計(maximum-likelihood estimation, ML)，給定訓練語料並抽取特徵參數向量集X ={x₁,x₂,...,x_N}，ML 就是要去估計 GMM 的參數， EM(expectation-maximization)演算法【14】。給定模型的參數初始值，以迭代的方式去調整 GMM 的參數，保證每次調整過後的新參數滿足 p(X| )≧p(X|

Mixture Weights:

)

Mean vector:

)

Covariance matrix (diagonal): 最適合來描述 X)，一般以具有最大事後(posteriori)機率的準則來決定:

)

第 3 章

在主播有背景音樂的新聞環境下作新聞主播的偵測與新聞故事的切割

本章敘述在有些主播有背景音樂的電視新聞節目的環境下，說明如何將每天錄製的新聞做分析，以達成自動切割新聞故事(圖 3.1 為電視新聞結構示意圖)，

於本章 3.1 節首先介紹前人【3】非監督式的自動切割新聞的作法，但是若新聞節目當中，有某些新聞主播片段有無法預測的背景音樂，則之前的方法將會受到有背景音樂的主播片段影響以致無法正確切割出新聞故事，因此本論文 3.2 節將針對此點提出一個監督式的解決方式，以語者識別為基礎將新聞語料做分類，以偵測出沒有背景音樂的主播新聞故事，因為我們將於後端實作主播音節辨識與新聞主播語音檢索系統(將在第五章介紹)，而若主播音段有背景音樂會大大降低主播音節辨識的正確率與語音檢索的效能，故我們捨棄有背景音樂的主播新聞故事。

圖 3.1 電視新聞節目的結構

3.1 非監督式的電視新聞故事切割

本節說明論文【3】所提之電視新聞主播偵測方法，一般來說，電視新聞的結構如同圖 3.1，而且新聞主播的音段數目通常是新聞節目中最多的，所以根據以上的特性可以偵測出新聞節目中的主播，進而做新聞故事的切割，作法主要分為二個步驟:

步驟一: 以 BIC 作新聞語者分段。

步驟二: 由步驟一所分割出來的新聞音段作 BIC 音段分群，並根據新聞節目中主播音段為最多的原則，認為段數最多最大群的為新聞主播的音段群。

最後將主播音段群內的音段以時間前後做排序，因此每段主播的開始時間到下一段主播的開始時間之間即為一段新聞故事，如此即完成新聞故事的切割。

其中步驟一、二的演算法如下:

以 BIC 作新聞語者分段(步驟一)

新聞節目屬於多個語者交換點的偵測，圖 3.2 說明了它的作法，以 10 秒為一音窗(audio window)，用 BIC 偵測音窗內是否有語者交換點，若此音窗無語者交換點則以重疊 5 秒的方式偵測下一個音窗，一旦偵測到交換點，則從此交換點重新開始再取下一個音窗繼續偵測，如此重複直到找完整段新聞為止。

圖 3.2:電視新聞的多個語者交換點偵測

以 BIC 作新聞音段的分群(步驟二)

當偵測出新聞音段中所有的語者交換點之後，即可將此音段分割成多個沒有語者交換點的音段，這些音段當中新聞主播音段會出現多次且散落在新聞節目當中，所以在做完語者分段之後可做分群，將相同語者的音段集合起來，假設是新聞音段的集合，以階層式的分群法來對 S 作分群，演算法如下:

} ,..., ,

{S₁ S₂ S_n S =

1. 初始每一群節點C_i只包含一個新聞音段S_i

2. 計算任兩節點的距離(以ΔBIC 為距離衡量，方程式 2.3) 3. 選擇最近的兩節點(ΔBIC 最小)

若ΔBIC < 0

則合併此兩節點並回到演算法步驟 2 否則(即ΔBIC>=0) 分群完成

4. 最後選擇最大群(段數最多)為新聞主播音段群

非純粹只有主播的聲音，通常會伴隨有明顯的背景音樂，造成沒有背景音樂的主播音段與含有背景音樂的主播音段的語音特性明顯不同，破壞了上述方法中最大群為新聞主播群的假設，故若以上述非監督式的電視新聞主播偵測方法偵測將無法正確切割新聞故事；再者，若要繼續針對新聞主播音段進行語音的音節辨認，

具有背景音樂的主播音段勢必會大大降低音節辨認的正確率，因此本論文下一節將以監督式的方式針對固定時段的新聞以語者識別為基礎來做電視新聞主播音段(不具背景音樂的主播音段)的偵測，以利進一歩實作電視新聞語音檢索系統 (在第五章介紹)。

3.2 以語者識別為基礎的電視新聞主播偵測

在第二章中介紹了如何用高斯混合模型來做語者識別，在本節中，我們要介紹在新聞主播有背景音樂的環境下以 GMM 為基礎的語者識別方法來電視新聞語料的分類，以擷取新聞中沒有背景音樂的主播音段並切割新聞故事。

3.2.1 新聞語者的分類與訓練新聞語者的高斯混合模型

在電視新聞節目中，除了新聞主播之外，還有外景記者和外景中不特定人士的語料和廣告語料等，對於語者的高斯混合模型而言，我們將新聞語料細分為六大類—沒有背景音樂的主播語料、含有背景音樂的主播語料、外景男記者包含外景不特定的男性語料、外景女記者包含外景不特定的女性語料、廣告中男性語料、廣告中女性語料，接著以 GMM 為基礎的語者識別方法來做新聞語料的分類，

為這六大類新聞語者的語料訓練其 GMM，首先需要收集六大類語者的新聞訓練語料，收集方式如下:

1. 沒有背景音樂的主播語料: 收集事先選定的時段的新聞主播的語料約四分鐘，不具任何背景音樂。

2. 含有背景音樂的主播語料: 收集該時段的新聞主播含有背景音樂的語料約四分鐘，此四分鐘的語料須盡量包含新聞中出現過在主播音段的背景音樂。

3. 外景男性聲音語料: 收集外景新聞的語料約四分鐘，其中包括外景男記者的聲音，與外景之中非記者的男性聲音，且大部分語料需伴隨著明顯的外在環境的吵雜聲。

4. 外景女性聲音語料: 收集外景新聞的語料約四分鐘，其中包括外景女記者的聲音，與外景之中非記者的女性聲音，且大不分語料需伴隨著明顯的外在環境的吵雜聲。

5. 廣告中男性語料: 收集了約四分鐘廣告中男性的語料，其中絕大部分語料有各種不同的背景音樂或聲音特效。

6. 廣告中女性語料: 收集了約四分鐘廣告中女性的語料，其中絕大部分語料有各種不同的背景音樂或聲音特效。

當收集完新聞語者的訓練語料之後，接著進行訓練六類新聞語者的 GMM，然而若純粹以傳統的 EM(Expectation-Maximization)演算法的方式來學習新聞語者的高斯混合模型會有下列幾項缺點:

1. EM 演算法必須事先設定好六類新聞語者 GMM 的高斯元件個數(components)，

也必須先給定模型參數集的初始值，因此容易發生預測過多或過少高斯元件的情形，造成過度表示或不足以表示語者的語音特徵分佈。

2. 模型參數集的初始值對 EM 演算法的結果有決定性的影響，初始值給的不好，

可能使得 EM 演算法最終只求得局部最大值(local maximum)。

3. 高斯元件的共變異數矩陣(covariance matrix)可能是奇異的(singular)，因

因此本論文避免共變異數矩陣的奇異發生，採用對角共變異數矩陣，且對於

值(growing-confidence,信心度)，根據 BIC 法則，選擇作為 D 的機率模型是比選擇來的適合的。

訓練資料分成 K 群(K 表示成長到目前為止高斯元件的個數)，令每一群的資最大且大於 growing-confidence 的群來長出一個高斯元件，即以取代原本對應的高斯元件，因此: 若 maxΔBIC > growing-confidence

則表示第 j 個高斯元件以兩個高斯元件來表示比較好，

否則若 maxΔBIC < growing-confidence，表示每一群都認為其用一個高斯元件來表示比較好，因此訓練語者的 GMM 完成，演算法結束。

4. Global EM: 對新聞語者的訓練資料 X 實行 EM 演算法，高斯元件個數為步驟 3 成長過後的 K ，模型參數集採用步驟 3 長出一個高斯元件後的θ 為 EM 演算 法的初始值，以 EM 訓練完成後回到步驟 2。

3.2.2 應用語者識別於新聞語料的分類與新聞主播的偵測

依上一節所述我們可將電視新聞語料分成六大類並且分別訓練六類新聞語者的高斯混合模型(GMM)，六類語者分別為沒有背景音樂的主播、主播含有背景音樂、外景男記者、外景女記者、廣告男音、廣告女音且其對應的 GMM 參數集分別為θ₁,θ₂,θ₃,θ₄,θ₅,θ₆，則我們可將 3.1 節介紹的非監督式的電視新聞故事切割方法修改為三個步驟:

1. 以 BIC 做新聞語者的分段，可得到多個沒有語者交換點的新聞音段，假設為分段後的新聞音段的集合。

} ,..., ,

{S₁ S₂ S_N S =

2. 將新聞音段集合 S 中的每一新聞音段分別丟入 GMM 語者識別器做新聞語者的分類，因此可將新聞語料分成六類，以圖 3.3 來表示 GMM 新聞語者識別器。

在文檔中電視新聞語音檢索之研究 (頁 16-0)