新聞語者的分類與訓練新聞語者的高斯混合模型

第三章在主播有背景音樂的新聞環境下-

3.2 以語者識別為基礎的電視新聞主播偵測

3.2.1 新聞語者的分類與訓練新聞語者的高斯混合模型

在電視新聞節目中，除了新聞主播之外，還有外景記者和外景中不特定人士的語料和廣告語料等，對於語者的高斯混合模型而言，我們將新聞語料細分為六大類—沒有背景音樂的主播語料、含有背景音樂的主播語料、外景男記者包含外景不特定的男性語料、外景女記者包含外景不特定的女性語料、廣告中男性語料、廣告中女性語料，接著以 GMM 為基礎的語者識別方法來做新聞語料的分類，

為這六大類新聞語者的語料訓練其 GMM，首先需要收集六大類語者的新聞訓練語料，收集方式如下:

1. 沒有背景音樂的主播語料: 收集事先選定的時段的新聞主播的語料約四分鐘，不具任何背景音樂。

2. 含有背景音樂的主播語料: 收集該時段的新聞主播含有背景音樂的語料約四分鐘，此四分鐘的語料須盡量包含新聞中出現過在主播音段的背景音樂。

3. 外景男性聲音語料: 收集外景新聞的語料約四分鐘，其中包括外景男記者的聲音，與外景之中非記者的男性聲音，且大部分語料需伴隨著明顯的外在環境的吵雜聲。

4. 外景女性聲音語料: 收集外景新聞的語料約四分鐘，其中包括外景女記者的聲音，與外景之中非記者的女性聲音，且大不分語料需伴隨著明顯的外在環境的吵雜聲。

5. 廣告中男性語料: 收集了約四分鐘廣告中男性的語料，其中絕大部分語料有各種不同的背景音樂或聲音特效。

6. 廣告中女性語料: 收集了約四分鐘廣告中女性的語料，其中絕大部分語料有各種不同的背景音樂或聲音特效。

當收集完新聞語者的訓練語料之後，接著進行訓練六類新聞語者的 GMM，然而若純粹以傳統的 EM(Expectation-Maximization)演算法的方式來學習新聞語者的高斯混合模型會有下列幾項缺點:

1. EM 演算法必須事先設定好六類新聞語者 GMM 的高斯元件個數(components)，

也必須先給定模型參數集的初始值，因此容易發生預測過多或過少高斯元件的情形，造成過度表示或不足以表示語者的語音特徵分佈。

2. 模型參數集的初始值對 EM 演算法的結果有決定性的影響，初始值給的不好，

可能使得 EM 演算法最終只求得局部最大值(local maximum)。

3. 高斯元件的共變異數矩陣(covariance matrix)可能是奇異的(singular)，因

因此本論文避免共變異數矩陣的奇異發生，採用對角共變異數矩陣，且對於

值(growing-confidence,信心度)，根據 BIC 法則，選擇作為 D 的機率模型是比選擇來的適合的。

訓練資料分成 K 群(K 表示成長到目前為止高斯元件的個數)，令每一群的資最大且大於 growing-confidence 的群來長出一個高斯元件，即以取代原本對應的高斯元件，因此: 若 maxΔBIC > growing-confidence

則表示第 j 個高斯元件以兩個高斯元件來表示比較好，

否則若 maxΔBIC < growing-confidence，表示每一群都認為其用一個高斯元件來表示比較好，因此訓練語者的 GMM 完成，演算法結束。

4. Global EM: 對新聞語者的訓練資料 X 實行 EM 演算法，高斯元件個數為步驟 3 成長過後的 K ，模型參數集採用步驟 3 長出一個高斯元件後的θ 為 EM 演算 法的初始值，以 EM 訓練完成後回到步驟 2。

在文檔中電視新聞語音檢索之研究 (頁 23-27)

第三章 在主播有背景音樂的新聞環境下-

3.2 以語者識別為基礎的電視新聞主播偵測

3.2.1 新聞語者的分類與訓練新聞語者的高斯混合模型

第三章在主播有背景音樂的新聞環境下-