• 沒有找到結果。

新聞語者的分類與訓練新聞語者的高斯混合模型

在文檔中 電視新聞語音檢索之研究 (頁 23-27)

第三章 在主播有背景音樂的新聞環境下-

3.2 以語者識別為基礎的電視新聞主播偵測

3.2.1 新聞語者的分類與訓練新聞語者的高斯混合模型

在電視新聞節目中,除了新聞主播之外,還有外景記者和外景中不特定人士 的語料和廣告語料等,對於語者的高斯混合模型而言,我們將新聞語料細分為六 大類—沒有背景音樂的主播語料、含有背景音樂的主播語料、外景男記者包含外 景不特定的男性語料、外景女記者包含外景不特定的女性語料、廣告中男性語 料、廣告中女性語料,接著以 GMM 為基礎的語者識別方法來做新聞語料的分類,

為這六大類新聞語者的語料訓練其 GMM,首先需要收集六大類語者的新聞訓練語 料,收集方式如下:

1. 沒有背景音樂的主播語料: 收集事先選定的時段的新聞主播的語料約四分 鐘,不具任何背景音樂。

2. 含有背景音樂的主播語料: 收集該時段的新聞主播含有背景音樂的語料約四 分鐘,此四分鐘的語料須盡量包含新聞中出現過在主播音段的背景音樂。

3. 外景男性聲音語料: 收集外景新聞的語料約四分鐘,其中包括外景男記者的 聲音,與外景之中非記者的男性聲音,且大部分語料需伴隨著明顯的外在環 境的吵雜聲。

4. 外景女性聲音語料: 收集外景新聞的語料約四分鐘,其中包括外景女記者的 聲音,與外景之中非記者的女性聲音,且大不分語料需伴隨著明顯的外在環 境的吵雜聲。

5. 廣告中男性語料: 收集了約四分鐘廣告中男性的語料,其中絕大部分語料有 各種不同的背景音樂或聲音特效。

6. 廣告中女性語料: 收集了約四分鐘廣告中女性的語料,其中絕大部分語料有 各種不同的背景音樂或聲音特效。

當收集完新聞語者的訓練語料之後,接著進行訓練六類新聞語者的 GMM,然而若 純粹以傳統的 EM(Expectation-Maximization)演算法的方式來學習新聞語者的 高斯混合模型會有下列幾項缺點:

1. EM 演算法必須事先設定好六類新聞語者 GMM 的高斯元件個數(components),

也必須先給定模型參數集的初始值,因此容易發生預測過多或過少高斯元件 的情形,造成過度表示或不足以表示語者的語音特徵分佈。

2. 模型參數集的初始值對 EM 演算法的結果有決定性的影響,初始值給的不好,

可能使得 EM 演算法最終只求得局部最大值(local maximum)。

3. 高斯元件的共變異數矩陣(covariance matrix)可能是奇異的(singular),因

因此本論文避免共變異數矩陣的奇異發生,採用對角共變異數矩陣,且對於

值(growing-confidence,信心度),根據 BIC 法則,選擇 作為 D 的機 率模型是比選擇 來的適合的。

訓練資料分成 K 群(K 表示成長到目前為止高斯元件的個數),令每一群的資 最大且大於 growing-confidence 的群來長出一個高斯元件,即以 取代原本對應的高斯元件,因此: 若 maxΔBIC > growing-confidence

則表示第 j 個高斯元件以兩個高斯元件來表示比較好,

否則若 maxΔBIC < growing-confidence,表示每一群都認為其用一個高斯元 件來表示比較好,因此訓練語者的 GMM 完成,演算法結束。

4. Global EM: 對新聞語者的訓練資料 X 實行 EM 演算法,高斯元件個數為步驟 3 成長過後的 K ,模型參數集採用步驟 3 長出一個高斯元件後的θ 為 EM 演算 法的初始值,以 EM 訓練完成後回到步驟 2。

在文檔中 電視新聞語音檢索之研究 (頁 23-27)