第三章 研究方法

3.4 目標設定

4.2. 訓練資料前處理

4.2.1. i-Vector 正規化


實驗過程中,我們採用 i-Vector Length Normalization 的方式,將特徵值轉換至正 規化後的範圍內。研究指出正規化後的 i-Vector 也較能表現出彼此聲音的差異性 [30],如圖 4.1、4.2 所示,正規化後 i-Vector 對於男女聲音樣本的分佈較為明顯。

圖 4.1、未正規化 i-Vector 男女樣本分佈圖

圖 4.2、正規化後 i-Vector 男女樣本分佈圖

4.2.2. SVM 訓練及測試結果

在此我們總共設定八種風格:每種風格挑選 2 人;每人擷取 120 秒聲音樣本 並將這 120 秒的聲音樣本分割為 60 秒、10 秒、10 秒、10 秒、10 秒、10 秒、10 秒。將一個 60 秒的檔案當作 UBM 訓練樣本,6 個 10 秒檔案作為 GMM-UBM 測試樣本並輸入 ALIZE Toolkit 去計算出其特徵向量 i-Vector。將所得到

(1+6)*16 共 112 個 i-Vector 使用亂數選取一半作為 SVM 訓練樣本,另一半作 為 SVM 驗證樣本,如此實驗 10 次來測試此聲音風格模型的穩定度(如圖 4.3)。

圖 4.3、聲音風格驗證流程

所得到結果如表 4.2:

Round SVM Accuracy

1 100%

2 100%

3 100%

4 100%

5 100%

6 100%

7 100%

8 100%

9 100%

10 100%

表 4.2、聲音風格驗證結果

其後依序加入測試樣本,這裡我們取女性 3 位、男性 3 位和電腦合成語音 2 位(Google 和百度)其測試流程如圖 4.4。

以下為測試人員之頻譜圖(如圖 4.5~4.7):

圖 4.5、女生組頻譜圖,上至下依序為凱樂、黃韻玲、蔡珮蓁

圖 4.6、男生組頻譜圖,上至下依序為呂超倫、胡榮、顧寶文

圖 4.7、機器合成音頻譜圖,上至下依序為 Google、百度

Top1 Accuracy = 62.5% (5/8),Top2 Accuracy = 100% (8/8), Top3 Accuracy = 100%


小節的實驗中所有聲音樣本的取樣率(Sampling rate)降為 8,000Hz 再進行測試。


Top1 Accuracy = 37.5% (3/8),Top2 Accuracy = 87.5% (7/8),Top3 Accuracy = 100%


4.3.2. 電話錄音預測風格結果分析

由以上結果可以得知,聲音取樣率降低會導致聲音風格的辨識結果亦有部份 降低,其中因取樣率降低所損失的高頻部份聲音會讓低頻風格較為明顯。整體看 來雖有降低一些辨識率,在取 Top3 狀況下準確度還是可以達到 100%。

 歌者辨識



 不同語言如:國、台、客語;台灣國語、中英夾雜等分類




