• 沒有找到結果。

第三章 研究方法

3.4 目標設定

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.2. 訓練資料前處理

4.2.1. i-Vector 正規化

為避免不同樣本彼此特徵數值差異過大,造成部分特徵影響整個實驗結果。

實驗過程中,我們採用 i-Vector Length Normalization 的方式,將特徵值轉換至正 規化後的範圍內。研究指出正規化後的 i-Vector 也較能表現出彼此聲音的差異性 [30],如圖 4.1、4.2 所示,正規化後 i-Vector 對於男女聲音樣本的分佈較為明顯。

圖 4.1、未正規化 i-Vector 男女樣本分佈圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4.2、正規化後 i-Vector 男女樣本分佈圖

4.2.2. SVM 訓練及測試結果

在此我們總共設定八種風格:每種風格挑選 2 人;每人擷取 120 秒聲音樣本 並將這 120 秒的聲音樣本分割為 60 秒、10 秒、10 秒、10 秒、10 秒、10 秒、10 秒。將一個 60 秒的檔案當作 UBM 訓練樣本,6 個 10 秒檔案作為 GMM-UBM 測試樣本並輸入 ALIZE Toolkit 去計算出其特徵向量 i-Vector。將所得到

(1+6)*16 共 112 個 i-Vector 使用亂數選取一半作為 SVM 訓練樣本,另一半作 為 SVM 驗證樣本,如此實驗 10 次來測試此聲音風格模型的穩定度(如圖 4.3)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4.3、聲音風格驗證流程

所得到結果如表 4.2:

Round SVM Accuracy

1 100%

2 100%

3 100%

4 100%

5 100%

6 100%

7 100%

8 100%

9 100%

10 100%

表 4.2、聲音風格驗證結果

其後依序加入測試樣本,這裡我們取女性 3 位、男性 3 位和電腦合成語音 2 位(Google 和百度)其測試流程如圖 4.4。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

以下為測試人員之頻譜圖(如圖 4.5~4.7):

圖 4.5、女生組頻譜圖,上至下依序為凱樂、黃韻玲、蔡珮蓁

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4.6、男生組頻譜圖,上至下依序為呂超倫、胡榮、顧寶文

圖 4.7、機器合成音頻譜圖,上至下依序為 Google、百度

Top1 Accuracy = 62.5% (5/8),Top2 Accuracy = 100% (8/8), Top3 Accuracy = 100%

(8/8)

小節的實驗中所有聲音樣本的取樣率(Sampling rate)降為 8,000Hz 再進行測試。

得到測試結果如下:

Top1 Accuracy = 37.5% (3/8),Top2 Accuracy = 87.5% (7/8),Top3 Accuracy = 100%

(8/8)

4.3.2. 電話錄音預測風格結果分析

由以上結果可以得知,聲音取樣率降低會導致聲音風格的辨識結果亦有部份 降低,其中因取樣率降低所損失的高頻部份聲音會讓低頻風格較為明顯。整體看 來雖有降低一些辨識率,在取 Top3 狀況下準確度還是可以達到 100%。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

 歌者辨識

因歌唱發聲模式與一般口語略有不同,若將語者辨識方法套用至歌者清唱中,

機器是否能提供準確歌者辨識。

 不同語言如:國、台、客語;台灣國語、中英夾雜等分類

在台灣多語環境下,我們好奇是否有可跨不同語言的語者辨識技術?意即,

在註冊用戶時,與進行身份認證時所使用的語言可以不一樣(例如用國語註冊,

用台語驗證)?是否可以獲得穩定辨識出語者的結果。

[1] Heap, Michael. "Neuro-linguistic programming." Hypnosis: Current clinical, experimental and forensic practices (1988): 268-280.

[2] NIST, “Speaker Recognition”,

https://www.nist.gov/itl/iad/mig/speaker-recognition

[3] Tong, Rong, et al. "The IIR NIST 2006 Speaker Recognition System: Fusion of Acoustic and Tokenization Features." presentation in 5th Int. Symp. on Chinese Spoken Language Processing, ISCSLP. 2006.

[4] Hasan, Md Rashidul, Mustafa Jamil, and M. G. R. M. S. Rahman. "Speaker identification using mel frequency cepstral coefficients." variations 1.4 (2004).

[5] Reynolds, Douglas A., and Richard C. Rose. "Robust text-independent speaker identification using Gaussian mixture speaker models." IEEE transactions on speech and audio processing 3.1 (1995): 72-83.

[6] Reynolds, Douglas A., Thomas F. Quatieri, and Robert B. Dunn. "Speaker verification using adapted Gaussian mixture models." Digital signal processing 10.1-3 (2000): 19-41.

[7] Kenny, Patrick. "Joint factor analysis of speaker and session variability: Theory and algorithms." CRIM, Montreal,(Report) CRIM-06/08-13 14 (2005): 28-29.

[8] Dehak, Najim, et al. "Front-end factor analysis for speaker verification." IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2011): 788-798.

[9] AlplaGo, https://deepmind.com/research/alphago/

[10] Cortes, Corinna, and Vladimir Vapnik. "Support-vector networks." Machine learning 20.3 (1995): 273-297.

[11] Franc, Vojtech, Alexander Zien, and Bernhard Schölkopf. "Support vector machines as probabilistic models." Proceedings of the 28th International

Conference on Machine Learning (ICML-11). 2011.

[12] Dehak, Najim, et al. "Front-end factor analysis for speaker verification." IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2011): 788-798 [13] Kenny, Patrick. "Joint factor analysis of speaker and session variability: Theory

and algorithms." CRIM, Montreal,(Report) CRIM-06/08-13 215 (2005).

[14] Larcher, Anthony, et al. "I-vectors in the context of phonetically-constrained short utterances for speaker verification." Acoustics, Speech and Signal Processing

(ICASSP), 2012 IEEE International Conference on. IEEE, 2012.

[15] 陳嘉穎,“應用因素分析與識別向量於語音情緒辨識”, 國立中山大學碩士 論文, 2016.

[16] Bonastre, J-F., Frédéric Wils, and Sylvain Meignier. "ALIZE, a free toolkit for speaker recognition." Acoustics, Speech, and Signal Processing, 2005.

Proceedings.(ICASSP'05). IEEE International Conference on. Vol. 1. IEEE, 2005.

[17] Larcher, Anthony, et al. "ALIZE 3.0-open source toolkit for state-of-the-art speaker recognition." Interspeech. 2013.

[18] Chang, Chih-Chung, and Chih-Jen Lin. "LIBSVM: a library for support vector machines." ACM transactions on intelligent systems and technology (TIST) 2.3 (2011): 27

[19] SoX, “Sound eXchange”, http://sox.sourceforge.net [20] ALIZÉ, http://alize.univ-avignon.fr/

[21] SPro, http://www.irisa.fr/metiss/guig/spro/

[22] Audacity, https://www.audacityteam.org/

[23] Haykin, Simon, and Zhe Chen. "The cocktail party problem." Neural computation 17.9 (2005): 1875-1902.

[24] Hyvärinen, Aapo, Juha Karhunen, and Erkki Oja. Independent component analysis. Vol. 46. John Wiley & Sons, 2004.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

[25] FFmpeg, https://www.ffmpeg.org/

[26] 娃娃音,維基百科,

https://zh.wikipedia.org/wiki/%E5%A8%83%E5%A8%83%E9%9F%B3

[27] Youtube, https://www.youtube.com/

[28] 愛樂電台,https://www.e-classical.com.tw/index.html [29] 警察廣播電台,https://www.pbs.gov.tw/cht/index.php

[30] Garcia-Romero, Daniel, and Carol Y. Espy-Wilson. "Analysis of i-vector length normalization in speaker recognition systems." Twelfth Annual Conference of the International Speech Communication Association. 2011.

[31] 百度語音,http://fanyi.baidu.com/#auto/zh/

[32] Google 語音, https://translate.google.com.tw/

相關文件