實驗結果

第六章實驗結果與討論

6.2 實驗結果

本論文共實作四組特徵值計算方法的實驗比較，其中實驗 1~3 採用 DHMM 進行實驗語料訓練及辨識，而實驗 4 則是採用 CHMM 架構的 HTK 軟體進行實驗語料的訓練及辨識。

實驗1. EMD+MFCC 與 MFCC 方法比較

此實驗是根據圖 3.5 不同情緒之 IMF 波形圖，可以明顯看出圖中 IMF2、IMF3、

IMF4 之波形明顯不同，情緒的成份會集中於波型不同的 IMF 可能性較大。由於不同實驗語料分解出來的 IMF 波型不同，因此挑選幾種不同的 IMF 權重值組合，

重新組合成新的語音訊號後，再由 MFCC 計算情緒語音訊號之特徵值，比較有加入 EMD 與未加入 EMD 方法的辨識率。

表 6.3 以 Berlin 資料庫實作 MFCC 與 EMD+MFCC 之辨識率比較

MFCC IMF1+2+3 IMF2+3+4 IMF1+2 IMF2+3+4+5

1 57.14 55.00 52.14 54.29 56.43

2 56.43 52.86 57.59 58.57 52.14

3 55.71 55.71 61.43 54.29 60.00

4 47.86 40.71 48.57 42.14 49.29

5 66.43 61.43 60.71 63.57 62.86

6 47.14 42.86 47.14 45.00 50.00

7 39.29 34.29 41.43 41.43 40.00

8 64.29 60.71 60.00 58.57 56.43

9 69.29 62.14 55.00 65.00 65.71

10 65.71 62.86 67.86 60.00 65.00

avg. 56.93 52.86 55.19 54.29 55.79

表 6.3 為以 Berlin 資料庫實作 MFCC 與 EMD+MFCC 之辨識率比較，紅色部分代表每組實驗語料組合中最高平均辨識率。其中 EMD+MFCC 方法部分以 IMF2+IMF3+IMF4+IMF5 的 IMF 權重值組合之總平均辨識率最高，但是卻低於 MFCC 方法。

表 6.4 以 eNTERFACE 資料庫實作 MFCC 與 EMD+MFCC 之辨識率比較

MFCC IMF1+2+3 IMF2+3+4 IMF1+2 IMF2+3+4+5

1 38.33 40.00 32.50 35.83 26.67

2 63.33 65.00 69.17 54.17 71.67

3 53.33 55.00 52.50 51.67 52.50

4 56.67 53.54 54.17 53.33 56.67

5 39.17 42.50 37.50 32.50 29.17

6 40.00 42.50 35.00 41.67 32.69

7 51.67 51.67 50.83 47.50 50.00

8 34.17 38.33 41.67 33.33 38.33

9 43.33 42.50 47.50 46.79 41.67

10 38.33 38.33 30.00 34.17 34.17

avg. 45.83 46.94 45.08 43.10 43.35

表 6.4 為以 eNTERFACE 資料庫實作 MFCC 與 EMD+MFCC 之辨識率比較，紅色部分代表每組實驗語料組合中最高平均辨識率。其中 EMD+MFCC 方法部分以

IMF1+IMF2+IMF3 的 IMF 權重值組合之總平均辨識率最高。與表 6.3 比較可以得知，採用不同實驗語料，相同 IMF 組合的實驗結果是不一樣的。表 6.3 中

IMF1+IMF2+IMF3 的結果比 MFCC 差，但是在表 6.4 中卻是比 MFCC 方法好。

因為不同語料訊號中含有的情緒成份不同，EMD 分解語料後，情緒坐落於 IMF 上的比例是不一定的，EMD 方法並無法完全將情緒部分從原本語音訊號中分離出來，導致每個 IMF 依然還存在一些非情緒的成份影響，造成辨識率降低。因此，我們才需要藉由最佳化演算法幫助訓練 IMF 的權重值找出最佳的組合。

實驗2. 最佳化演算法比較

由實驗 1 結果得知，使用 EMD+MFCC 方法會因為 EMD 分解不同實驗語料訊號，

IMF 所含的情緒成份比例不同，造成辨識結果不同，甚至導致辨識率降低。因此本論文提出藉由最佳化演算法訓練 IMF 最佳權重值組合，再以 MFCC 計算情緒語音之特徵值，提升情緒語音之辨識率。此實驗以基因演算法(GA)、粒子群演算法(PSO)以及差分演算法(DE)訓練 IMF 權重值組合，並且比較三者的實驗結果，最後選擇其實驗結果最佳的最佳化演算法進行之後的實驗。表 6.5、表 6.6 以及表 6.7 分別為 GA、PSO、DE 的參數設定表。表中數據皆經過不同參數實驗結果所選出之最佳數據。

表 6.5 GA 參數設定表

染色體個數 32 個

基因個數 5 個

選擇方法輪盤法

交配線性交配

突變率 0.03

存活率 0.5

表 6.6 PSO 參數設定表

粒子個數 32 個

維度 5 維

w 0.4

c 1 0.8

c 2 0.8

表 6.7 DE 參數設定表

代理向量數 32 個

維度 5 維

F 0.6

交配線性交配

而最佳化演算法的終止條件，則是根據實驗的收斂情況來訂定。圖 6.1、圖 6.2 以及圖 6.3 分別為 GA、PSO 以及 DE 演算法之最佳解收斂圖。

圖 6.1 GA 演算法之最佳解收斂圖

圖 6.2 PSO 演算法之最佳解收斂圖

圖 6.3 DE 演算法之最佳解收斂圖

圖 6.4 三種演化式演算法收斂圖

由圖 6.1、圖 6.2 以及圖 6.3 得知，三種最佳化演算法的最佳解收斂情況大約在

70~100 代之間就開始收斂，因此三種最佳化演算法的終止條件皆設定為 150 代。

圖 6.4 則是將圖 6.1~圖 6.3 內容放在一起比較，藍色虛線為 GA 的收斂情形，紅色虛線為 DE 的收斂情形，綠色實線則為 PSO 的收斂情形。可以看出 PSO 的收斂速度是最快的，而 DE 則最慢。

表 6.8 Berlin 資料庫之最佳化演算法辨識率比較

GA PSO DE

1 65 62.86 65.00

2 64.29 67.14 67.17 3 67.14 67.86 66.43 4 52.14 54.29 54.29 5 72.86 76.43 73.57 6 53.57 58.57 57.86 7 52.14 52.86 52.86 8 70.00 74.29 72.86 9 73.57 73.57 76.43 10 75.14 77.14 70.71 avg. 64.59 66.50 65.72

表 6.9 eNTERFACE 資料庫之最佳化演算法辨識率比較

GA PSO DE

1 45.00 48.33 45.83 2 70.83 69.17 67.50 3 60.83 60.00 65.83 4 65.83 70.83 62.50 5 45.83 46.67 46.67 6 55.83 53.33 54.33 7 59.17 60.00 64.17 8 50.00 53.33 49.17 9 48.33 46.67 51.67 10 45.83 46.67 45.83 avg. 54.75 55.50 55.35

表 6.8 和表 6.9 為從 Berlin 和 eNTERFACE 資料庫中，分別選取 10 組實驗語料比較三種最佳化演算法最佳辨識率，其中以 PSO 演算法的總平均辨識率較其它兩者好(紅色部份)。因此，本論文選擇 PSO 演算法並且結合 EMD 進行情緒語音訊號的強化，再以 MFCC 計算特徵值，此方法簡稱 PEM。表 6.10 以及表 6.11 為以兩個資料庫實作 PEM 方法所找出的最佳辨識率以及最佳 IMF 權重值參數組 合。w₁~w₅分別為 IMF1~IMF5 的權重值，代表著 IMF 中所含有的情緒成份比例，

PEM 特徵值計算方法，藉由計算 IMF 權重值將含有情緒成份的訊號從原始訊號分離出來，並且過濾其它成份的影響，達到強化情緒語音的效果，以提升辨識率。

表 6.10 以 Berlin 資料庫實作 PEM 特徵值擷取方法之最佳辨識率以及最佳 IMF 之權重值參數組合

PEM w

₁

w

₂

w

₃

w

₄

w

₅

1 62.86 0.630388 0.371546 0.962077 0.315836 0.29186 2 67.14 0.576406 0.842059 0.728357 0.706514 0.51492 3 67.86 0.503662 0.716588 0.703887 0.602187 0.40649 4 54.29 0.914097 0.251876 0.748853 0.36133 0.58355 5 76.43 0.88735 0.508282 0.820382 0.639979 0.34432 6 58.57 0.96145 0.587143 0.660684 0.354805 0.74627 7 52.86 0.935098 0.914618 0.794709 0.488151 0.54736 8 74.29 0.862143 0.619126 0.64288 0.041649 0.35799 9 73.57 0.82901 0.680275 0.675817 0.417732 0.72094 10 77.14 0.823824 0.772585 0.454127 0.459571 0.45461

表 6.11 以 eNTERFACE 資料庫實作 PEM 特徵值擷取方法之最佳辨識率以及最佳 IMF 之權重值參數組合

PEM w

₁

w

₂

w

₃

w

₄

w

₅

1 48.33 0.80222 0.596865 0.919382 0.404827 0.443339

2 69.17 0.50484 0.711049 0.71936 0.355459 0.578907

3 60.00 0.926907 0.318288 0.445429 0.474615 0.712109

4 70.83 0.620811 0.818526 0.578951 0.715665 0.608786

5 46.67 0.489398 0.663794 0.794214 0.482401 0.543117

6 53.33 0.876387 0.726991 0.665172 0.683475 0.133669

7 60.00 0.34453 0.129123 0.013568 0.155095 0.007395

8 53.33 0.60726 0.594711 0.485243 0.805875 0.449671

9 46.67 0.268212 0.296757 0.13663 0.181319 0.13692

10 46.67 0.926791 0.336003 0.28104 0.601137 0.683977

由表 6.10 與 6.11 看出，根據實驗語料的不同，PEM 找出的最佳 IMF 權重值也會不同，也因此實驗 1 的 EMD+MFCC 採用固定的權重值，辨識率反而會降低。表

6.12 為 PEM 方法辨識 Berlin 資料庫語料單一情緒的平均辨識率，表 6.13 為 PEM 方法辨識 eNTERFACE 資料庫語料單一情緒的平均辨識率。

表 6.12 PEM 辨識 Berlin 資料庫語料單一情緒的平均辨識率

焦慮厭惡快樂無聊中性悲傷憤怒

avg. 64.5 75.5 60 56 61.5 71 77

表 6.13 PEM 辨識 eNTERFACE 資料庫語料單一情緒的平均辨識率。

憤怒厭惡恐懼快樂悲傷驚訝

avg. 73 43.5 41.5 53 76 46

實驗3. 相關特徵值計算方法與 PEM 比較

此實驗將進行以 Berlin 與 eNTERFACE 為實驗語料，從中分別選取十組實驗語料組合，比較 MFCC、EMDRE、ERBAF[15]以及本論文所提出之 PEM 四種特徵值計算方法的辨識率，圖 6.5 為以 Berlin 資料庫實作 MFCC、EMDRE、ERBAF 以及 PEM 特徵值計算方法之辨識率比較圖，圖 6.6 為以 eNTERFACE 資料庫實作 MFCC、EMDRE、ERBAF 以及 PEM 特徵值計算方法之辨識率比較圖。

圖 6.5 以 Berlin 資料庫實作 MFCC、EMDRE、ERBAF 以及 PEM 特徵值計算方法之辨識率比較

圖 6.6 以 eNTERFACE 資料庫實作 MFCC、EMDRE、ERBAF 以及 PEM 特徵值計算方法之辨識率比較

圖 6.5 和圖 6.6 分別以該資料庫選取的十個實驗語料組合的平均辨識率結果，本論文所提出之 PEM 方法比 EMDRE 和 ERBAF 特徵值計算方法辨識率提升

10%~21%。EMDRE 和 ERBAF 方法強調分析情緒語音的壓力與能量特性，而 PEM 則是著重於分析情緒語音的語音特性，本論文使用的情緒語音資料庫的語音特徵值較適合分析語音特性的特徵值計算方法，因此 PEM 辨識效果較佳。另外，PEM 比 MFCC 方法辨識率高出 9%~10%，證明 PEM 的確能改善 MFCC 特徵值計算方法，提升情緒語音之辨識率。

實驗4. 以 HTK 軟體進行 MFCC 與 PEM 辨識率比較

在此實驗中，使用 HTK 軟體分別辨識 Berlin 和 eNTERFACE 資料庫的十組實驗語料，並且比較 MFCC 與 PEM 特徵值擷取方法之辨識率，如圖 6.7 和圖 6.8。由圖 6.7 與圖 6.8 得知，本論文所提出之 PEM 方法的平均辨識率比 MFCC 方法高出 6%~7%，證明不論採用 DHMM 或者 CHMM 辨識平台架構，PEM 方法皆能有效改善情緒語音之辨識率。

圖 6.7 使用 HTK 軟體並且以 Berlin 資料庫實作 MFCC 與 PEM 之辨識率比較

圖 6.8 使用 HTK 軟體並且以 eNTERFACE 資料庫實作 MFCC 與 PEM 之辨識率比較

在文檔中經驗模態分解法應用在情緒語音特徵值之計算 (頁 60-74)

第六章 實驗結果與討論

6.2 實驗結果

MFCC IMF1+2+3 IMF2+3+4 IMF1+2 IMF2+3+4+5

1 57.14 55.00 52.14 54.29 56.43

2 56.43 52.86 57.59 58.57 52.14

3 55.71 55.71 61.43 54.29 60.00

4 47.86 40.71 48.57 42.14 49.29

5 66.43 61.43 60.71 63.57 62.86

6 47.14 42.86 47.14 45.00 50.00

7 39.29 34.29 41.43 41.43 40.00

8 64.29 60.71 60.00 58.57 56.43

9 69.29 62.14 55.00 65.00 65.71

10 65.71 62.86 67.86 60.00 65.00

avg. 56.93 52.86 55.19 54.29 55.79

MFCC IMF1+2+3 IMF2+3+4 IMF1+2 IMF2+3+4+5

1 38.33 40.00 32.50 35.83 26.67

2 63.33 65.00 69.17 54.17 71.67

3 53.33 55.00 52.50 51.67 52.50

4 56.67 53.54 54.17 53.33 56.67

5 39.17 42.50 37.50 32.50 29.17

6 40.00 42.50 35.00 41.67 32.69

7 51.67 51.67 50.83 47.50 50.00

8 34.17 38.33 41.67 33.33 38.33

9 43.33 42.50 47.50 46.79 41.67

10 38.33 38.33 30.00 34.17 34.17

avg. 45.83 46.94 45.08 43.10 43.35

PEM w

w

w

w

w

PEM w

w

w

w

w

1 48.33 0.80222 0.596865 0.919382 0.404827 0.443339

2 69.17 0.50484 0.711049 0.71936 0.355459 0.578907

3 60.00 0.926907 0.318288 0.445429 0.474615 0.712109

4 70.83 0.620811 0.818526 0.578951 0.715665 0.608786

5 46.67 0.489398 0.663794 0.794214 0.482401 0.543117

6 53.33 0.876387 0.726991 0.665172 0.683475 0.133669

7 60.00 0.34453 0.129123 0.013568 0.155095 0.007395

8 53.33 0.60726 0.594711 0.485243 0.805875 0.449671

9 46.67 0.268212 0.296757 0.13663 0.181319 0.13692

10 46.67 0.926791 0.336003 0.28104 0.601137 0.683977

第六章實驗結果與討論