• 沒有找到結果。

第六章 實驗結果與討論

6.2 實驗結果

本論文共實作四組特徵值計算方法的實驗比較,其中實驗 1~3 採用 DHMM 進行實驗語料訓練及辨識,而實驗 4 則是採用 CHMM 架構的 HTK 軟體進行實 驗語料的訓練及辨識。

實驗1. EMD+MFCC 與 MFCC 方法比較

此實驗是根據圖 3.5 不同情緒之 IMF 波形圖,可以明顯看出圖中 IMF2、IMF3、

IMF4 之波形明顯不同,情緒的成份會集中於波型不同的 IMF 可能性較大。由於 不同實驗語料分解出來的 IMF 波型不同,因此挑選幾種不同的 IMF 權重值組合,

重新組合成新的語音訊號後,再由 MFCC 計算情緒語音訊號之特徵值,比較有 加入 EMD 與未加入 EMD 方法的辨識率。

表 6.3 以 Berlin 資料庫實作 MFCC 與 EMD+MFCC 之辨識率比較

MFCC IMF1+2+3 IMF2+3+4 IMF1+2 IMF2+3+4+5

1 57.14 55.00 52.14 54.29 56.43

2 56.43 52.86 57.59 58.57 52.14

3 55.71 55.71 61.43 54.29 60.00

4 47.86 40.71 48.57 42.14 49.29

5 66.43 61.43 60.71 63.57 62.86

6 47.14 42.86 47.14 45.00 50.00

7 39.29 34.29 41.43 41.43 40.00

8 64.29 60.71 60.00 58.57 56.43

9 69.29 62.14 55.00 65.00 65.71

10 65.71 62.86 67.86 60.00 65.00

avg. 56.93 52.86 55.19 54.29 55.79

表 6.3 為以 Berlin 資料庫實作 MFCC 與 EMD+MFCC 之辨識率比較,紅色部分代 表 每 組 實 驗 語 料 組 合 中 最 高 平 均 辨 識 率 。 其 中 EMD+MFCC 方 法 部 分 以 IMF2+IMF3+IMF4+IMF5 的 IMF 權重值組合之總平均辨識率最高,但是卻低於 MFCC 方法。

表 6.4 以 eNTERFACE 資料庫實作 MFCC 與 EMD+MFCC 之辨識率比較

MFCC IMF1+2+3 IMF2+3+4 IMF1+2 IMF2+3+4+5

1 38.33 40.00 32.50 35.83 26.67

2 63.33 65.00 69.17 54.17 71.67

3 53.33 55.00 52.50 51.67 52.50

4 56.67 53.54 54.17 53.33 56.67

5 39.17 42.50 37.50 32.50 29.17

6 40.00 42.50 35.00 41.67 32.69

7 51.67 51.67 50.83 47.50 50.00

8 34.17 38.33 41.67 33.33 38.33

9 43.33 42.50 47.50 46.79 41.67

10 38.33 38.33 30.00 34.17 34.17

avg. 45.83 46.94 45.08 43.10 43.35

表 6.4 為以 eNTERFACE 資料庫實作 MFCC 與 EMD+MFCC 之辨識率比較,紅 色部分代表每組實驗語料組合中最高平均辨識率。其中 EMD+MFCC 方法部分以

IMF1+IMF2+IMF3 的 IMF 權重值組合之總平均辨識率最高。與表 6.3 比較可以 得知,採用不同實驗語料,相同 IMF 組合的實驗結果是不一樣的。表 6.3 中

IMF1+IMF2+IMF3 的結果比 MFCC 差,但是在表 6.4 中卻是比 MFCC 方法好。

因為不同語料訊號中含有的情緒成份不同,EMD 分解語料後,情緒坐落於 IMF 上的比例是不一定的,EMD 方法並無法完全將情緒部分從原本語音訊號中分離 出來,導致每個 IMF 依然還存在一些非情緒的成份影響,造成辨識率降低。因 此,我們才需要藉由最佳化演算法幫助訓練 IMF 的權重值找出最佳的組合。

實驗2. 最佳化演算法比較

由實驗 1 結果得知,使用 EMD+MFCC 方法會因為 EMD 分解不同實驗語料訊號,

IMF 所含的情緒成份比例不同,造成辨識結果不同,甚至導致辨識率降低。因此 本論文提出藉由最佳化演算法訓練 IMF 最佳權重值組合,再以 MFCC 計算情緒 語音之特徵值,提升情緒語音之辨識率。此實驗以基因演算法(GA)、粒子群演 算法(PSO)以及差分演算法(DE)訓練 IMF 權重值組合,並且比較三者的實驗結 果,最後選擇其實驗結果最佳的最佳化演算法進行之後的實驗。表 6.5、表 6.6 以及表 6.7 分別為 GA、PSO、DE 的參數設定表。表中數據皆經過不同參數實驗 結果所選出之最佳數據。

表 6.5 GA 參數設定表

染色體個數 32 個

基因個數 5 個

選擇方法 輪盤法

交配 線性交配

突變率 0.03

存活率 0.5

表 6.6 PSO 參數設定表

粒子個數 32 個

維度 5 維

w 0.4

c 1 0.8

c 2 0.8

表 6.7 DE 參數設定表

代理向量數 32 個

維度 5 維

F 0.6

交配 線性交配

而最佳化演算法的終止條件,則是根據實驗的收斂情況來訂定。圖 6.1、圖 6.2 以及圖 6.3 分別為 GA、PSO 以及 DE 演算法之最佳解收斂圖。

圖 6.1 GA 演算法之最佳解收斂圖

圖 6.2 PSO 演算法之最佳解收斂圖

圖 6.3 DE 演算法之最佳解收斂圖

圖 6.4 三種演化式演算法收斂圖

由圖 6.1、圖 6.2 以及圖 6.3 得知,三種最佳化演算法的最佳解收斂情況大約在

70~100 代之間就開始收斂,因此三種最佳化演算法的終止條件皆設定為 150 代。

圖 6.4 則是將圖 6.1~圖 6.3 內容放在一起比較,藍色虛線為 GA 的收斂情形,紅 色虛線為 DE 的收斂情形,綠色實線則為 PSO 的收斂情形。可以看出 PSO 的收 斂速度是最快的,而 DE 則最慢。

表 6.8 Berlin 資料庫之最佳化演算法辨識率比較

GA PSO DE

1 65 62.86 65.00

2 64.29 67.14 67.17 3 67.14 67.86 66.43 4 52.14 54.29 54.29 5 72.86 76.43 73.57 6 53.57 58.57 57.86 7 52.14 52.86 52.86 8 70.00 74.29 72.86 9 73.57 73.57 76.43 10 75.14 77.14 70.71 avg. 64.59 66.50 65.72

表 6.9 eNTERFACE 資料庫之最佳化演算法辨識率比較

GA PSO DE

1 45.00 48.33 45.83 2 70.83 69.17 67.50 3 60.83 60.00 65.83 4 65.83 70.83 62.50 5 45.83 46.67 46.67 6 55.83 53.33 54.33 7 59.17 60.00 64.17 8 50.00 53.33 49.17 9 48.33 46.67 51.67 10 45.83 46.67 45.83 avg. 54.75 55.50 55.35

表 6.8 和表 6.9 為從 Berlin 和 eNTERFACE 資料庫中,分別選取 10 組實驗語料 比較三種最佳化演算法最佳辨識率,其中以 PSO 演算法的總平均辨識率較其它 兩者好(紅色部份)。因此,本論文選擇 PSO 演算法並且結合 EMD 進行情緒語音 訊號的強化,再以 MFCC 計算特徵值,此方法簡稱 PEM。表 6.10 以及表 6.11 為以兩個資料庫實作 PEM 方法所找出的最佳辨識率以及最佳 IMF 權重值參數組 合。w1 ~w5分別為 IMF1~IMF5 的權重值,代表著 IMF 中所含有的情緒成份比例,

PEM 特徵值計算方法,藉由計算 IMF 權重值將含有情緒成份的訊號從原始訊號 分離出來,並且過濾其它成份的影響,達到強化情緒語音的效果,以提升辨識率。

表 6.10 以 Berlin 資料庫實作 PEM 特徵值擷取方法之最佳辨識率以及最佳 IMF 之權重值參數組合

PEM w

1

w

2

w

3

w

4

w

5

1 62.86 0.630388 0.371546 0.962077 0.315836 0.29186 2 67.14 0.576406 0.842059 0.728357 0.706514 0.51492 3 67.86 0.503662 0.716588 0.703887 0.602187 0.40649 4 54.29 0.914097 0.251876 0.748853 0.36133 0.58355 5 76.43 0.88735 0.508282 0.820382 0.639979 0.34432 6 58.57 0.96145 0.587143 0.660684 0.354805 0.74627 7 52.86 0.935098 0.914618 0.794709 0.488151 0.54736 8 74.29 0.862143 0.619126 0.64288 0.041649 0.35799 9 73.57 0.82901 0.680275 0.675817 0.417732 0.72094 10 77.14 0.823824 0.772585 0.454127 0.459571 0.45461

表 6.11 以 eNTERFACE 資料庫實作 PEM 特徵值擷取方法之最佳辨識率以及最 佳 IMF 之權重值參數組合

PEM w

1

w

2

w

3

w

4

w

5

1 48.33 0.80222 0.596865 0.919382 0.404827 0.443339

2 69.17 0.50484 0.711049 0.71936 0.355459 0.578907

3 60.00 0.926907 0.318288 0.445429 0.474615 0.712109

4 70.83 0.620811 0.818526 0.578951 0.715665 0.608786

5 46.67 0.489398 0.663794 0.794214 0.482401 0.543117

6 53.33 0.876387 0.726991 0.665172 0.683475 0.133669

7 60.00 0.34453 0.129123 0.013568 0.155095 0.007395

8 53.33 0.60726 0.594711 0.485243 0.805875 0.449671

9 46.67 0.268212 0.296757 0.13663 0.181319 0.13692

10 46.67 0.926791 0.336003 0.28104 0.601137 0.683977

由表 6.10 與 6.11 看出,根據實驗語料的不同,PEM 找出的最佳 IMF 權重值也會 不同,也因此實驗 1 的 EMD+MFCC 採用固定的權重值,辨識率反而會降低。表

6.12 為 PEM 方法辨識 Berlin 資料庫語料單一情緒的平均辨識率,表 6.13 為 PEM 方法辨識 eNTERFACE 資料庫語料單一情緒的平均辨識率。

表 6.12 PEM 辨識 Berlin 資料庫語料單一情緒的平均辨識率

焦慮 厭惡 快樂 無聊 中性 悲傷 憤怒

avg. 64.5 75.5 60 56 61.5 71 77

表 6.13 PEM 辨識 eNTERFACE 資料庫語料單一情緒的平均辨識率。

憤怒 厭惡 恐懼 快樂 悲傷 驚訝

avg. 73 43.5 41.5 53 76 46

實驗3. 相關特徵值計算方法與 PEM 比較

此實驗將進行以 Berlin 與 eNTERFACE 為實驗語料,從中分別選取十組實驗語 料組合,比較 MFCC、EMDRE、ERBAF[15]以及本論文所提出之 PEM 四種特徵 值計算方法的辨識率,圖 6.5 為以 Berlin 資料庫實作 MFCC、EMDRE、ERBAF 以及 PEM 特徵值計算方法之辨識率比較圖,圖 6.6 為以 eNTERFACE 資料庫實 作 MFCC、EMDRE、ERBAF 以及 PEM 特徵值計算方法之辨識率比較圖。

圖 6.5 以 Berlin 資料庫實作 MFCC、EMDRE、ERBAF 以及 PEM 特徵值計算方 法之辨識率比較

圖 6.6 以 eNTERFACE 資料庫實作 MFCC、EMDRE、ERBAF 以及 PEM 特徵值 計算方法之辨識率比較

圖 6.5 和圖 6.6 分別以該資料庫選取的十個實驗語料組合的平均辨識率結果,本 論文所提出之 PEM 方法比 EMDRE 和 ERBAF 特徵值計算方法辨識率提升

10%~21%。EMDRE 和 ERBAF 方法強調分析情緒語音的壓力與能量特性,而 PEM 則是著重於分析情緒語音的語音特性,本論文使用的情緒語音資料庫的語音特徵 值較適合分析語音特性的特徵值計算方法,因此 PEM 辨識效果較佳。另外,PEM 比 MFCC 方法辨識率高出 9%~10%,證明 PEM 的確能改善 MFCC 特徵值計算方 法,提升情緒語音之辨識率。

實驗4. 以 HTK 軟體進行 MFCC 與 PEM 辨識率比較

在此實驗中,使用 HTK 軟體分別辨識 Berlin 和 eNTERFACE 資料庫的十組實驗 語料,並且比較 MFCC 與 PEM 特徵值擷取方法之辨識率,如圖 6.7 和圖 6.8。由 圖 6.7 與圖 6.8 得知,本論文所提出之 PEM 方法的平均辨識率比 MFCC 方法高 出 6%~7%,證明不論採用 DHMM 或者 CHMM 辨識平台架構,PEM 方法皆能 有效改善情緒語音之辨識率。

圖 6.7 使用 HTK 軟體並且以 Berlin 資料庫實作 MFCC 與 PEM 之辨識率比較

圖 6.8 使用 HTK 軟體並且以 eNTERFACE 資料庫實作 MFCC 與 PEM 之辨識率 比較

相關文件