多層貝氏網路(MLBN)語音情緒辨識實驗結果與分析

第五章多層貝氏網路與多層共變異數貝氏網路語音情緒辨識

5.2 多層貝氏網路(Multi-Layer Bayesian Network, MLBN)語音情

5.2.3 多層貝氏網路(MLBN)語音情緒辨識實驗結果與分析

根據本論文於上一節所提出之多層貝氏網路語音情緒分類方法，此方法是先依據資料庫語料計算所得之相關特徵參數，利用統計方式計算出相關特徵參數於分層分群後之平均值與標準差，並以此平均值與標準差建立多層貝氏網路資料庫(MLBN database)，接著，在得到使用者之情緒語音後，將此情緒語音所得之特徵參數與資料庫之資料進行機率運算，分別計算出測試者情緒語音於各情緒類別可能發生之機率，舉例來說，當我們得到一段使用者之情緒語音後，經由多層貝氏網路語音情緒辨識後，假設計算出來之各情緒類別之機率分別為Prob₁³ 0.0338，Prob³₂ 0.0172，Prob³₃ 0.3648，Prob³₄ 0.5842，也就是悲傷發生之機率為 3.38%，中性發生之機率為 1.72%，快樂發生之機率為 36.48%，生氣發生之機率為 58.42%，由於生氣發生之機率最高，因此，我們將此語音情緒辨識為生氣，而在實際運用上，多層貝氏網路語音情緒辨識方法可以根據使用平台的實際狀況，將計算所得之各情緒發生的機率做最適當的判斷與運用。本論文後續之多層貝氏網路情緒辨識皆以最高發生機率之情緒為實際情緒辨識結果，以下將

就多層貝氏網路語音情緒辨識於不同資料庫情況作分析與討論。

與第四章 KNN 及 SVM 所使用之語料庫相同，以德國語料所有資料當作訓練資料，也就是悲傷有 62 筆、中性有 79 筆、快樂有 71 筆、

生氣有 127 筆訓練資料，並分別計算出各情緒語料之正規化特徵參數 (表 3-5 所列)，接著，根據 5.2.1 節之特徵分群方式，分別計算各分層各群之特徵參數平均值與標準差，並以此為多層貝氏網路語音情緒辨識資料庫，最後，以訓練資料之正規化特徵參數當作測試資料，對資料作 Inside Test。表 5-4 為 MLBN 正規化特徵參數 Inside Test 鑑別矩陣，由辨識結果顯示，當測試資料在訓練資料中時，悲傷 62 筆資料有 54 筆資料被辨識為悲傷，8 筆資料被辨識為中性，辨識正確率為 87%，中性 79 筆資料有 77 筆資料被辨識為中性，2 筆資料被辨識為悲傷，辨識正確率 97%，快樂 71 筆資料有 6 筆被辨識為中性，44 筆被辨識為快樂，21 筆被辨識為生氣，辨識正確率 62%，生氣 127 筆資料有 1 筆被辨識為中性，26 筆被辨識為快樂，100 筆被辨識為生氣，

辨識正確率 78.7%，整體正確辨識率為 81.1%，從鑑別矩陣來看，悲傷與中性在識別上，比較容易產生混淆，悲傷有一小部分容易被辨識為中性，而快樂則與生氣易產生混淆，尤其是快樂，其大部分之語音特徵與生氣之重疊性相當高，且分佈較廣，以多層貝氏網路語音情緒分類器做分類時，其快樂與生氣所計算出來之機率非常相近，因此，

容易被辨識歸類為生氣，造成辨識度較低，而生氣也因為特徵參數分佈與快樂重疊性高，造成辨識率不佳之情況。

表 5-5 為單純使用貝氏決策(BD)之正規化特徵參數 Inside Test 鑑別矩陣，由辨識結果來看，當測試資料在訓練資料中時，悲傷辨識正確率為 68%，中性辨識正確率 89%，快樂辨識正確率 37%，生氣辨識正確率 80.3%，整體辨識率為 70.8%。從 BD Inside Test 辨識結果與 MLBN Inside Test 辨識結果比較來看，多層貝氏網路語音情緒分類器的辨識效果明顯優於貝氏決策，因此，透過多層貝氏網路分層分群的辨識方式，可以有效提升語音情緒辨識率，增加辨識的準確性。

接著，考慮使用者資料不在訓練資料內的情況，與 KNN 及 SVM Outside Test 相同，首先，將 Person 1(P1)語料當作測試語料，並以 Person 2 ~ Person 10 語料當作訓練語料，分別計算各層各群之統計平均值與標準差，並以此為多層貝氏網路語音情緒資料庫，對 P1 語料進行 Outside Test，接著，以 Person 2 當測試資料，另外 9 人(P1 以及 P3 ~ P10)當作訓練資料，再重新計算各層各群之統計平均值與標準差，並以此新統計計算值為新的多層貝氏網路資料庫，對 P2 進行 Outside Test，以此類推，對 P3 至 P10 做 Outside Test，表 5-6 為 P1 ~ P10 正規化特徵參數 Outside Test 鑑別矩陣(P1 ~ P10 各情緒之辨識正確率詳見附錄 A)，由整體辨識結果顯示，除了 P7 有較佳的辨識效果

外，其餘之辨識率則約在 75%上下，由 MLBN Outside Test 鑑別矩陣來看，悲傷 62 筆資料有 52 筆資料被辨識為悲傷，10 筆資料被辨識為中性，辨識正確率為 84%，中性 79 筆資料有 77 筆資料被辨識為中性，2 筆資料被辨識為悲傷，辨識正確率 97%，快樂 71 筆資料有 1 筆被辨識為悲傷，10 筆被辨識為中性，38 筆被辨識為快樂，22 筆被辨識為生氣，辨識正確率 54%，生氣 127 筆資料有 1 筆被辨識為中性，

30 筆被辨識為快樂，96 筆被辨識為生氣，辨識正確率 75.6%，整體之正確辨識率為 77.6%。MLBN Outside Test 之鑑別矩陣與 MLBN Inside Test 類似，悲傷有一小部分容易被辨識為中性，而快樂則易與生氣產生混淆，兩者之辨識效果均不佳。表 5-7 則為 P1 ~ P10 使用原始特徵參數 Outside Test 鑑別矩陣(P1 ~ P10 各情緒之辨識正確率詳見附錄 A)，與表 5-6 比較可以發現，與 KNN 及 SVM 相同，使用正規化特徵參數可以有效縮小語者之間在特徵參數上的差異，並增加各情緒之間的分類效果。

最後，與 KNN 及 SVM 相同，考慮 MLBN 語音情緒分類器在訓練語料與測試語料為不同語系情況下進行辨識，同樣的，我們以德國語料庫所有資料當作訓練資料，並以工業技術研究院所錄製之語料當作測試語料，表 5-8 為 MLBN 使用正規化特徵參數在不同語系測試下之鑑別矩陣，由辨識結果顯示，MLBN 對於悲傷與中性之辨識效果

類似，悲傷被辨識為中性的機率有 75.8%，中性則有 96.0%機率被辨識為中性，而快樂則與生氣之辨識效果類似，快樂與生氣皆相對容易被辨識為悲傷，辨識率分別為 42.8%與 59.3%，此結果表示在以 MLBN 為辨識分類器的情況下，中文語系悲傷與中性之特徵參數與德國語料庫之中性特徵參數相近，而快樂與生氣之特徵參數則與德國語料庫之悲傷特徵參數相近，因此，若以德國語料庫當作訓練資料時，中文語系之悲傷情緒容易被辨識為中性，而快樂與生氣情緒則容易被辨識為悲傷，整體之正確辨識率為 39.3%，此結果與 KNN 及 SVM 分類器相同，MLBN 分類器在訓練語料與測試語料為不同語系時，同樣無法得到良好的分類效果。

5.3 多層共變異數貝氏網路(Multi-Layer Bayesian Network with

在文檔中應用貝氏網路及適應性調適方法於語音情緒辨識之研究 (頁 115-119)

第五章 多層貝氏網路與多層共變異數貝氏網路語音情緒辨識

5.2 多層貝氏網路(Multi-Layer Bayesian Network, MLBN)語音情

5.2.3 多層貝氏網路(MLBN)語音情緒辨識實驗結果與分析

第五章多層貝氏網路與多層共變異數貝氏網路語音情緒辨識