• 沒有找到結果。

多層貝氏網路(MLBN)語音情緒辨識實驗結果與分析

第五章 多層貝氏網路與多層共變異數貝氏網路語音情緒辨識

5.2 多層貝氏網路(Multi-Layer Bayesian Network, MLBN)語音情

5.2.3 多層貝氏網路(MLBN)語音情緒辨識實驗結果與分析

根據本論文於上一節所提出之多層貝氏網路語音情緒分類方 法,此方法是先依據資料庫語料計算所得之相關特徵參數,利用統計 方式計算出相關特徵參數於分層分群後之平均值與標準差,並以此平 均值與標準差建立多層貝氏網路資料庫(MLBN database),接著,在 得到使用者之情緒語音後,將此情緒語音所得之特徵參數與資料庫之 資料進行機率運算,分別計算出測試者情緒語音於各情緒類別可能發 生之機率,舉例來說,當我們得到一段使用者之情緒語音後,經由多 層貝氏網路語音情緒辨識後,假設計算出來之各情緒類別之機率分別 為Prob13 0.0338Prob32 0.0172Prob33 0.3648Prob34 0.5842,也就 是悲傷發生之機率為 3.38%,中性發生之機率為 1.72%,快樂發生之 機率為 36.48%,生氣發生之機率為 58.42%,由於生氣發生之機率最 高,因此,我們將此語音情緒辨識為生氣,而在實際運用上,多層貝 氏網路語音情緒辨識方法可以根據使用平台的實際狀況,將計算所得 之各情緒發生的機率做最適當的判斷與運用。本論文後續之多層貝氏 網路情緒辨識皆以最高發生機率之情緒為實際情緒辨識結果,以下將

就多層貝氏網路語音情緒辨識於不同資料庫情況作分析與討論。

與第四章 KNN 及 SVM 所使用之語料庫相同,以德國語料所有資 料當作訓練資料,也就是悲傷有 62 筆、中性有 79 筆、快樂有 71 筆、

生氣有 127 筆訓練資料,並分別計算出各情緒語料之正規化特徵參數 (表 3-5 所列),接著,根據 5.2.1 節之特徵分群方式,分別計算各分層 各群之特徵參數平均值與標準差,並以此為多層貝氏網路語音情緒辨 識資料庫,最後,以訓練資料之正規化特徵參數當作測試資料,對資 料作 Inside Test。表 5-4 為 MLBN 正規化特徵參數 Inside Test 鑑別矩 陣,由辨識結果顯示,當測試資料在訓練資料中時,悲傷 62 筆資料 有 54 筆資料被辨識為悲傷,8 筆資料被辨識為中性,辨識正確率為 87%,中性 79 筆資料有 77 筆資料被辨識為中性,2 筆資料被辨識為 悲傷,辨識正確率 97%,快樂 71 筆資料有 6 筆被辨識為中性,44 筆 被辨識為快樂,21 筆被辨識為生氣,辨識正確率 62%,生氣 127 筆 資料有 1 筆被辨識為中性,26 筆被辨識為快樂,100 筆被辨識為生氣,

辨識正確率 78.7%,整體正確辨識率為 81.1%,從鑑別矩陣來看,悲 傷與中性在識別上,比較容易產生混淆,悲傷有一小部分容易被辨識 為中性,而快樂則與生氣易產生混淆,尤其是快樂,其大部分之語音 特徵與生氣之重疊性相當高,且分佈較廣,以多層貝氏網路語音情緒 分類器做分類時,其快樂與生氣所計算出來之機率非常相近,因此,

容易被辨識歸類為生氣,造成辨識度較低,而生氣也因為特徵參數分 佈與快樂重疊性高,造成辨識率不佳之情況。

表 5-5 為單純使用貝氏決策(BD)之正規化特徵參數 Inside Test 鑑 別矩陣,由辨識結果來看,當測試資料在訓練資料中時,悲傷辨識正 確率為 68%,中性辨識正確率 89%,快樂辨識正確率 37%,生氣辨 識正確率 80.3%,整體辨識率為 70.8%。從 BD Inside Test 辨識結果與 MLBN Inside Test 辨識結果比較來看,多層貝氏網路語音情緒分類器 的辨識效果明顯優於貝氏決策,因此,透過多層貝氏網路分層分群的 辨識方式,可以有效提升語音情緒辨識率,增加辨識的準確性。

接著,考慮使用者資料不在訓練資料內的情況,與 KNN 及 SVM Outside Test 相同,首先,將 Person 1(P1)語料當作測試語料,並以 Person 2 ~ Person 10 語料當作訓練語料,分別計算各層各群之統計平 均值與標準差,並以此為多層貝氏網路語音情緒資料庫,對 P1 語料 進行 Outside Test,接著,以 Person 2 當測試資料,另外 9 人(P1 以及 P3 ~ P10)當作訓練資料,再重新計算各層各群之統計平均值與標準 差,並以此新統計計算值為新的多層貝氏網路資料庫,對 P2 進行 Outside Test,以此類推,對 P3 至 P10 做 Outside Test,表 5-6 為 P1 ~ P10 正規化特徵參數 Outside Test 鑑別矩陣(P1 ~ P10 各情緒之辨識正 確率詳見附錄 A),由整體辨識結果顯示,除了 P7 有較佳的辨識效果

外,其餘之辨識率則約在 75%上下,由 MLBN Outside Test 鑑別矩陣 來看,悲傷 62 筆資料有 52 筆資料被辨識為悲傷,10 筆資料被辨識 為中性,辨識正確率為 84%,中性 79 筆資料有 77 筆資料被辨識為中 性,2 筆資料被辨識為悲傷,辨識正確率 97%,快樂 71 筆資料有 1 筆被辨識為悲傷,10 筆被辨識為中性,38 筆被辨識為快樂,22 筆被 辨識為生氣,辨識正確率 54%,生氣 127 筆資料有 1 筆被辨識為中性,

30 筆被辨識為快樂,96 筆被辨識為生氣,辨識正確率 75.6%,整體 之正確辨識率為 77.6%。MLBN Outside Test 之鑑別矩陣與 MLBN Inside Test 類似,悲傷有一小部分容易被辨識為中性,而快樂則易與 生氣產生混淆,兩者之辨識效果均不佳。表 5-7 則為 P1 ~ P10 使用原 始特徵參數 Outside Test 鑑別矩陣(P1 ~ P10 各情緒之辨識正確率詳見 附錄 A),與表 5-6 比較可以發現,與 KNN 及 SVM 相同,使用正規 化特徵參數可以有效縮小語者之間在特徵參數上的差異,並增加各情 緒之間的分類效果。

最後,與 KNN 及 SVM 相同,考慮 MLBN 語音情緒分類器在訓 練語料與測試語料為不同語系情況下進行辨識,同樣的,我們以德國 語料庫所有資料當作訓練資料,並以工業技術研究院所錄製之語料當 作測試語料,表 5-8 為 MLBN 使用正規化特徵參數在不同語系測試 下之鑑別矩陣,由辨識結果顯示,MLBN 對於悲傷與中性之辨識效果

類似,悲傷被辨識為中性的機率有 75.8%,中性則有 96.0%機率被辨 識為中性,而快樂則與生氣之辨識效果類似,快樂與生氣皆相對容易 被辨識為悲傷,辨識率分別為 42.8%與 59.3%,此結果表示在以 MLBN 為辨識分類器的情況下,中文語系悲傷與中性之特徵參數與德國語料 庫之中性特徵參數相近,而快樂與生氣之特徵參數則與德國語料庫之 悲傷特徵參數相近,因此,若以德國語料庫當作訓練資料時,中文語 系之悲傷情緒容易被辨識為中性,而快樂與生氣情緒則容易被辨識為 悲傷,整體之正確辨識率為 39.3%,此結果與 KNN 及 SVM 分類器 相同,MLBN 分類器在訓練語料與測試語料為不同語系時,同樣無法 得到良好的分類效果。

5.3 多層共變異數貝氏網路(Multi-Layer Bayesian Network with