適應性 MLBN 實驗結果與分析

第五章多層貝氏網路與多層共變異數貝氏網路語音情緒辨識

6.2 適應性 MLBN 語音情緒辨識實驗與分析

6.2.2 適應性 MLBN 實驗結果與分析

由於適應性 MLBN 調適方式是依據測試者個人的情緒分佈狀態去做調適修正，因此，在本節適應性 MLBN 實驗中，將採用 MLBN Outside Test方式進行辨識，首先，進行同語系適應性MLBN實驗，

以德國語料庫當作適應性MLBN實驗語料，將德國語料庫 P1語料當作測試語料，並以P2 ~ P10語料當作訓練語料，因此悲傷有7筆、中性有 11 筆、快樂有 7 筆、生氣有 14筆，共 39 筆測試語料，而訓練語料悲傷有 55 筆、中性有68 筆、快樂有 64 筆、生氣有113 筆，接著，從 39筆測試語料中隨機選取一筆資料並以MLBN語音情緒分類器進行辨識，若辨識結果正確，則從剩餘之測試資料中隨機選取另一

筆資料進行測試，若辨識結果錯誤，則根據上一節所提出之適應性 MLBN資料庫修正方法，對MLBN資料庫進行調適修正，修正完後，

再從剩餘之測試資料中隨機選取另一筆資料，並以修正過後之新 MLBN資料庫進行測試，直到 39筆測試語料測試完畢，最後，將測試完畢並修正過後之新 MLBN 分類器對 39 筆測試資料重新進行測試。

接著，以P2 當作測試資料，另外9 人(P1以及P3 ~ P10)則當作訓練資料，從P2 測試資料中隨機選取一筆資料並以MLBN分類器進行辨識，與 P1 之調適過程相同，若辨識結果正確，則從剩餘之測試資料中隨機選取另一筆資料進行測試，若辨識結果錯誤，則同樣根據適應性MLBN資料庫修正方法，對MLBN資料庫進行調適修正，修正完後，再從剩餘之測試資料中隨機選取另一筆資料，並以修正過後之新MLBN 資料庫進行測試，直到P2所有測試資料測試完畢，最後，

將測試完畢並修正過後之新MLBN分類器對P2 所有資料進行測試。

以此類推，對 P3 ~ P10做MLBN Outside Test，並進行MLBN資料庫調適與測試。

表6-3為MLBN分類器德國語料庫P1 ~ P10同語系調適前後之鑑別矩陣(P1 ~ P10 調適前後各情緒之辨識正確結果詳見附錄C)，從整體辨識結果來看，MLBN 分類器在調適過後，悲傷之辨識正確率從

84%提升到99%，中性則維持極佳的辨識效果，從97%提升到99%，快樂之辨識效果則是大幅提升，辨識正確率從 54%提升到 83%，至於生氣，辨識正確率則是從75.6%提升至 90.6%，整體之辨識正確率則是從調適前77.6%提升到 92.3%。表6-4 為P1 ~ P10以個人本身之語料為訓練與測試語料之MLBN Dependent Test 鑑別矩陣，由調適後整體辨識正確率 92.3%與個人語料訓練與測試之整體辨識正確率 93.5%比較可以發現，兩者相當接近，因此，經由適應性 MLBN調適過程，可以有效縮小資料庫與語者之間的差異，提升個人本身的情緒辨識效果。

接下來，考慮適應性 MLBN應用於不同語系時，其調適過程對辨識結果之影響，同樣的，以德國語料庫所有資料當作訓練資料，並以工業技術研究院所錄製之語料當作測試語料，測試適應性 MLBN 在不同語系間之效果。在調適與測試的過程中，與KNN 採用相同的調適與測試語料，以 P1為例，各情緒各有 15 筆，共60 筆語料為調適語料，首先，從 60筆調適語料中隨機選取一筆語料並以MLBN分類器進行辨識，若辨識結果正確，則從剩餘調適語料中隨機選取另一筆調適語料進行測試，若辨識結果錯誤，則根據前面所提出之 MLBN 資料庫修正方式，對 MLBN 資料庫進行修正，當修正完後，再從剩餘調適語料中隨機選取另一筆調適語料，並以修正過後之新 MLBN

資料庫進行測試，直到 60 筆調適語料測試調適完畢，最後，將 P1 剩餘之四種情緒各15 筆，共60 筆測試語料，分別對未調適前及調適完後之MLBN分類器做測試。

接著，與工業技術研究院語料 P1 之調適與測試流程相同，並採用與 KNN相同之工業技術研究院 P2 至P20調適與測試語料，對 P2 至P20進行MLBN資料庫調適與測試，表6-5 為MLBN分類器於工業技術研究院語料P1 ~ P20 調適前後整體統計之鑑別矩陣(P1 ~ P20 調適前後各情緒之辨識正確結果詳見附錄 C)，從鑑別矩陣來看，在調適前，悲傷與中性會被 MLBN 分類器視為同一情緒類別，悲傷與中性之情緒絕大部分會被 MLBN 辨識為中性，悲傷情緒中有一小部分會被正確辨識為悲傷，而快樂之辨識結果較為分散，有一部份被辨識為悲傷，一部分被辨識為快樂，另外，分別有一小部分被辨識為中性及生氣，生氣則視大部分會被 MLBN 分類器辨識為悲傷，一部分被辨識為中性及快樂，少數則被辨識為生氣，而在調適過後，悲傷之辨識率從20.3%大幅提升到86.0%，中性之辨識正確率則是下降，從 95.0%下降到 85.0%，而快樂與生氣之辨識效果在調適過後，均大幅提升，辨識率分別從 31.3%提升到83.3%以及 4.7%提升到75.3%，整體之辨識正確率則是從調適前37.83%大幅提升至82.42%，由鑑別矩陣結果也可以發現，經由適應性 MLBN 調適過程，可以使各情緒之

辨識正確率接近，各情緒類別之分類效果達到均衡狀態。

最後，我們增加適應性 MLBN調適語料數量，用以確定調適過程增加時，是否對適應性 MLBN 之分類有所助益，首先，先以工研院 P1 所有語料當作調適語料，因此悲傷有 30 筆、中性有 30 筆、快樂有30 筆、生氣有30筆，共 120筆調適語料，接著，與前面之測試調適過程相同，從 120 筆調適語料中隨機選取一筆資料並以 MLBN 分類器進行辨識，若辨識結果正確，則再從剩餘測試資料中隨機選取另一筆資料進行測試，若辨識結果錯誤，則根據6.2.1 所提出之MLBN 資料庫修正方法，對 MLBN 資料庫進行修正，修正完後，再從剩餘測試資料中隨機選取另一筆資料，並以修正過後之新 MLBN 資料庫進行測試調適，直到120筆測試語料測試調適完畢，最後，將調適完畢並修正過後之新MLBN分類器對 P1所有資料進行測試。

接著，分別對P2 至P20個別語料進行調適與測試，表6-6為調適語料增加後，MLBN分類器於工業技術研究院語料P1 ~ P20 調適前後整體統計之鑑別矩陣(P1 ~ P20調適前後各情緒之辨識正確結果詳見附錄 C)，從鑑別矩陣來看，在調適前，其辨識結果與前面取一半語料調適另一半語料測試之結果相近，悲傷與中性會被 MLBN 分類器視為同一情緒類別，悲傷與中性之情緒絕大部分會被 MLBN 辨識為中性，悲傷情緒中有一小部分會被正確辨識為悲傷，而快樂之辨識

結果較為分散，有一部份被辨識為悲傷，一部分被辨識為快樂，另外，

分別有一小部分被辨識為中性及生氣，生氣則視大部分會被 MLBN 分類器辨識為悲傷，一部分被辨識為中性及快樂，少數則被辨識為生氣，而在調適過後，悲傷之辨識率從20.7%大幅提升到 91.0%，中性之辨識正確率則是些微下降，從96.0%下降到 91.8%，而快樂與生氣之辨識效果在調適過後，則是大幅提升，辨識率分別從35.0%提升到 88.7%以及 5.7%提升到 84.2%，整體之辨識正確率則是從調適前 39.33%大幅提升至 88.92%，與表 6-5 比較可以發現，在調適語料增加後，各情緒之整體辨識正確率皆提升約6 ~ 8%，顯示增加調適次數將有助於提升MLBN語音情緒之分類效果。

由以上之實驗結果，當MLBN資料庫訓練語料語系與使用者使用之語系不同時，經由本論文所提出之適應性 MLBN 調適過程，將可以有效提升各情緒之辨識效果，而增加調適次數，對於 MLBN 語音情緒之分類效果也是有所助益的，此外，在適應性 MLBN 資料庫之修正與計算上，也僅需修正 MLBN 資料庫中各特徵參數之平均值與標準差，不需再額外加入任何資料，增加實際應用時硬體上之需求，

因此，適應性 MLBN 大大提升了語音情緒辨識在硬體架構及實際應用上的可行性。

在文檔中應用貝氏網路及適應性調適方法於語音情緒辨識之研究 (頁 187-192)

第五章 多層貝氏網路與多層共變異數貝氏網路語音情緒辨識

6.2 適應性 MLBN 語音情緒辨識實驗與分析

6.2.2 適應性 MLBN 實驗結果與分析

第五章多層貝氏網路與多層共變異數貝氏網路語音情緒辨識