適應性 KNN 語音情緒辨識實驗與分析

第五章多層貝氏網路與多層共變異數貝氏網路語音情緒辨識

6.1 適應性 KNN 語音情緒辨識實驗與分析

由4.1.1第k個最近鄰(K-Nearest Neighbor, KNN)中所介紹之KNN 分類方法，KNN 是根據資料庫中最接近測試資料之K 個點資料所代表的類別來當成測試資料的辨識結果，因此，本章節所使用之適應性

KNN，其調適流程如圖 6-1所示，當辨識結果正確時， KNN資料庫不做任何更改變動，而當辨識結果錯誤時，則是將辨識錯誤之測試資料，於標示類別後加入訓練資料中，藉以擴充訓練資料以符合測試者實際的特徵狀態，以下將以圖 6-1 所示之適應性 KNN 分類方法針對不同語系之語音情緒辨識做調適，並驗證調適後之KNN 辨識效果。

由於適應性方法是針對使用者個人做調適，因此，在適應性KNN 語音情緒辨識實驗上，本論文將採用測試者個人邊調適邊辨識的方式進行，以下將就KNN 調適與實驗過程分別加以說明，首先，在訓練資料中，我們以德國語料庫所有語料當作訓練資料，接著，將工研院語料(表3-2)中不同測試者以個人方式，隨機取各情緒語料 15筆，並以此當作調適語料，而剩餘之各情緒語料則當作測試語料，對調適後之KNN 分類器做測試，以P1為例，其四種情緒語料各有30筆，從四種情緒語料中隨機各取15筆語料當作調適語料，也就是悲傷有 15 筆、中性 15 筆、快樂 15筆、生氣 15 筆調適語料，另外，剩餘之四種情緒各 15 筆語料則為測試語料，對調適後之 KNN 分類器做調適後測試。

在P1 KNN分類器調適與調適後實驗的過程中，所使用的調適流程是將 P1各情緒各 15 筆語料，共60 筆語料，隨機取出一筆語料作測試，當辨識結果正確時，KNN 資料庫不做任何調適，並隨機取出

下一筆調適語料進行測試，而當調適語料辨識錯誤時，則將調適語料之特徵參數加入KNN 分類器之資料庫中，也就是增加一筆資料庫資料，接著，再繼續從剩下的調適語料中隨機取下一筆調適測試語料，

一直持續到 60 筆調適語料完全測試調適完為止，當所有語料測試調適完後，我們得到新的 KNN資料庫，接著，以剩餘之四種情緒各15 筆語料，共 60 筆測試語料，分別對未調適前及調適完後之 KNN 分類器做測試，表6-1為 P1測試語料於調適前後之KNN(K=11)鑑別矩陣，由辨識結果可以發現，未調適前，KNN分類器對於悲傷、中性、

快樂以及生氣四種情緒，絕大部分會被辨識為中性，辨識率僅有 25.00%，經調適後，快樂與生氣之辨識率上升到五成左右，而中性則下降到66.67%，整體辨識正確率提升到50.00%。

接著，與 P1 之調適測試實驗相同，同樣以德國語料庫所有資料當作訓練資料，分別對 P2 ~ P20做 KNN調適前後之辨識實驗，表 6-2 為P1 ~ P20之KNN分類器調適前後鑑別矩陣(P1 ~ P20調適前後各情緒之辨識正確結果詳見附錄 C)，從鑑別矩陣結果可以發現，在調適前，除了悲傷有 16%被正確辨識為悲傷，快樂有 22.3%被正確辨識為快樂外，絕大部分情緒皆被辨識為中性，尤其是生氣情緒，有 92.7%

被辨識為中性，調適前之整體辨識正確率為 34.17%，而調適過後，

原先辨識結果集中在某一情緒的狀況有所改善，調適後主要分為兩個

族群，悲傷與中性為一族群，快樂與生氣則為另一個族群，悲傷、快樂及生氣之辨識正確率分別由 16.0%、22.3%、1.0%提升至 73.7%、 75.0%以及 71.0%，悲傷有26.3%被辨識為中性，快樂有15.7%被辨識為生氣，生氣則有 14.3%被辨識為快樂，而中性之辨識正確率則是下降，辨識正確率由97.3%下降至75.0%，其中，有一部份原先辨識正確之中性情緒，在新KNN 資料庫下，被辨識為悲傷，從鑑別矩陣來看，各情緒之辨識正確率在調適後趨於一致，顯示新資料庫對於各情緒之分類效果較趨穩定，調適後之整體辨識正確率為 73.67%，調適前後，整體辨識正確率從34.17%提升到73.67%，因此，透過調適過程增加訓練資料數量以符合實際使用者的狀況，可以有效提升 KNN 分類器之整體辨識效果。

6.2 適應性MLBN語音情緒辨識實驗與分析

在文檔中應用貝氏網路及適應性調適方法於語音情緒辨識之研究 (頁 170-173)

第五章 多層貝氏網路與多層共變異數貝氏網路語音情緒辨識

6.1 適應性 KNN 語音情緒辨識實驗與分析

第五章多層貝氏網路與多層共變異數貝氏網路語音情緒辨識