第五章 多層貝氏網路與多層共變異數貝氏網路語音情緒辨識
6.1 適應性 KNN 語音情緒辨識實驗與分析
由4.1.1第k個最近鄰(K-Nearest Neighbor, KNN)中所介紹之KNN 分類方法,KNN 是根據資料庫中最接近測試資料之K 個點資料所代 表的類別來當成測試資料的辨識結果,因此,本章節所使用之適應性
KNN,其調適流程如圖 6-1所示,當辨識結果正確時, KNN資料庫 不做任何更改變動,而當辨識結果錯誤時,則是將辨識錯誤之測試資 料,於標示類別後加入訓練資料中,藉以擴充訓練資料以符合測試者 實際的特徵狀態,以下將以圖 6-1 所示之適應性 KNN 分類方法針對 不同語系之語音情緒辨識做調適,並驗證調適後之KNN 辨識效果。
由於適應性方法是針對使用者個人做調適,因此,在適應性KNN 語音情緒辨識實驗上,本論文將採用測試者個人邊調適邊辨識的方式 進行,以下將就KNN 調適與實驗過程分別加以說明,首先,在訓練 資料中,我們以德國語料庫所有語料當作訓練資料,接著,將工研院 語料(表3-2)中不同測試者以個人方式,隨機取各情緒語料 15筆,並 以此當作調適語料,而剩餘之各情緒語料則當作測試語料,對調適後 之KNN 分類器做測試,以P1為例,其四種情緒語料各有30筆,從 四種情緒語料中隨機各取15筆語料當作調適語料,也就是悲傷有 15 筆、中性 15 筆、快樂 15筆、生氣 15 筆調適語料,另外,剩餘之四 種情緒各 15 筆語料則為測試語料,對調適後之 KNN 分類器做調適 後測試。
在P1 KNN分類器調適與調適後實驗的過程中,所使用的調適流 程是將 P1各情緒各 15 筆語料,共60 筆語料,隨機取出一筆語料作 測試,當辨識結果正確時,KNN 資料庫不做任何調適,並隨機取出
下一筆調適語料進行測試,而當調適語料辨識錯誤時,則將調適語料 之特徵參數加入KNN 分類器之資料庫中,也就是增加一筆資料庫資 料,接著,再繼續從剩下的調適語料中隨機取下一筆調適測試語料,
一直持續到 60 筆調適語料完全測試調適完為止,當所有語料測試調 適完後,我們得到新的 KNN資料庫,接著,以剩餘之四種情緒各15 筆語料,共 60 筆測試語料,分別對未調適前及調適完後之 KNN 分 類器做測試,表6-1為 P1測試語料於調適前後之KNN(K=11)鑑別矩 陣,由辨識結果可以發現,未調適前,KNN分類器對於悲傷、中性、
快樂以及生氣四種情緒,絕大部分會被辨識為中性,辨識率僅有 25.00%,經調適後,快樂與生氣之辨識率上升到五成左右,而中性則 下降到66.67%,整體辨識正確率提升到50.00%。
接著,與 P1 之調適測試實驗相同,同樣以德國語料庫所有資料 當作訓練資料,分別對 P2 ~ P20做 KNN調適前後之辨識實驗,表 6-2 為P1 ~ P20之KNN分類器調適前後鑑別矩陣(P1 ~ P20調適前後各情 緒之辨識正確結果詳見附錄 C),從鑑別矩陣結果可以發現,在調適 前,除了悲傷有 16%被正確辨識為悲傷,快樂有 22.3%被正確辨識為 快樂外,絕大部分情緒皆被辨識為中性,尤其是生氣情緒,有 92.7%
被辨識為中性,調適前之整體辨識正確率為 34.17%,而調適過後,
原先辨識結果集中在某一情緒的狀況有所改善,調適後主要分為兩個
族群,悲傷與中性為一族群,快樂與生氣則為另一個族群,悲傷、快 樂及生氣之辨識正確率分別由 16.0%、22.3%、1.0%提升至 73.7%、 75.0%以及 71.0%,悲傷有26.3%被辨識為中性,快樂有15.7%被辨識 為生氣,生氣則有 14.3%被辨識為快樂,而中性之辨識正確率則是下 降,辨識正確率由97.3%下降至75.0%,其中,有一部份原先辨識正 確之中性情緒,在新KNN 資料庫下,被辨識為悲傷,從鑑別矩陣來 看,各情緒之辨識正確率在調適後趨於一致,顯示新資料庫對於各情 緒之分類效果較趨穩定,調適後之整體辨識正確率為 73.67%,調適 前後,整體辨識正確率從34.17%提升到73.67%,因此,透過調適過 程增加訓練資料數量以符合實際使用者的狀況,可以有效提升 KNN 分類器之整體辨識效果。
6.2 適應性MLBN語音情緒辨識實驗與分析