• 沒有找到結果。

以 GA 調整權重之辨識效果實驗

在文檔中 中 華 大 學 碩 士 論 文 (頁 33-40)

第 4 章 實驗結果

4.2 以 GA 調整權重之辨識效果實驗

在聲音辨識系統中,由於 MFCC 考慮到人耳對不同頻率的感受程度不同,

所以使用 MFCC 的辨識系統,辨識效果比只使用線性濾波器的線性倒頻譜(LPCC) 更加優秀,因此近年來的研究多半以 MFCC 作為特徵值。

雖然 MFCC 是相當常用的特徵值,但以辨識效果來說,單純使用 MFCC 的 辨識率並不是很好,所以就有人提出針對 MFCC 的改良方法,如論文[8]所提出 的權重濾波器組分析法(WFBA),在進行離散餘弦轉換時,以權重對濾波器組能 量進行調整。雖然在論文[8]中說明如何利用權重改變辨識結果,但並沒有詳細 敘述如何找到最佳權重值,所以本實驗使用 GA 調整 MFCC 三角濾波器之權重 以計算特徵值,利用 GA 有系統的尋找最佳權重值。

將此權重搭配以上兩種特徵值與不帶入權重的辨識結果示於表 4.3。分析 實驗顯示,分別用

MFCC

MFCC以及

MFCC

MFCC

MFCC

MFCC2 做為特徵向 量,在不改變三角濾波器權重的情況下進行辨識,特徵向量為

MFCC

MFCC其辨 識率為 75.4458,特徵向量為

MFCC

MFCC

MFCC

MFCC2 其辨識率為 75.7202。

接著我們利用 GA 分別搭配這兩種特徵向量來訓練最佳權重。此兩組權重分別再 搭配所對應的特徵向量,帶入測試音樂進行辨識,得到特徵向量

MFCC

MFCC辨 識率為 78.4636,特徵向量

MFCC

MFCC

MFCC

MFCC2 辨識率為 80.6584。

表 4.3 利用 GA 調整權重計算 MFCC 特徵向量之辨識結果比較

方法 RR(%)

MFCC MFCC

 75.4458

MFCC MFCC

 with GA 78.4636

2 MFCC MFCC

MFCC

MFCC

   75.7202

2 MFCC MFCC

MFCC

MFCC

   with GA 80.6584

若以特徵向量為

MFCC

MFCC的辨識結果為例,依照音樂類型展開,其各音 樂辨識率如表 4.4 所示。分析可得知,在 World 類型的辨識上有較好的辨識效 果,整體而言辨識率有所提升。

表 4.4 利用 GA 調整權重計算 MFCC 特徵向量之各音樂類型辨識結果比較

音樂類型 有權重之

RR(%)

沒權重之 RR(%) Classical 97.8125 96.2500 Electronic 64.0351 64.0351 Jazz/Blue 73.0769 69.2308 Metal/Punk 66.6667 60.0000 Rock/Pop 64.7059 61.7647 World 58.1967 50.0000

4.3 資料重組對辨識率影響之實驗

這個實驗是將訓練音樂特徵向量與該特徵向量所屬音樂類型的平均特徵向 量進行重組。本實驗所用的特徵向量為 MFCC 的平均值(

MFCC)以及標準差 (

MFCC),在進行向量重組前,首先先決定擴充參數 n,由於資料庫中的資料量與 辨識時所花費的時間成正比,若 n 設定太大會耗費太多時間,所以在本實驗中 n 的最大值設定為 10,依序將 2 至 10 帶入 n,以觀察在帶入不同大小 n 的狀況下,

資料重組法對辨識結果的影響,圖 4.5 為資料重組法不同 n 值的辨識結果。分析 實驗顯示 , 以

MFCC

MFCC做為特徵向量不使用資料重組法 , 其辨識率為

75.4458,當 n=2 帶入重組訓練資料後,辨識率便提升至 77.7778,顯示了資料重 組確實能提升辨識效果,但是依序帶入 n=2 至 10 後,我們發現並不是資料量擴 充越大,辨識效果就越好,在本實驗中當 n=3 時,辨識效果最好,其辨識率為

表 4.5 訓練資料重組法搭配 MFCC 辨識結果統計表

方法 RR(%)

MFCC MFCC

 75.4458

MFCC MFCC

with n=2 77.7778

MFCC MFCC

with n=3 78.1893

MFCC MFCC

with n=4 77.9150

MFCC MFCC

with n=5 76.9547

MFCC MFCC

with n=6 77.6406

MFCC MFCC

with n=7 76.9547

MFCC MFCC

with n=8 77.6406

MFCC MFCC

with n=9 77.0919

MFCC MFCC

with n=10 77.3663

4.4 分段式歐基理德距離計算之辨識率實驗

在本實驗中,以 MFCC 的平均值(

MFCC)以及標準差(

MFCC)做為特徵向 量,在辨識方面分別使用歐基理德距離與分段式歐基理德距離,辨識結果示於表 4.6。分析實驗顯示,使用歐基理德距離辨識測試音樂,其辨識率為 75.4458,而 改用分段式歐基理德距離進行辨識時,則辨識率為 78.1893,辨識效果略有提升。

表 4.6 特徵參數 MFCC 使用歐基理德距離與分段式歐基理德距離辨識結果統計表

方法 RR(%)

MFCC MFCC

 75.4458

MFCC MFCC

 with 分段 78.1893

4.5 整體辨識率之比較

根據以上實驗的結果,單獨使用上面的四種方法皆能使辨識率有不同程 度的提升,所以本實驗將試著以 GA 為主,搭配其他方法進行辨識。首先我們先 將 GA 單獨搭配其他三種辨識方法,接著比較四種特徵值

μ

MFCC

MFCC

MFCC

MFCC2 ,在使用分段式歐基理德距離和不使用的差異,最後再加入資料重組法 並結合另兩種方法,觀察 n 帶入 2 至 10 時,對辨識效果的影響,辨識結果示於 表 4.7,在表 4.7 的方法欄位中,A 代表利用 GA 尋找三角濾波器最佳權重,B 代表使用分段式計算歐基理德距離,C(n)代表利用資料重組法,將訓練資料庫擴 充至 n 倍。分析實驗顯示,以 GA 搭配結合四種特徵值

μ

MFCC

MFCC

MFCC

2

MFCC的特徵向量,其辨識率為 80.6584,利用 GA 撘配分段式計算歐基理德距離 的辨識率為 81.3443,在 GA 搭配資料重組方面,當訓練資料擴充為 8 倍時辨識 效果最好,其辨識率為 84.0878,最後觀察 GA 搭配結合四種特徵值並分段計算 歐基理德距離再分別帶入 n=2 至 10 擴充訓練資料,我們得到在訓練資料擴充至 9 倍時,辨識效果最好,其辨識率為 85.0480,而詳細辨識結果如表 4.8 所示。

表 4.7 整體辨識率比較統計表

特徵組合 方法 RR(%)

A 78.4636

A,B 81.3443 A,B,C(2) 83.4019 A,B,C(3) 83.2647 A,B,C(4) 83.4019 A,B,C(5) 83.5391 A,B,C(6) 83.4019 A,B,C(7) 83.9506 A,B,C(8) 84.0878 A,B,C(9) 83.5391

MFCC MFCC

A,B,C(10) 83.9506

A 80.6584

A,B 81.6187 A,B,C(2) 84.4993 A,B,C(3) 84.4993 A,B,C(4) 84.6365 A,B,C(5) 84.9108 A,B,C(6) 84.4856 A,B,C(7) 84.7737 A,B,C(8) 84.2249 A,B,C(9) 85.0480

2 MFCC MFCC

MFCC

MFCC

  

A,B,C(10) 84.7737

表 4.8 最佳辨識結果詳細分類表

實際\辨識 Classical Electronic Jazz/Blue Metal/Punk Rock/Pop World

Classical 315 0 0 0 0 5

Electronic 2 94 1 1 6 10

Jazz/Blue 0 1 18 0 3 4

Metal/Punk 0 1 0 33 11 0

Rock/Pop 3 7 1 10 73 8

World 16 12 1 0 6 87

在文檔中 中 華 大 學 碩 士 論 文 (頁 33-40)

相關文件