中華大學碩士論文

(1)

中華大學碩士論文

題目：結合基因演算法於梅爾倒頻譜係數最佳化計算及其於音樂曲風之辨識

Optimization of the MFCCs by Using Genetic Algorithms and Its Application to the Music Genre Classification

系所別：資訊工程系碩士班

學號姓名：M09402050 林秉韶

指導教授：周智勳博士

(2)

摘要

在音樂辨識系統中，梅爾倒頻譜係數(Mel Frequency Cepstral Coefficient,

MFCC)被廣泛的運用在音樂及音訊資料庫的分類決策，而隨著 MFCC 的運用，

不少 MFCC 的改良方法也隨之被提出，其中針對三角濾波器能量組進行權重調整以提升辨識效果的方法被證實是可行的。本篇論文嘗試以基因演算法尋找最佳辨識效果之權重，並應用在曲風辨識上。在訓練階段方面，首先結合基因演算法於三角濾波器之權重設計，並計算出最佳 MFCC 組，接著在特徵擷取上，主要是由 MFCC 為基礎計算出其平均值 (

μ

_MFCC ) 、標準差 (



_MFCC ) 、一階差分

MFCC(



_MFCC)、二階差分 MFCC(



_MFCC² )來組成特徵向量。辨識過程中，則是將最佳權重帶入計算測試音樂的最佳化 MFCC，並得到相同的四種特徵以進行比對。

論文中，我們並會針對比對方式以及訓練資料的安排進行研究，進而提升整體辨識效果。

(3)

致謝

本篇論文的完成，首先要感謝的是指導教授周智勳老師的指導，因為老師的指點，讓我在面對問題能迎刃而解，除了在學業上予我自由發揮，在生活管理以及為人處事上更惠我良多，在此致上十二萬分的感謝。

口試委員韓欽銓老師、李建興老師、李遠坤老師、石昭玲老師所提供的建議與構思，使本篇論文更加的完善，僅致上由衷的感謝。

同時也要感謝實驗室的同學以及學弟們，謝謝你們給予的幫助。最後，感謝陪伴我身邊的家人，讓我能安心完成學業，謝謝你們。

林秉韶謹致中華大學資訊工程研究所民國 98 年 2 月

(4)

圖目錄

圖 3.1 系統架構流程圖……….…………..7

圖 3.2 以GA尋找最佳權重流程圖………...8

圖 3.3 梅爾頻率與實際頻率關係圖……….11

圖 3.4 三角帶通濾波器組模型……….12

圖 3.5 三種類別音樂其

μ

_MFCC、



_MFCC、



_MFCC及



_MFCC² 之比較……….19

圖 3.6 資料重組法範例圖……….21

圖 3.7 MFCC 特徵向量範例圖………..………23

(7)

表目錄

表 4.1 音樂類型數量分類表………..………...24 表 4.2 結合不同特徵向量之辨識結果統計表………….……….…26 表 4.3 利用 GA 調整權重計算 MFCC 特徵向量之辨識結果比較……….27 表 4.4 利用 GA 調整權重計算 MFCC 特徵向量之各音樂類型辨識結果比較…..28 表 4.5 訓練資料重組法搭配 MFCC 辨識結果統計表……….……29 表 4.6 特徵參數 MFCC 使用歐基理德距離與分段式歐基理德距離辨識結果統計

表………...………...…30 表 4.7 整體辨識率比較統計表……….31 表 4.8 最佳辨識結果詳細分類表………32

(8)

第1章緒論

1.1 研究背景

隨著科技的進步，網際網路已經成為大多數人生活的一部份，音樂的儲存方式不再拘泥於唱片以及光碟等舊有的儲存規格，而是以數位化的方式流傳於網際網路，只要透過網際網路，人們便可以從網路上下載自己喜歡的音樂。然而，網路上的音樂種類繁多，如何有效的去分類並管理就成為一件重要的事，最原始的方法就是以人耳去判斷，但是單純以人耳去判斷音樂類型是一件相當不經濟的事，所以音樂類型的自動辨識功能成為音樂資訊檢索系統中重要的一環。

1.2 研究動機

然而有許多的因素會影響到音樂辨識的正確率，例如，錄音器材的靈敏度，

環境的噪音干擾度，要如何有效的辨識音樂類型並不是件容易的事，為了提升辨識的效果，許多特徵擷取法紛紛被提出，MFCC 正是其中一種常用的特徵擷取方法。由於 MFCC 被廣泛的運用在聲音辨識系統中，對 MFCC 的改良方法也逐一被提出，在眾多 MFCC 改良方法中，利用權重調整三角濾波器能量是一種較為新穎的方法，本篇論文將採用權重的觀念，並利用基因演算法來尋找最佳的權重。

(9)

1.3 章節概要

本篇論文分為五個章節。第一章序論介紹研究背景、研究動機及章節概要。

第二章將介紹國內外音樂辨識的相關研究，以及本篇論文研究方向的相關描述。

第三章為系統描述，詳細敘述本篇論文所採用的特徵及辨識方法，並說明如何將各方法搭配使用。第 4 章是實驗結果，說明實驗資料，實驗方法，並列出各組實驗數據。第 5 章則是總結本篇論文的結論，以及未來的研究與改進的方向。

(10)

第2章相關文獻與研究方向描述

在本章節中，將逐一介紹音樂曲風辨識之相關文獻，並描述本文所研究之主題，雖然音樂曲風辨識的研究種類不若人類語音辨識的眾多，但仍是聲音辨識系統裡重要的研究方向。

2.1 相關文獻

線性預估倒頻譜係數(Linear Prediction Cepstral Coefficients, LPCC)是一種普遍應用於人類語音辨識與音樂曲風辨識的一種特徵參數 [1]，其優點是去掉了音樂訊號中的雜訊部份，只需要幾十個倒頻譜係數就能詳細描繪出音樂訊號的共振峰特性，所以運算量低。其缺點為未考慮音樂頻譜上的特性，辨識率隨著雜訊增加而降低。在實際運算中，LPCC 參數並非直接取得，而是由線性預估(linear prediction)分析推導出來的。

梅爾倒頻譜係數(Mel frequency cepstral coefficients, MFCC)是近年來使用最為普遍的一種特徵參數[2][3]，在不同領域的辨識系統都有良好的辨識效果。和透過對人的發聲機理的研究而得到的聲學特徵 LPCC 相比，MFCC 是透過人耳對聲音頻率的感受研究而導出的特徵，所以在聲音辨識上 MFCC 有較佳的辨識結果。MFCC 的計算方式首先用快速傅立葉轉換(FFT)將時域訊號轉化成頻域，之

(11)

後對頻譜能量用三角帶通濾波器[7]進行旋積，最後對各個三角濾波器所輸出的向量進行離散餘弦轉換(DCT)。

隨著 MFCC 在各聲學辨識系統的普遍使用，各種以 MFCC 為基礎的改進方法也紛紛被提出，論文[4]針對 MFCC 中的三角濾波器部分做了改進，將三角濾波器乘上一個漢明窗(Hamming Windows)，在三角濾波器不改變中心頻率的條件下，改變三角濾波器的形狀，並引用了加權部分重疊平均(weighted overlapped

segment averaging, WOSA[5])改善辨識效果，WOSA 的主要步驟在於前處理時，

將聲音訊號分割成數個連續的短時域音框，再將每個音框各自分成數個更小的重疊音框(overlap subframe)後，把重疊音框乘上漢明窗並做快速傅立葉轉換，在濾波器的部份並非使用原本的三角帶通濾波器組，而是採用非均勻離散傅立葉轉換

(nonuniform discrete Fourier transform, NDFT)。論文[6]承接著論文[5]，提出了適當的選擇重疊音框的長度以及重疊部分的比例能提升辨識效果。

論文[8]將權重的概念套用到了濾波器組中(weighted filter bank analysis,

WFBA)，按照 MFCC 的流程，音樂訊號取完音框做傅立葉轉換後，將能量頻譜用三角帶通濾波器進行旋積，接著就是把各個三角濾波器輸出的能量取對數並進行離散餘弦轉換；而在最後進行離散餘弦轉換時，在取對數後乘上一個權重，權重的值隨著三角濾波器組中濾波器的編號而改變，實驗結果顯示，帶入權重計算

(12)

的 MFCC 要比原始的 MFCC 有更佳的辨識效果。

一般在使用 MFCC 做為特徵擷取參數的方法，是將所有短時域音框所取得的 MFCC 加總取平均(mean)，或是將所有短時域音框所得之 MFCC 計算其標準差(standard deviation)；但是有研究學者提到計算完 MFCC 後，將相鄰音框的係數值做一階差分，並把所得之係數值稱為 Delta MFCC，論文[9]提出了將 Delta

MFCC 平滑化的觀念，將相鄰的連續三個音框的 MFCC 計算其差值再取平均。

論文[10]則是對 MFCC 作正規化處理，產生的新係數則為 Delta MFCC。論文[11]

中的 Delta MFCC 計算方式則是計算相同 MFCC 係數值在不同頻帶間的能量差值。Delta MFCC 反映了倒頻譜參數對時間的變化量，再結合原本的 MFCC，辨識效果比只有 MFCC 更佳。

除了改良聲音訊號之特徵擷取外，分類器的改良也是提升辨識效果的方法，

由於每次取得的聲音訊號時間長短不同，如果只單純的計算歐基理德距離而不經過其他處理無法達到最佳的辨識效果，於是便有了許多不同的分類器與特徵向量作結合進行辨識，早期的辨識系統採用的是動態時間校準(Dynamic Time Warping,

DTW)[12][13]辨識方法，在比對訊號時將說話速度快慢的差異性帶入，做適當的補償；同時期被提出的方法還有向量量化(Vector Quantization, VQ)[14]，VQ 是一種資料壓縮的方法，VQ 的最終目標，就是以挑選出來的編碼向量代替原本的資

(13)

料向量進行辨識；接著被提出的是隱藏馬可夫模型 (Hidden Markov Model,

HMM)[15][16][17]，HMM 的辨識效果取決於它的機率模型參數，而透過足夠的訓練樣本，便能產生適當的參數；再來被提出的是類神經網路(Artificial Neural

Network, ANN)[18][19][20]，類神經網路是由很多神經元(Neuron)以平行且分散的方式在作運算，由於類神經網路優越的學習能力和能夠處理大量的平行運算，適合處理各種需要大量資料運算的應用上。比較以上各種辨識方法，DTW 未能反映出聲音訊號的差異性，在連續語音的辨識上效果不佳；VQ 具有高效率的壓縮性能，其不足之處是會造成聲音訊號部分的失真，加上訓練過程中的計算方式複雜且計算量過大；HMM 利用機率分佈來描述聲音訊號的差異性，能獲得較佳的辨識效果，但訓練樣本的過程與辨識演算法太過複雜，仍有改善的空間；ANN 在訓練過程中能不斷的調整自身的參數權重，以適應環境並將系統優化，在辨識系統中有資料處理速度快，辨識率高等特性。

2.2 研究方向描述

由上述論文發現，MFCC 廣泛應用於各音樂辨識系統中，各種以 MFCC 為基礎的特徵擷取方法也一一被提出，而針對三角濾波器權重調整方面的研究卻為數不多，因此本篇論文將著重於利用基因演算法來尋找最佳的權重值以達到辨識效果最佳化的目的，並探討結合其他辨識方法對辨識率的影響。

(14)

第3章系統描述

本章節將介紹本論文之系統架構，在傳統的辨識系統中，必須先利用訓練樣本擷取出特徵以建立特徵資料庫，再對測試樣本所擷取的特徵進行比對得到辨識結果。在本系統中，將對各種音樂進行曲風的辨識，主要分成訓練和測試兩大部分，在訓練部份，將利用基因演算法(GA)找出一組MFCC三角濾波器的最佳權重

(weight)，並以MFCC為基礎進行特徵擷取；在測試部份，將訓練過程找出的最佳權重代入測試音樂以計算特徵向量，並搭配我們提出的資料重組法對特徵資料庫中的特徵向量進行比對得到辨識結果。圖 3.1 為本論文的系統架構流程圖，

詳細架構內容在本章中逐一介紹。

圖 3.1 系統架構流程圖

(15)

3.1 以基因演算法(GA)尋找最佳權重

如第二章所述，MFCC廣泛應用於聲音辨識，而計算MFCC的過程中，三角濾波器的改良則是研究重點之一。在本章節中，將介紹如何在訓練過程中以GA 搜尋三角濾波器之最佳權重，其流程圖示於圖 3.2，並詳細說明如下。

圖 3.2 以GA尋找最佳權重流程圖

(16)

3.1.1 計算梅爾倒頻譜係數(MFCC)

倒頻譜係數是聲音辨識上一種常用的特徵，而依照所採用濾波器的不同分為線性倒頻譜係數，以及梅爾倒頻譜係數[7]。與線性倒頻譜係數相比，梅爾倒頻譜係數考慮到人類的聽覺系統對低頻的感知能力較強，在擷取參數的時候會將低頻部分多取，而高頻的部分少取，所以在辨識率上梅爾倒頻譜係數比線性倒頻譜係數有令人滿意的辨識效果。倒頻譜係數特徵擷取法是一種基於傅立葉轉換的擷取方法，意思是特徵向量是由聲音訊號每個音框產生的頻譜中擷取出來的。其詳細步驟如下所示：

步驟一：預強調(Pre-emphasis)

聲音訊號離開發聲源後會逐漸衰減，為了彌補衰減掉的部份，於是使用預強調的方法來補償。預強調的觀念就是讓聲音訊號通過一個高通濾波器，藉此補償高頻訊號的衰減。公式如下所示：

x

ˆ[

n

]

x

[

n

]





x

[

n

1] (3-1) 其中x[n]表示聲音訊號，n為時間系數，在這裡我們取



0.95。

步驟二：框分析(Framing Analysis)

在處理聲音訊號時，我們假設聲音的特徵是快速變化的，因此可以利用短時段(short time)的處理方法。這種方法是假設在一段短時段中的聲音訊號被處理，

並認為在短時段中的訊號，其特性是固定的。

(17)

習慣上，我們稱短時段為一個音框(frame)，在觀測聲音訊號的特徵時會將訊號取一定數量的取樣點集合觀測，我們稱為音框化(framing)，以數學表示式可視為將訊號乘上窗函數，為了使音框與音框之間的訊號變化量不會太大，通常取 1/2 的比例來重疊音框。第m個音框內的短時段訊號表示如下：

] [ ] ˆ[ ]

~

x

_m[

n



x n



w n

(3-2) 其中

x

ˆ n[ ]是原始聲音訊號，

w

[n]是窗函數(windows function)。本論文使用的窗函數為漢明窗，其公式如下：





  

 



otherwise

, 0

0 1), cos( 2 46 . 0 54 . ] 0

[

n N

N n n

w



(3-3)

其中 N 代表著音框的大小，在本論文中設為 1024。

步驟三：傅立葉轉換(Fourier Transform)

根據傅立葉理論，任何周期訊號是由不同週期的波所組成的合成波[22]，傅立葉轉換就是將原始訊號用正弦函數和餘弦函數重新表示。利用傅立葉轉換可以獲得原始訊號的組成成分，以便觀察能量在頻譜上的分佈情形。傅立葉轉換的公式如下：

N N k

j nk n

x k

X

N

n



 



 









^



0 2 ,

exp ]

~[ ]

[

1

0



(3-4)

其中X[k]是~ n

x

[ ]的傅立葉轉換，ｋ代表k-th Frequency Bin。

步驟四：三角帶通濾波器組(Triangular Band-Pass Filter Bank)

人類聽覺系統可接收的頻率範圍是20至20000Hz之間，但是人類的聽覺系

(18)

高頻部份，人耳對頻率變化量的感受就不是那麼明顯。

在聲音辨識系統裡，最常使用的是一種較簡單且近似感知頻率刻度的轉換公式，稱之為梅爾頻率刻度(Mel-scal frequency)，其公式如下：



 



 

 1

log 700 2595 ₁₀

f

mel

(3-5)

其中 f 為實際頻率，mel為梅爾頻率。圖 3.3 為實際頻率與梅爾頻率的轉換關係。實際頻率與梅爾頻率在頻率小於1kHz時接近線性關係；當頻率大於1kHz時，

兩者則呈現對數關係。

圖 3.3 梅爾頻率與實際頻率關係圖

圖 3.4 為計算梅爾倒頻譜係數過程中的濾波器模型，由圖可看出三角帶通濾波器組是由多個三角帶通濾波器所組成，其設計上參照了人耳的特性，在低頻

(19)

時三角濾波器組的間隔較密集，頻寬也較窄，而隨著頻率增加，每個三角濾波器的間距與頻寬也隨之增加，模擬出人耳在低頻比高頻有更佳敏銳度的現象。利用梅爾濾波器來處理每個框內之訊號，即可獲得該框內訊號的頻譜能量值參數。其公式如下所示：

l i A

k i

e

N

k

i  









0 , ) ( )

(

2 1

0



(3-6)

0 2 , ]

[ ² N

k k

X

A_k    (3-7)

其中，

e

(i)為第i 個三角帶通濾波器能量值，l 為三角帶通濾波器的個數，

 為

_i 第i 個三角帶通濾波器的函數，

A 為

_k

X

[k]的頻譜能量值，由於訊號經過傅立葉

轉換後成左右對稱，故計算至 2

N 的範圍即可。

圖 3.4 三角帶通濾波器組模型

(20)

步驟五：離散餘弦轉換(Discrete Cosine Transform, DCT)

得到濾波器組能量後，取其對數值並帶入離散餘弦轉換，求出共Q階的特徵 係數，這裡本篇論文將Q設為20。離散餘弦轉換的公式如下：











 



 



  





Q

i

m

Q

m i i

e

1 2

1 cos 2

)]

( log[

C



(3-8)

其中

e

(i)為第 i 個三角帶通濾波器能量值，

C 即為第 m 階梅爾倒頻譜特徵係數

_m (

m

^th order MFCC)。

由於三角帶通濾波器最大的特點在於隨著三角帶通濾波器中心頻率的不同，濾波器的頻寬也隨之增加，反映出人耳在低頻時較敏感，在高頻時較遲鈍的特性；而在音樂曲風辨識過程中，不同類別的音樂其主要能量散佈的頻率也不同，所以論文[8]提出了在進行離散餘弦轉換時，以權重對濾波器組能量進行調整，其公式如下：











 



 



  





Q

i

m

Q

m i i

e i

w C

1 2

1 cos 2

)]

( log[

)

(



(3-9) 其中

w

(i)為第 i 個三角帶通濾波器的權重。

3.1.2 以基因演算法(GA)尋找三角濾波器最佳權重

基因演算法 (Genetic Algorithm, GA)[21] 主要的目的是透過複製 (Reproduction)、交配(Crossover)、突變(Mutation)等步驟模擬自然界生物系統的進化過程，近年來被廣泛的運用在搜尋各類問題的最佳解。本章節將利用 GA 尋

(21)

找訓練音樂的的三角濾波器最佳權重，GA 各步驟的詳細說明如下：

步驟一：產生初始族群

基因演算法中，初始族群的族群大小(population size)對於求解效益有很大的影響。族群大有較大機會達成最佳解，但需要較多演算時間。族群太小容易陷入局部最佳解而提早收斂。

在本篇論文中，族群大小為 100 組染色體，由於本篇論文的梅爾三角濾波器的濾波器個數為 25 個，為了配合濾波器數量，所以每組染色體是由 25 個基因所組成，而每個基因的編碼值是一個介於 0 到 2 之間的實數亂數。

步驟二：計算適應函數值

適應函數值主要是用來判定族群中染色體適應環境的能力，所以一個好的適應函數值，要能夠將染色體的好壞判別出來。根據不同的問題，發展出不同的適應函數值，適應函數值是表達問題的績效函數，在基因演算法中，適應函數值的目的便是判斷某一組染色體之求解集合的適應程度，最終的目的就是要找到使適應值最高的那組變數值。

本篇論文的適應值計算方法是將染色體解碼成三角濾波器的權重後，帶入訓

(22)

練音樂計算其 MFCC 並進行辨識，最後統計訓練資料辨識率，詳細過程如下：

1) 將權重 (染色體)帶入 MFCC 計算流程中，計算出所有訓練資料歌曲的 MFCC 特徵向量。

2) 挑選出一首歌曲的特徵向量當成測試向量，沒被選到歌曲的特徵向量則當成比對向量，將測試向量與比對向量計算歐基理德距離。

3) 取距離測試向量最接近的比對向量其所屬的音樂類型為辨識結果，並判斷是否與測試向量屬同類型，是則辨識正確，否則錯誤。

4) 依序選取另一首歌曲的特徵向量，並重複過程 2 和 3 直到所有的歌曲完成辨識，最後統計辨識正確的次數當成適應值。

步驟三：染色體複製

複製的目的在於篩選優秀的染色體，淘汰適應性較差的染色體，將適應性較佳的染色體保留下來。適應性較高的染色體，其複製的機率相對較高，所以在下一子代族群中，適應性較差者將逐漸被淘汰，取而代之的是適應性較高的個體，

因此族群中便產生優秀的子代染色體。本篇論文的選擇方式是選取適應值最高的前 10 名染色體作為交配的選擇，第 1 名的染色體期交配次數為 10 次，交配對象則由其餘染色體中隨機選取，前 10 名染色體交配次數隨著適應值排名而遞減，

第 2 名交配 9 次，第 3 名交配 8 次，依此類推一直到第 10 名交配 1 次。

(23)

步驟四：染色體交配

交配為基因演化的重要流程，將經過選擇過程篩選出之成對染色體以一定機率決定是否進行配對，再經由彼此間所進行之基因交換行為產生更優良的子代。

在演化的過程中，若僅僅只有篩選(selection)機制，無法使求解的結果更近一步，

為了組成更具適應能力的染色體，必須藉由其他染色體的基因來補全，因此必須經由交配來達成以上目的。

本篇論文的處理方式是依照上個步驟所提出的配對方法進行交配。而染色體交配的公式如下：

2 1 (1 )

p p

P





 



(3-10)

其中

p 是適應值較高的染色體，

₁

p 則是由族群中亂數選擇的染色體，

₂

 是一個

亂數產生的常數，在每一次染色體交配時會重新產生新的 ，範圍介於 0.5 至 1.5 之間，取這樣的範圍目的是為了加強適應值較高的染色體的比重。在產生完所有子代染色體後，計算子代染色體的適應值並加入族群中，重新選擇適應值前 100 名的染色體置入族群，並將剩下未選擇到的染色體刪除。

步驟五：基因突變

突變是基因演算法中一種特別的機制，主要是從群組內任選一組染色體，讓染色體內的基因產生變化。突變的目的是為了避免基因演算法過早收斂，以致陷

(24)

入區域解中，而無法搜尋全域最佳解，另一目的則是開發新的搜尋區域，增加求出最佳解的可能。

本篇論文的突變方法是在染色體交配產生新的子代後，讓每個新產生的子代有 5%的基因突變率，突變的方式是將所選取染色體的 25 個基因，亂數選擇一個基因用一個介於 0 至 2 之間的亂數重新取代。

步驟六：終止條件判斷

一般而言，為了避免基因演算法陷入無窮的迴圈裡，必須要有終止條件，條件的分類有以下三種：

1) 達成目標：設定一目標值，若適應值達到此目標則停止。此方法能保證求解的品質，但是若無法達到此適應值，則演算法永遠無法停止。

2) 演化代數：基因演算法演化多少代就停止，此方法的優點是能控制演化時間，不會陷入無窮迴圈中，缺點是無法確定是否收歛找到最佳解。

3) 演算法收斂：若是演算法在經歷好多代後，最佳的適應值皆相同，則此演算法可能已經收斂至某種程度，產生出最佳解。

本篇論文的基因演算法因演化時間繁長，所以選擇演算法收斂當中止條件，

若最佳的適應值連續 3 代皆相同，則中止演化。

(25)

3.2 計算特徵向量

以 MFCC 為基礎之特徵擷取通常會將所有音框(frame)的 MFCC 計算平均值 (

μ

_MFCC)以及標準差(



_MFCC)來形成特徵向量。將相鄰音框的 MFCC 係數進行一階差分處理，所取得的值表示著兩音框之間能量的差距，再將所有音框的一階差分值取平均值就是該聲音訊號的一階差分梅爾倒頻譜係數(



_MFCC)，其計算式為：

1) ( ) ( )

(i  C i C i

C_m _m _m



(3-11)

其中

C 代表第 m 個維度的 MFCC，

_m

 C

_m則代表第 m 個維度的



_MFCC， i 為音框的編號。將相鄰之



_MFCC再進行一階差分處理，可得到二階差分梅爾倒頻譜係數

(



_MFCC² )，其計算式為：

1) ( )

( )

2C_m(i 



C_m i 



C_m i



(3-12)

其中



²C_m代表第m個維度的



_MFCC² 。

以下面三首不同類別(Classical、Electronic、Jazz/Bule)的歌曲為例，其

μ

_MFCC、



MFCC、



_MFCC及



_MFCC² 如圖 3.5 所示，然而不管是



_MFCC還是



_MFCC² ，都可體現音框與音框之間能量的變化，其用來結合

μ

_MFCC與



_MFCC形成特徵向量，具有提升辨識率的效果。

(26)

(a)

μ

_MFCC

(b)



_MFCC

(c)



_MFCC

(d)



_MFCC²

圖 3.5 三種類別音樂其

μ

_MFCC、



_MFCC、



_MFCC及



_MFCC² 之比較

(27)

3.3 訓練資料之重組

在聲音辨識系統中，除了利用多種擷取特徵方法提升辨識率外，辨識的效果往往與訓練資料庫的大小有關，如何擴充資料庫也是辨識系統中重要的部分。

本篇論文提出了新的構想，一個分群的群心向量之所以能代表該群的音樂特徵向量，是因為該分群音樂特徵向彼此間相似性較高，所以我們試著將同類型音樂視為相似性較高的分群，將該音樂類型的特徵向量與該音樂類型的平均向量進行重組，所產生的新特徵向量也必然與該音樂類型的特徵向量較為相似。藉由新特徵向量的產生，我們希望訓練過程更具體整現，並提升辨識效果。資料重組法的詳細步驟如下：

1) 計算所有訓練音樂的特徵向量，並匯入特徵向量資料庫。

2) 先決定特徵向量資料重組所要擴充的倍數，然後挑選出一首音樂的特徵向量，與該音樂類型的平均向量進行重組。重組其公式如下所示：

) 1 (

*



 



 _mean _m

new

v v

v

(3-13)

其中

v 為第m個訓練音樂的特徵向量，

_m

v

_mean為

v 所屬音樂類型的特徵向量平

_m 均，  值介於0至1之間。

3) 將重組產生的新特徵向量加入該音樂類型的特徵向量資料庫。

4) 重新挑選新的特徵向量，重複步驟二、三，直到所有音樂的特徵向量街進行過重組。

(28)

在進行重組之前，必須先決定資料所要擴充的倍數，若要將資料庫擴充至n 倍，則(3-13)對每個

v 執行n-1次，而其中

_m

 值在這n-1次中的值依次設定為

n n n

n

,1 , , 1

1   ，所以一個特徵向量進行重組後產生的新特徵向量

v

_new數量共

有n-1個，再加上原本的特徵向量，即特徵向量擴充至n倍。

以某首類型為Classical為例，我們將資料擴充的倍數設為2倍，如圖 3.6 所示，其中特徵向量

v 由

_m

μ

_MFCC和



_MFCC所組成，維度大小共為40，

v

_mean為該類音樂平均向量及而

v

_new是新特徵向量。

圖 3.6 資料重組法範例圖

(29)

3.4 測試音樂之辨識

在聲音辨識系統中，在計算完訓練音樂向量以及測試音樂向量後，接著就是對測試音樂向量進行辨識；歐基理德距離是一種常用的辨識方法，利用計算兩向量彼此間距離的公式來評估特徵向量的相似度。

本篇論文在辨識測試音樂部份，首先將所有訓練音樂帶入最佳權重計算出

MFCC後，將所得之特徵向量存入訓練音樂特徵資料庫中，再挑選一首訓練音樂帶入最佳權重，取得該訓練音樂之特徵向量，並對訓練音樂特徵資料庫中特徵向量計算歐基理德距離，取距離最近的訓練音樂向量其所屬類型為辨識結果，如果辨識結果和測試音樂所屬類型相同則辨識正確，不同則辨識錯誤。

前面提到每首音樂有四種特徵值包括

μ

_MFCC、



_MFCC、



_MFCC及



_MFCC² 。在此我們計算音樂間特徵差異時，不將此四種特徵值整合成一個較大的特徵向量，而是採用分段的方法去計算，將每一種特徵值各自計算歐基理德距離後，再將所算得的距離值加總，最後以加總的距離值當成辨識的依據。這樣的方式計算出來的距離會和整合式的方式有所差異，進而影響辨識率。若使用分段式歐基理德距離計算以上 4 種特徵值，則判別式如下：

) (

min arg

1 2

1



 

 



c

i

j i m i

j

b x x

(3-14)

其中，

x 為測試樣本的第i種特徵值，

_i x_i^j為第j首訓練音樂的第i種特徵值，c為特

(30)

徵值數量，m為訓練音樂資料庫特徵向量數量，b代表所辨識之音樂類型。

圖 3.7 顯示二首類型均為Classical的音樂前兩種特徵向量(

μ

_MFCC+



_MFCC)的圖形，其歐基理德距離計算結果為19.3542，而分段式歐基理德距離結果為

23.2041。觀察兩種方式所計算出的結果，我們可以發現其差異不小，在進行辨識時會對辨識結果造成不小的影響。

0 5 10 15 20 25 30 35 40

-20 -10 0 10 20

圖 3.7 MFCC特徵向量範例圖

(31)

第4章實驗結果

本篇論文所採用的音樂資料庫為 ISMIR 2004[23]，此音樂資料庫總共有 1458 首歌曲，其中 729 首為訓練用音樂，729 首為測試用音樂，由於 ISMIR 的音樂資料庫是提供音樂辨識系統比賽所用，所以本篇論文的系統所採用的訓練、測試音樂曲目皆為固定。每首音樂為雙聲道 MP3 格式，其取樣頻率為 44.1 kHz，位元率 128 kbps，解析度 16 bits。音樂類型分 6 大類：Classical、Electronic、Jazz/Bule、

Metal/Punk、Rock/Pop、World，若將音樂類型依訓練/測試來分類，可參閱表 4.1。

表 4.1 音樂類型數量分類表

判斷完所有測試音樂類型後，我們就可以依照判斷的結果計算辨識率，辨識率(Recognition rate, RR(%))定義如下：

N

RR(%) N^c (4-2)

其中

N 為辨識正確的音樂數，N 為測試的音樂數。

_c

(32)

在本章節中，將逐一介紹實驗目的以及結果，首先是以 GA 調整權重之辨識效果實驗，其目的是觀察利用 GA 所尋找出的權重是否能有效改善辨識率。再來是特徵向量不同組成之辨識率實驗，其目的在於觀察結合



_MFCC及



_MFCC² 所形成的特徵向量，其辨識效果如何。接著是資料重組對辨識率影響之實驗，目的為觀察訓練音樂特徵向量在經過擴充後，辨識率的多寡。隨後是分段式歐基理德距離計算之辨識率實驗，觀察歐基理德距離與分段式歐基理德距離兩種不同的距離計算方式，對辨識效果的影響。最後則是整體辨識率之比較，將前四種方法整合，觀察在不同方法的組合下，其辨識結果。

4.1 特徵向量不同組成之辨識率實驗

使用 MFCC 特徵值時，除了取其平均值(





_MFCC)做為特徵向量外，本實驗亦比較加入一階差分 MFCC(



_MFCC)以及二階差分 MFCC(



_MFCC² ) 的辨識效果，表 4.4 為辨識結果之比較。分析實驗顯示，特徵向量為

MFCC MFCC





 的辨識率為 75.4458，單獨結合



_MFCC及



_MFCC² 的辨識率分別為 75.4458 與 75.5830，相較於原本的



_MFCC



_MFCC相比，加入



_MFCC² 做結合的特徵向量，其辨識率有所提升，而將四種特徵結合一起後，辨識效果最好，其辨識率為 75.7202。

(33)

表 4.2 結合不同特徵向量之辨識結果統計表

特徵組合 RR(%)

MFCC MFCC





 75.4458

MFCC MFCC

MFCC

 



  75.4458

2 MFCC MFCC

MFCC

 



  75.5830

2 MFCC MFCC

MFCC

  



   75.7202

4.2 以 GA 調整權重之辨識效果實驗

在聲音辨識系統中，由於 MFCC 考慮到人耳對不同頻率的感受程度不同，

所以使用 MFCC 的辨識系統，辨識效果比只使用線性濾波器的線性倒頻譜(LPCC) 更加優秀，因此近年來的研究多半以 MFCC 作為特徵值。

雖然 MFCC 是相當常用的特徵值，但以辨識效果來說，單純使用 MFCC 的辨識率並不是很好，所以就有人提出針對 MFCC 的改良方法，如論文[8]所提出的權重濾波器組分析法(WFBA)，在進行離散餘弦轉換時，以權重對濾波器組能量進行調整。雖然在論文[8]中說明如何利用權重改變辨識結果，但並沒有詳細敘述如何找到最佳權重值，所以本實驗使用 GA 調整 MFCC 三角濾波器之權重以計算特徵值，利用 GA 有系統的尋找最佳權重值。

(34)

將此權重搭配以上兩種特徵值與不帶入權重的辨識結果示於表 4.3。分析實驗顯示，分別用



_MFCC 



_MFCC以及



_MFCC 



_MFCC



_MFCC 



_MFCC² 做為特徵向量，在不改變三角濾波器權重的情況下進行辨識，特徵向量為



_MFCC



_MFCC其辨識率為 75.4458，特徵向量為



_MFCC 



_MFCC 



_MFCC 



_MFCC² 其辨識率為 75.7202。

接著我們利用 GA 分別搭配這兩種特徵向量來訓練最佳權重。此兩組權重分別再搭配所對應的特徵向量，帶入測試音樂進行辨識，得到特徵向量



_MFCC



_MFCC辨識率為 78.4636，特徵向量



_MFCC 



_MFCC 



_MFCC 



_MFCC² 辨識率為 80.6584。

表 4.3 利用 GA 調整權重計算 MFCC 特徵向量之辨識結果比較

方法 RR(%)

MFCC MFCC





 75.4458

MFCC MFCC





 with GA 78.4636

2 MFCC MFCC

MFCC

  



   75.7202

2 MFCC MFCC

MFCC

  



   with GA 80.6584

若以特徵向量為



_MFCC 



_MFCC的辨識結果為例，依照音樂類型展開，其各音樂辨識率如表 4.4 所示。分析可得知，在 World 類型的辨識上有較好的辨識效果，整體而言辨識率有所提升。

(35)

表 4.4 利用 GA 調整權重計算 MFCC 特徵向量之各音樂類型辨識結果比較

音樂類型有權重之

RR(%)

沒權重之 RR(%) Classical 97.8125 96.2500 Electronic 64.0351 64.0351 Jazz/Blue 73.0769 69.2308 Metal/Punk 66.6667 60.0000 Rock/Pop 64.7059 61.7647 World 58.1967 50.0000

4.3 資料重組對辨識率影響之實驗

這個實驗是將訓練音樂特徵向量與該特徵向量所屬音樂類型的平均特徵向量進行重組。本實驗所用的特徵向量為 MFCC 的平均值(



_MFCC)以及標準差 (



_MFCC)，在進行向量重組前，首先先決定擴充參數 n，由於資料庫中的資料量與 辨識時所花費的時間成正比，若 n 設定太大會耗費太多時間，所以在本實驗中 n 的最大值設定為 10，依序將 2 至 10 帶入 n，以觀察在帶入不同大小 n 的狀況下，

資料重組法對辨識結果的影響，圖 4.5 為資料重組法不同 n 值的辨識結果。分析 實驗顯示，以



_MFCC



_MFCC做為特徵向量不使用資料重組法，其辨識率為

75.4458，當 n=2 帶入重組訓練資料後，辨識率便提升至 77.7778，顯示了資料重 組確實能提升辨識效果，但是依序帶入 n=2 至 10 後，我們發現並不是資料量擴 充越大，辨識效果就越好，在本實驗中當 n=3 時，辨識效果最好，其辨識率為

(36)

表 4.5 訓練資料重組法搭配 MFCC 辨識結果統計表

方法 RR(%)

MFCC MFCC





 75.4458

MFCC MFCC





 with n=2 77.7778

MFCC MFCC





 with n=3 78.1893

MFCC MFCC





 with n=4 77.9150

MFCC MFCC





 with n=5 76.9547

MFCC MFCC





 with n=6 77.6406

MFCC MFCC





 with n=7 76.9547

MFCC MFCC





 with n=8 77.6406

MFCC MFCC





 with n=9 77.0919

MFCC MFCC





 with n=10 77.3663

4.4 分段式歐基理德距離計算之辨識率實驗

在本實驗中，以 MFCC 的平均值(





_MFCC)做為特徵向量，在辨識方面分別使用歐基理德距離與分段式歐基理德距離，辨識結果示於表 4.6。分析實驗顯示，使用歐基理德距離辨識測試音樂，其辨識率為 75.4458，而改用分段式歐基理德距離進行辨識時，則辨識率為 78.1893，辨識效果略有提升。

(37)

表 4.6 特徵參數 MFCC 使用歐基理德距離與分段式歐基理德距離辨識結果統計表

方法 RR(%)

MFCC MFCC





 75.4458

MFCC MFCC





 with 分段 78.1893

4.5 整體辨識率之比較

根據以上實驗的結果，單獨使用上面的四種方法皆能使辨識率有不同程度的提升，所以本實驗將試著以 GA 為主，搭配其他方法進行辨識。首先我們先將 GA 單獨搭配其他三種辨識方法，接著比較四種特徵值

μ

_MFCC、



_MFCC、



_MFCC 及



_MFCC² ，在使用分段式歐基理德距離和不使用的差異，最後再加入資料重組法 並結合另兩種方法，觀察 n 帶入 2 至 10 時，對辨識效果的影響，辨識結果示於 表 4.7，在表 4.7 的方法欄位中，A 代表利用 GA 尋找三角濾波器最佳權重，B 代表使用分段式計算歐基理德距離，C(n)代表利用資料重組法，將訓練資料庫擴 充至 n 倍。分析實驗顯示，以 GA 搭配結合四種特徵值

μ

_MFCC、



_MFCC、



_MFCC及

2



MFCC的特徵向量，其辨識率為 80.6584，利用 GA 撘配分段式計算歐基理德距離的辨識率為 81.3443，在 GA 搭配資料重組方面，當訓練資料擴充為 8 倍時辨識效果最好，其辨識率為 84.0878，最後觀察 GA 搭配結合四種特徵值並分段計算 歐基理德距離再分別帶入 n=2 至 10 擴充訓練資料，我們得到在訓練資料擴充至 9 倍時，辨識效果最好，其辨識率為 85.0480，而詳細辨識結果如表 4.8 所示。

(38)

表 4.7 整體辨識率比較統計表

特徵組合方法 RR(%)

A 78.4636

A,B 81.3443 A,B,C(2) 83.4019 A,B,C(3) 83.2647 A,B,C(4) 83.4019 A,B,C(5) 83.5391 A,B,C(6) 83.4019 A,B,C(7) 83.9506 A,B,C(8) 84.0878 A,B,C(9) 83.5391

MFCC MFCC







A,B,C(10) 83.9506

A 80.6584

A,B 81.6187 A,B,C(2) 84.4993 A,B,C(3) 84.4993 A,B,C(4) 84.6365 A,B,C(5) 84.9108 A,B,C(6) 84.4856 A,B,C(7) 84.7737 A,B,C(8) 84.2249 A,B,C(9) 85.0480

2 MFCC MFCC

MFCC

  



  

A,B,C(10) 84.7737

(39)

表 4.8 最佳辨識結果詳細分類表

實際\辨識 Classical Electronic Jazz/Blue Metal/Punk Rock/Pop World

Classical 315 0 0 0 0 5

Electronic 2 94 1 1 6 10

Jazz/Blue 0 1 18 0 3 4

Metal/Punk 0 1 0 33 11 0

Rock/Pop 3 7 1 10 73 8

World 16 12 1 0 6 87

(40)

第 5 章結論與展望

在本篇論文中，我們提出一個以基因演算法尋找最佳權重的曲風辨識系統，

首先以梅爾倒頻譜為基礎，變型出一階差分梅爾倒頻譜係數和二階差分梅爾倒頻 譜係數，實驗中，使用梅爾倒頻譜係數的平均值與標準差對 729 首的測試音樂進 行辨識，辨識率達到 75.4458%，加入一階差分梅爾倒頻譜係數和二階差分梅爾 倒頻譜係數進行辨識，則辨識率上升 0.2744%，達到 75.7202%。接著在辨識方 面，分段式歐基理德距離比歐基理德距離的辨識效果提升了 2.7435%，達到

78.1893%；使用資料重組法的平均辨識效果比不使用提升了 2.0576%，達到

77.0534%。最後使用基因演算法尋找最佳權重，並加入以上三種方法，最後辨

識率達到 85.0280%。

以下就本論文的研究結果歸納成下面幾個結論：

1. 利用 GA 尋找最佳權重，能有效的提升辨識率

2. 在選取特徵值方面，結合一階差分梅爾倒頻譜係數與二階差分梅爾倒頻譜係數後有較高的辨識率。

3. 利用資料重組法擴充特徵向量資料庫能增加辨識率，但目前還無法找出資料庫擴充的最佳倍率為何。

4. 利用分段式計算歐基理德距離，其辨識結果比不使用分段式計算歐基理德距

(41)

離更好。

以下列出未來可以發展的方向及本論文所不足的地方，在特徵值選取方面，

除了一階差分梅爾倒頻譜係數與二階差分梅爾倒頻譜係數外，還能結合其他特徵擷取方法。在資料重組方面，不是選取該類音樂類型平均向量，而是採用同類型音樂任意兩項量結合，觀察其對辨識結果之影響。

(42)

參考文獻

[1] L.R. Rabiner and B.H. Juang, Fundamentals of Speech Recognition, Englewood Cliffs, NJ: Prentice-Hall, 1993.

[2] Robert J. Schilling and Sandra L.Harris, Fundamentals of Digital Signal

Processing, Clarkson University Potsdam, NY.

[3] Y. Y. Shi, X. Zhu, H. G. Kim and K. W. Eom, "A tempo feature via modulation spectrum analysis and its application to music emotion classification", in proc. of

the 2006 IEEE International Conference on Multimedia and Expo (ICME),

pp.1085-1088, July 2006.

[4] S. Umesh and Rohit Sinha, “A Study of Filter Bank Smoothing in MFCC Features for Recognition of Children's Speech”, IEEE Trans. on Audio, Speech

and Language Processing, Vol. 15(8), pp. 2418-2430, November 2007.

[5] G.C. Carter, A.H. Nuttall, and C.K. Yuen, “On the weighted overlapped segment averaging method for power spectral estimation”, Proceedings of the

IEEE, 68(10), 1352-1354.

[6] W.W. Hung and H.C. Wang, “On the use Weighted Filter Bank Analysis for the derivation of Robust MFCCs”, IEEE Signal Processing letters, Vol. 8, No.3, March 2001.

[7] S. Davis, and P. Mermelstein, “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences”, IEEE

Transactions on Acoustics, Speech, and Signal Processing, Vol. 28, pp. 357-366,

Aug 1980

[8] J. Sungyun, S. Jongmok, and B. Keunsung, “Telephone Speech Recognition with Data-Driven Selective Temporal Filtering based on Principal Component Analysis”, School of Electronic and Electrical Engineering, Kyungpook National University, Daegu 702-701, Korea

[9] C. Senac, and E. Ambikairajah, “Audio Classification for Radio Broadcast

(43)

Indexing: Feature Normalization and Multiple Classifiers Decision”, Advances in Multimedia Information Processing - PCM 2004, 5th Pacific Rim Conference on Multimedia, Tokyo, Japan, November 30 - December 3, pp. 882-889.

[10] A. Deemagarn and A. Kawtrakul, “Thai Connected Digit Speech Recognition Using Hidden Markov Models”, Natural Language Processing and Intelligent Information System Technology Research Laboratory, Department of Computer Engineering, Kasetsart University, Bangkok, 10900, THAILAND

[11] Huiyu Zhou, Abdul Sadka and Richard M. Jiang, Feature Extraction for Speech

and Music Discrimination, Brunel University, Uxbridge, Middlesex, United

Kingdom.

[12] H. Sakoe and S. Chiba, “Dynamic Programming Optimization for Spoken Word Recognition,” IEEE Trans on ASSP, Vol.26, pp 43-49, Feb. 1978.

[13] C. Myers and L.R. Rabiner, “Performance Tradeoffs in Dynamic Time Warping

Algorthms for Isolated Word Recognition,” IEEE Trans on ASSP, Vol.28, No.6,

pp 623-635, Dec. 1980

[14] 吳樂南，”資料壓縮的原理與應用”，儒林圖書公司，1996

[15] L.R. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition,” IEEE Trans on ASSP, Vol.77 No.2 pp 257-286, Feb.

1989.

[16] T. Masuko, T. Kobayashi, and T. Kitamura, ”Speech parameter generation

algorithms for HMM-based speech synthesis,” Proc. of ICASSP, pp.1315-1318,

June 2000.

[17] 倪慧雯，”以HMM建立音節類型模型的鳥種辨識系統”，中華大學資訊工程

學系碩士論文，2004

[18] D.P. Morgan and C.L. Scofield, Neural Networks and Speech Processing, Kluwer Academic Publisher, Netherlands, 1991.

[19] 劉邦信，”以決策類神經網路為基礎的鳥聲辨識系統”，中華大學資訊工程學

系碩士論文，2004

(44)

[20] 陳松琳，”以類神經網路為架構之語音辨識系統”，國立中山大學電機工程學

系碩士論文，2002

[21] J. H. Holland, “Adaptation in Natural and Artificial Systems”, The University Michigan Press, Ann Arbor , 1975.

[22] Van De Vegte, Fundamentals of Digital Signal Processing, Prentice Hall, 2002, Canada

[23] http://ismir2004.ismir.net/

(45)

附錄一

方法 A：用 GA 尋找三角濾波器最佳權重方法 B：使用分段式計算歐基理德距離

方法 C(n)：用資料重組法，將訓練資料庫擴充至 n 倍

特徵組合方法 RR(%)

75.4458 A 78.4636 B 78.1893 A,B 81.3443 B,C(2) 77.7778 B,C(3) 78.1893 B,C(4) 77.9150 B,C(5) 76.9547 B,C(6) 77.6406 B,C(7) 76.9547 B,C(8) 77.6406 B,C(9) 77.0919 B,C(10) 77.3663 A,B,C(2) 83.4019 A,B,C(3) 83.2647 A,B,C(4) 83.4019 A,B,C(5) 83.5391 A,B,C(6) 83.4019 A,B,C(7) 83.9506 A,B,C(8) 84.0878 A,B,C(9) 83.5391

MFCC MFCC







A,B,C(10) 83.9506 75.7202 A 80.6584 B 76.8176

2 MFCC MFCC

MFCC

  



  

A,B 81.6187

(46)

B,C(2) 78.6008 B,C(3) 78.8752 B,C(4) 78.8752 B,C(5) 78.8752 B,C(6) 78.8752 B,C(7) 78.8752 B,C(8) 78.6008 B,C(9) 78.8752 B,C(10) 79.0123 A,B,C(2) 84.4993 A,B,C(3) 84.4993 A,B,C(4) 84.6365 A,B,C(5) 84.9108 A,B,C(6) 84.4856 A,B,C(7) 84.7737 A,B,C(8) 84.2249 A,B,C(9) 85.0280

2 MFCC MFCC

MFCC

  



  

A,B,C(10) 84.7737

中 華 大 學 碩 士 論 文