• 沒有找到結果。

系統實作及實驗討論

在這個章節中第一節討論系統實作的步驟與測試的音樂檔案格式和內容;第 二節討論主觀測試的方法及實驗結果;第三節說明特徵萃取演算法的實驗以及針 對實驗結果與理論比較的討論;第四節說明相似度驗算法的實間以及針對實驗結 果與理論比較的討論;第五節討論音樂片段的時間長度與檢索效能的關連;第六 節比較系統中各步驟與測試演算法的執行時間。

4.1、系統實作

本段將探討如何測試不同演算法及效能,目的是為找出最接近人類聆聽音樂 感知的演算法。細部的測試系統流程如圖 12 所示。首先準備測式音樂資料庫 (testing music database),從作者個人數位音樂檔案蒐藏中隨機挑選 161 首歌曲。

隨機的方式為挑選每張音樂專輯中曲目順序為三的歌曲。音樂檔案蒐集完成後對 音樂檔案的內容進行主觀資料的標記。音樂檔案格式為 Mp3。後面章節將分別 敘述在資料標記、音樂訊號前處理、特徵萃取、相似度量測、主觀測試所用到的 演算法與效能比較。

圖 12:細部系統架構流程圖

4.1.1、資料標記

主觀資料標記的目的是為了解人類對於音樂內容的主觀認知。本文中音樂內 容的分類有兩大主題:音樂類型與情緒感受。音樂類型的分類本文參考Allmusic 網站4之分類方法,音樂類型分類採用階層式的分類方法,第一層被區分為十一 大類:流行及搖滾(Pop/Rock)、爵士(Jazz)、節奏藍調(R&B)、鄉村(Country)、藍 調(Blues)、電子樂(Electronic)、拉丁(Latin)、雷鬼(Reggae)、世界(International)、

古典(Classical),本文以這十一大類作為音樂類型分類的音樂內容主觀標記。另 一組主觀標記的資料為情緒感受,情緒感受的分類參考論文 [47]提出的形容詞 圈,學者將常用於形容音樂情緒的形容詞整理列表並將形容詞分成八大類。受測 者在聽完音樂後,從形容詞圈中提到之形容詞中找出主觀判斷上與個人情緒感受 最接近的形容詞標記音樂檔案,依照受測者標記的形容詞即可找出情緒感受的分 類。本次測試所用的形容詞中英文對照表參考附錄,測試資料庫中所有的曲目與 主觀標記資料也可參考附錄。

4 All Music, http://www.allmusic.com

4.1.2、內容分析

測試音樂資料庫經過主觀資料標記後,可針對音樂內容分析資料,作為演算 法效能評斷的參考。測試音樂資料庫中包含的歌曲類型有流行搖滾(52%)、爵士 樂(32%)、鄉村音樂(10%)、電子樂(3%)、節奏藍調(0.4%)、電影配樂(0.9%)、拉 丁(0.7%),如圖 13 所示。

圖 13:測試音樂資料庫音樂類型分析直條圖

情緒感受的類別分析中,測試音樂資料庫中包含的情緒感受屬於第一類占 1.9%、第二類占 14.9%、第三類占 19.9%、第四類占 14.3%、第五類占 21.7%、

第六類占 9.9%、第七類占 11.2%、第八類占 6.2%,如圖 14 所示。

圖 14:測試音樂資料庫情緒感受分析直條圖

4.2、主觀測試

本文以查準率(precision)測試檢索效能,查準率的數學式如式(24)。查準率常 用於評斷搜尋引擎的效能。分母為抓回音樂檔案總數,也是在相似度量測後的排 序前 N 名的曲目;查準率的分子為抓回來的相關音樂檔案數目,相關音樂檔案 的判斷分為音樂類型相關與情緒感受相關,詳細內容將在後面章節討論。

Precision Relevant Music Files Retrieval / Total Retrieval Music Files (Total Retrieval Music Files = 5, 10, 15, 20, 40)

= ( 24 )

4.2.1、音樂類型測試

在音樂類型測試裡,所有相關音樂檔案(total retrieval music files)被定義為與 檢索歌曲類別的歌曲,因此依序檢查每一首歌曲的音樂類型,如果它與檢索歌曲 的音樂類型相同則得到一分;反之與檢索歌曲的音樂類型不同則沒有得到分數。

圖 15 以節奏特徵和餘弦距離這組演算法作為一個例子,可以看出在音樂類型的 測試中,抓回的音樂檔案數目在 10 以上,查準率在圖上有一個明顯的下降,因 此在設計搜尋引擎時建議的抓回音樂檔案總數要小餘 10。

圖 15:音樂類型之檢索效能 4.2.2、情緒感受測試

由於在聆聽音樂時,不同歌曲的情緒變化是可以被接受的,因此在這裡所有 相關音樂檔案(total retrieval music files)的定義是,與前一首歌曲的情緒類別差異

為 2 的歌曲,如式(25)表示。如果它與前一首歌曲的情緒類型差小於或等於 2 則 得到一分;反之與前一首歌曲情緒類別的差大於 2 則沒有得到分數。圖 16 中的 例子是音色特徵與歐基理得距離。

(

1

) ( )

2

EmotionLabel n+ −EmotionLabel n ≤ ( 25 )

圖 16:情緒感受之檢索效能 4.3、特徵萃取實驗

特徵萃取演算法分成兩部分討論:訊號處理演算法、數值統計演算法。由第 三章的討論可知,頻譜特徵測試三種訊號處理演算法,分別是:FFT、MFCC、

CQT;頻譜特徵所用的數值統計演算法為 AVG;音程特徵所用的數值統計演算 法為 DIFF;節奏特徵所用的數值統計演算法為 ACF;音色特徵所用的數值統計 演算法為 FLUX。下面將分別討論實驗結果。

4.3.1、訊號處理演算法

在這個小節討論三種訊號處理演算法,分別在不同的音樂內容中的檢索效 能。三種演算法分別是:FFT、MFCC、CQT;三種音樂內容分別是:音樂類型、

情緒感受、音樂類型和情緒感受的平均。此外這個實驗的目的是比較三種訊號處 理演算法的效能,因此數值統計和相似度量測演算法必須相同。在這個實驗中,

數值統計演算法為平均頻譜特徵(AVG)。檢索效能以平均查準率表示,實驗數據 與圖表列在下面文章中。訊號處理演算法分別在三種內容下的檢索結果列在表 1 中;圖 17 和圖 18 分別是訊號處理演算法在分析音樂片段的長度在不同時距下之 檢索效能的比較圖;實驗結果的討論在 4.6 節說明。

音樂類型 情緒感受 類型和感受

長時距 短時距 長時距 短時距 長時距 短時距 FFT 82.4 83.33 41.46 56.46 61.93 69.9 MFCC 45.97 57.19 73.75 70.83 59.11 64.01 CQT 70.1 71.77 45.94 45.83 58.02 58.8

表 1:訊號處理演算法檢索效能比較數據表

圖 17:訊號處理演算法檢索效能比較 (長時距音樂片段分析)

圖 18:訊號處理演算法檢索效能比較 (短時距音樂片段分析) 4.3.2、數值統計演算法

在這個小節討論在四種特徵萃取演算法中所採用的四種數值統計演算法,分 別在不同的音樂內容中的檢索效能。四種數值統計演算法分別是:在頻譜特徵中 的音框平均(AVG)、在音程特徵中的音框差(DIFF)、節奏特徵中的自相關係數和 波鋒偵測(ACF)、在音色特徵中的頻譜通量(FLUX);三種音樂內容分別是:音樂 類型、情緒感受、音樂類型和情緒感受的平均。檢索效能以平均查準率表示,實 驗數據與圖表列在下面文章中。數值統計演算法分別在三種內容下的檢索結果列 在表 2 中;圖 19 和圖 20 分別是數值統計演算法在分析音樂片段的長度在不同時 距下之檢索效能的比較圖;實驗結果的討論在 4.6 節說明。

音樂類型 情緒感受 類型和情緒

長時距 短時距 長時距 短時距 長時距 短時距 頻譜特徵 66.16 70.76 53.72 57.71 59.69 64.24 音程特徵 61.46 62.4 74.03 64.48 67.74 63.44 節奏特徵 69.34 70.59 61.35 53.44 65.35 62.01 音色特徵 47.08 40.52 60.83 68.75 53.96 54.64

表 2:數值統計演算法檢索效能比較數據表

圖 19:數值統計演算法檢索效能比較 (長時距音樂片段分析)

圖 20:數值統計演算法檢索效能比較 (短時距音樂片段分析)

4.4、相似度演算法實驗

在這個小節討論四種量測相似度之演算法,分別在不同的音樂內容中的檢索 效能。四種演算法分別是:歐基理德距離(ED)、餘弦距離(CD)、相關係數(CO)、

卡方測定(CS);三種音樂內容分別是:音樂類型、情緒感受、音樂類型和情緒感 受的平均。在這個實驗中以前面四種特徵的平均查準率表示檢索效能,訊號處理 演算法為 FFT,實驗數據與圖表列在下面文章中。

相似度演算法分別在四種內容下的檢索結果列在表 3 中;圖 21 和圖 22 分別

是相似度量測演算法在分析音樂片段的長度在不同時距下之檢索效能的比較 圖;實驗結果在 4.6 節討論。

音樂類型 情緒感受 類型與情緒

長時距 短時距 長時距 短時距 長時距 短時距 ED 58.92 57.64 65.9 62.78 62.41 60.21 CD 60.1 62.4 60.59 63.02 60.35 62.71 CO 61.81 64.31 60.42 58.85 61.11 61.58 CS 63.61 59.93 62.12 59.72 62.86 59.83

表 3:相似度量測演算法檢索效能比較數據表

圖 21:相似度演算法檢索效能比較 (長時距音樂片段分析)

圖 22:相似度演算法檢索效能比較 (短時距音樂片段分析)

4.5、執行時間比較

本次實驗所用之機器規格為 2.16G 的 CPU 和 3G 的 RAM。作業系統為 windows VISTA。所使用的軟體是 MATLAB。以測試音樂資料庫的前三首歌曲的 資料做小規模的測試比較各步驟與各演算法的運算時間。

首先測試訊號處理演算法,在這裡測試三種訊號處理演算法用在計算頻譜特 徵所花費的時間長短,相似度演算法為歐基理德距離,數據表示在表 4 中。

演算法 執行時間 (s)

FFT 56.217 MFCC 74.406

CQT 68.2795 表 4:訊號處理演算法運算時間比較

最後測試系統中三個步驟分別花費的執行時間,前處理的步驟包含:mp3 檔案的解碼5、降取樣、音樂片段分割;特徵萃取演算法以節奏特徵作為代表,

訊號處理演算法為CQT;相似度演算法以歐基理德距離為例子。數據表示在表 7。

演算法 執行時間 (s)

前處理 22.0193

特徵萃取 486.7898

相似度 0.0949

表 7:系統中各步驟運算時間比較

4.6、實驗討論

A、主觀測試

(1) 音樂類型測試

在音樂類型的測試裡,檢索效能最高的演算法是 CQT 與音程特徵及餘弦距 離的相似度量測在長時距的音樂片段分析之下,平均查準率達 94.17%。最低的 檢索效能的演算法為 MFCC 與音色特徵及餘弦距離的相似度量測在短時距的音 樂片段分析之下,平均查準率為 12.50%。所有演算法的實驗數據可參考附錄。

(2)情緒感受測試

在情緒感受的測試裡,檢索效能最高的演算法是 MFCC 與頻譜特徵及餘弦 距離的相似度量測在長時距的音樂片段分析之下,平均查準率達 98.75%。最低 的檢索效能的演算法為 FFT 與頻譜特徵及卡方測定的相似度量測在長時距的音 樂片段分析之下,平均查準率為 32.08%。所有演算法的實驗數據列在附錄中。

B、特徵萃取演算法

特徵萃取演算法分成訊號處理演算法和數值統計演算法兩部分討論。在訊號 處理演算法的討論中,以訊號處理演算法在四種特徵萃取演算法下的平均查準率 討論實驗結果並歸納分析。在數值統計演算法的討論中,以三種訊號處理演算法

的平均查準率討論實驗結果並歸納分析。

的平均查準率討論實驗結果並歸納分析。

相關文件