理論基礎與文獻探討 - 以情緒感受為基礎之自動音樂選曲系統

本章將討論本篇研究所涉及之理論基礎與相關文獻討論。第一節討論背景知識，主要的內容為多媒體數位資料庫、數為音樂檔案格式；第二節討論內涵式音樂資訊檢索的相關文獻；第三節針對自動化歌曲選擇系統之文獻探討；第四節討論音訊前處理步驟之相關文獻；第五節針對特徵萃取之相關文獻作討論；第六節討論相似度演算法之相關文獻；第七節討論本篇研究涉及之音樂心理學範疇。

2.1、背景知識

音樂資訊檢索是多媒體資訊檢索中的一支。多媒體資料包括圖片、聲音、影片等。多媒體資訊檢索則是針對大量的多媒體資料有效的找出所需要的資料的技術。而音樂資訊檢索則是針對音樂資料開發智慧型的檢索技術。

數位資料庫以使用者輸入的資料型是可分為兩種：以文字為基礎的檢索(text based retrieval)和以內容為基礎的檢索(content based retrieval)[7]。在以文字為基礎的檢索形式中，使用者輸入描述內容的文字作為資料庫中檢索比對資料的依據，

常用於查詢音樂內容的文字如：作曲者、曲名、專輯名稱等。在圖書館學中用來描述資料的文字又被稱為metadata，中文議為後設資料、詮釋資料或元資料。

以內容為基礎的檢索形式中，則沒有特定的輸入方式，通常根據檢索的資料內容設計人機互動界面。以midomi²這個線上音樂搜尋引擎網站為例，依據使用者吟唱或哼唱歌曲中的內容檢索音樂檔案，使用者對著麥克風哼唱歌曲即可查詢歌曲內容。

以內容為基礎的檢索又被稱為內涵式音樂資訊檢索，依據檢索音樂檔案格式的差異，開發搜尋引擎的技術也不相同。另外在檢索音樂的策略上，以內容作為檢索的依據將更加人性化，提供使用者更多的選擇。第二節將詳細討論內涵式音樂資訊檢索系統。

最後數位音樂檔案格式依照儲存資料的內容可分為兩大類，符號資料與音頻資料。第一種符號資料是記錄音樂符號資料的如音高、調性、節拍、速度等，此類型的檔案格式為：MIDI、XML。另一種音頻資料則是記錄聲波大小的檔案格式，儲存音樂在經過錄音、混音後的聲波資料，這種檔案格式可分為未經壓縮的編碼，例如：wave；以及經資料壓縮的編碼格式，例如：wma、mp3[7]。

2.2、內涵式音樂資訊檢索

內涵式音樂資訊檢索依據檢所資料類型的不同可分為兩大類 [9]：(1) 由符號資料搜尋 (Search by symbolic data)；(2) 由音頻資料搜尋 (Search by audio data)。下面兩小節將分別討論。

2.2.1、由符號資料檢索

符號資料 (symbolic data) 指的是儲存音樂符號的檔案格式，例如：MIDI、

XML。在特徵萃取時可直接取得音高、節拍、速度、音色的訊息。再經由特定演算法的運算找出音樂的旋律、調性、節奏等音樂特徵。此類型現有的資料庫有 C-Brahms、GUIDO/MIR、Orpheus、Probabilistic “Name That Song”、PROMS 等 [9]。

陳若涵 [10]發表之論文探討基於音樂內容的情緒分析與辨識。音訊檔案採用符號資料格式的MIDI檔。用不同的分類器演算法包括：KNNR、GMM、SVM、

Fuzzy KNNR，實驗結果顯示KNNR得到最佳的辨識率。特徵選擇方面，在古典樂曲的測試中計算音樂的調性、音高平均和力度平均；在流行音樂中選則以鼓組出現的時間和鼓組密度作為特徵向量。

Yeh 等人[13]則提出個人化之音樂情緒預測系統。採用決策樹演算法依據使用者的背景資料建立音樂預測的模型。音樂特徵則選用平均音高和音調。使用者的背景資料包括：年齡、性別、教育程度、居住地等。音樂特徵則使用平均音高、

音高標準差、音程平均、音程標準差、速度、響度、音色、調性等。

Hu等人 [12]提出之論文則使用動態時間校正(dynamic time warping, DTW)演

算法比對相同歌曲之音頻檔案格式和音樂符號檔案格式。特徵萃取的部分則比較四種不同演算法，分別是Chroma、Pitch Histogram、MFCC、Normalized MFCC (NMFCC)。Chroma演算法將頻譜中的頻率直接轉換成最接近的音高單位，並計算每一個音高單位內的能量大小。Pitch Histogram演算法計算出每一個音框中能量最大的頻率作為此音框之代表音高。分別計算各別音框之音高後統計直方圖。

MFCC則是將頻譜中頻率的刻度表示成符合人體聽覺的刻度。NMFCC則是正規化後的MFCC向量。實驗結果顯示Chroma演算法萃取出之特徵具有最高的正確率，其次是Pitch Histogram演算法，MFCC演算法則最低。

2.2.2、由音頻資料檢索

由音頻資料搜尋 (search by audio data) 的資料庫則是用紀錄音樂在錄音及混音後之聲波波形的檔案格式，也是一般使用者常用來聆聽的檔案格式，例如：

wav、wma、mp3。在這種檔案格式中，無法直接得到音高、節拍、速度、音色等音樂特徵，必須經由特定演算法從波形大小中計算出音樂的訊息；亦或是計算聲學特徵。特徵萃取的演算法將在 2.3 節中討論。此類型現有的資料庫有 audentify! 、 CubyHum 、 Cuidado 、 Cornell’s“QBH” 、 Shazam 、 SOMeJB 、 SoundCompass、Super MBox[9]。

基於不同的音樂內容則會使用不同的特徵作為檢索的依據，Tzanetakis和 Cook在2001年提出的研究則是用音頻資料開發出音樂類別的分類系統，所使用之特徵為音色、節奏、音高，即便採用的搜尋資料為音頻資料，仍然自行開發演算法，計算出音樂特徵[13]。Jiang等人[14]也提出音樂類別的分類系統，則直接使用頻譜上的聲學特性做為特徵。這兩篇論文所要找出的音樂訊息相同，然而提出之特徵不全然相同。

在音頻資料的音樂情緒辨識系統方面，大多採用心裡學家研究提出之情緒模型做為情緒分類的依據，例如Tayer提出之情緒模型[46]將人類的情緒反應以二維平面表示。在分類器上則有GMM、回歸統計和系統判別(system identification)的

作法。Lu等人[15]發表從音樂訊號中自動偵測情緒與追蹤之論文，分類器用GMM 演算法採用階層式分類架構偵測音樂的情緒類別。在分類器使用的特徵則選用強度特徵、音色特徵、節奏特徵。各項特徵均從波形檔案中萃取得出。另外，情緒追蹤則是將音樂分成不同的片段，分節按照時間順序偵測出其所表示的情緒類別。Korhonen等人[16]則用System identification演算法建立音樂情緒內容的資料模型。

相較於類別式的情緒分類，另一種情緒分類系統則是以連續的型情緒模型做為分類的依據，此這情緒模型將情緒以感受程度的深淺表示，是具有連貫性的。

Yang等人[17]則提出採用連續的情緒模情之概念開發出情緒識別系統。情緒不再只屬於單一種情緒類別，而是有感受程度上的差異。論文中採用回歸統計的作法[18]，並將統計完成之結果表示在一個二維平面上。圖像式的表示方法更加符合人類心理的感受程度。選用特徵方面則用PsySound、Marsyas、spectral contrast、

DWCH等多個演算法萃取而得。Wu和Jeng[19]提出之研究則是用SVM訓練萃取後之音訊資料。一首歌曲有可能屬於不同的情緒類別中，因此將歌曲的情緒類別則用機率方式表示。表示一首歌曲在各個情緒類別中使人感受到的程度高低。

2.3、自動化歌曲選擇系統

自動化歌曲選擇系統指的是依據使用者聆聽音樂的需求，自動篩選音樂內容並編排曲目順序，是內涵式音樂資料檢索技術之應用。下面章節將介紹相關的技術，依照分析內容的資料格式分為由文字資料檢索(text based retrieval)以及由音樂內容檢索(content based retrieval)。

2.3.1、由文字資料檢索

Field等人發表之論文 [20]提出一個音樂曲目選擇與編輯的系統，以metadata 作為分析的資料。論文中提出建立個人化的歌曲選擇系統必須蒐集音樂資料及使用者的資料，並且討論如何取得合適的資料。論文中歌曲的資料以情緒表示，情緒被分成四個類別分別為：狂暴的(angry)、冷淡的(chilled)、歡快的(upbeat)、不

屬於前述類別的(non)，每一個情緒類別又分成四個等級以 0 到 3 表示。

Pauws和Eggen發表的論文 [21]同樣的也是處理對於音樂標記的詮釋資料開發開個人化之音樂自動選曲系統： PATS (Personalized Automatic Track Selection)。分析之音樂類型為爵士樂。分析的詮釋資料有：曲目名稱、主要演出者、專輯、廠牌、年代、風格、速度、樂器編制、獨奏者、作曲家、製作人、錄音地點、是否為現場表演、節拍等。

2.3.2、由音樂內容檢索

Li和Ogihara發表的論文 [22]研究以聲學特徵為基礎的音樂資訊檢索，音樂資訊檢索的問題主要討論兩個問題：第一問題討論是如何由一個用來當作檢索的音檔搜尋與它聲音相似的音樂檔案；第二個討論的問題則是如何偵測音樂中的情緒。特徵萃取演算法結合小波轉換和由MARSYAS萃取出之音色特徵。相似度量測步驟中則採用歐基理德距離對正規化後之特徵計算歌曲的相似程度。測試的音樂類型為爵士樂與古典樂。

Foote 發表之論文 [23]用聲學特徵做為衡量音樂內容相似度的依據，論文中以MFCC演算法作為聲學特徵，特徵萃取步驟後以自行開發的Q-Tree演算法將特徵向量作數值上的量化，第三步驟將資料庫中量化後的特徵比對相似度，文章中所測試的相似度驗算法為：歐基理德距離和餘弦距離，最後以相似度大小排序，

列出與檢索歌曲相似的歌曲。

Lagan和Salomon提出之論文 [24]主要研究問題有二點；首先如何由在距離平面上的軌跡圖形自動產生音樂播放清單；第二研究如何由使用者的回饋的資訊自動產生播放清單。研究結果發現，當分析時加入歌曲的詮釋資料可以提高正確率，因此建議未來的研究當中可以加入合適且可以取得的詮釋資料提高分析的正確率，文章中提及的詮釋資料為音樂類型。特徵萃取用音樂訊號的頻譜表示；資

在文檔中以情緒感受為基礎之自動音樂選曲系統 (頁 15-28)