• 沒有找到結果。

一、 緒論

1-1

研究動機

音樂自古以來一直是日常生活中甚至是人文藝術上不可或缺的角色。而隨著時 代的演進,科技的進步讓人們聆聽音樂的習慣也跟著改變,隨著音樂載體的不斷演 進,黑膠、唱片到卡帶乃至於 CD,不但音質越來越好、容量越來越多也更方便取 得和攜帶,但隨著 mp3 和網際網路的蓬勃發展使得音樂一口氣邁向數位化,甚至於 踏入雲端資料庫的發展。快速的網路和小容量的 mp3 衝擊傳統唱片業,改變人們的 消費習慣和聆聽習慣,線上的付費數位下載漸漸成為趨勢,類似的網站如:itunes、

KKBOX、iNDIEVOX…等,購買後可以於任何地方隨時自網站資料庫中下載聆聽。

於是當未來音樂都邁向數位化收藏時,除了現有的音樂標籤如:歌手、專輯、曲風、

年份…等,音樂情緒分類也是熱門的研究主題。而在倫敦大學有研究[1]指出對於消 費者而言,在音樂中情緒的感受是相對重要的訊息,如下圖:

圖 1. 各種 MIR 系統相對應的區域圖 資料來源:[1]

近年來針對音樂訊號內容的檢索是熱門的研究,除了哼唱檢索(QBH)外,由於音樂 內容的情緒分析的進步,更進一步的發展出情緒檢索(QBE)成了近期音樂的新型檢索方 式。在各種平台上都可見到各種不同的音樂檢索系統,尤其在新式智慧型手機上也有依

2

據情緒的音樂檢索系統,但是都為將每一首歌視為單一情緒的分類,還尚未見到有針對 時間變化、隨歌曲撥放引發情緒變化的相關系統。但是在歌曲的製作和譜寫上已有起承 轉合的起伏安排,所以當在聆聽歌曲時應是有著情緒的起伏,這也是音樂之所以能感動 人心的地方。因此本研究主要針對隨時間變化的情緒成分分析做探討。

1-2

系統簡介

在這一章節中會依序對音樂情緒分析(Music Emotion Recognition,MER),相關 研究內容做個介紹,首先 1-2-1 是 MER 中常見的核心理論-音樂情緒模型;1-

2-2 則介紹關於 MER 常見的音訊特徵值;1-2-3 簡單介紹多媒體內容描述介面 的標準-Mpeg-7;1-2-4 採用音樂分析的觀點探討樂理和情緒關聯;1-2-5 則 介紹了相關研究中常見作為情緒分類的演算法。

1-2-1

音樂情緒模型

音樂與情緒間相關聯在心理學上已經有許多研究,詳細的發展文獻[2]中有詳細 介紹,文中提到關於音樂情緒分類的研究主要可分為兩種:(1)類別式(2)連續式,其 中類別式有重要影響力研究的來自 1936 年 Hevner 提出的 adjective clock,其中包含 了 8 種情緒群聚,每個群組涵蓋 6 到 11 種情緒形容詞,這個模型也在 2003 年由 Schuert 結合二維情緒模型後提出進階版,如下圖:

圖 2. Hevner’s adjective clock 進階版本 資料來源:[2]

3

在 Hevner 之後陸續有許多學者發表相關研究,最近期的研究如 Zentner(2008)提出的 階層式情緒模型 GEM-9,將四十種情緒依不同的權重彙總成九種情緒,最後再統合 成三大類。

在連續性的研究上將情緒視為是連續的,因此現今大多時變性的音樂情緒研究 大多採用這類模型。在這類型的早期研究中值得注意的是 Russell 提出的 Circumplex model(1980),將情緒表示成 Arousal 和 Valence 兩個維度的二維模型;之後陸續有許 多類似的二維情緒模型被提出,Watson 和 Tellegen 在 1985 年將 Circumplex model 旋轉 45 度同時考慮 Arousal 和 Valence,依此訂定兩個新維度 Postive Affective(PA) 和 Negative Affective(PA);Thayer 在 1989 基於分離心理生物學系統(Separate psychobiological system)將 Arousal 分成 energetic arousal(EA)和 tense arousal(TA)兩個 新維度;各情緒模型可見下圖:

圖 3. 各式二維情緒模型 資料來源:[2]

本研究嘗試結合類別式的成分表示和連續式的成分分析做為音樂情緒辨識的模型,

詳細討論可見 2-1。

4

音訊波形的特徵上常見的如:時域分析的過零率(Zero-crossing rate,ZCR)、波 形(Envelope)、波形質心(Temporal Centroid)、發聲時間(Log attack time)、響度 (Loudness)…等。頻域分析則有頻譜質心(Spectral Centroid)、頻譜散布度(Spectral Spread)、頻譜平坦度(Spectral flatness)、頻譜滑動(Spectral rolloff)、頻譜變遷(Spectral flux)、梅爾倒頻譜參數(Mel-frequency ceptral coefficient,MFCC)…等。

音樂內容中的特徵常見的如:音高(Pitch)、和聲(harmonicity)、和弦(Chord)、調 性(Tonality)、主音(Key)、rhythm(節奏)、節拍(Tempo)…等。

MPEG(Moving Picture Experts Group)訂定出許多國際標準,如 Mpeg-1 和 Mpeg-2 提供了一套影音壓縮標準更在數位電視和影音光碟上實現互動式的影像,Mpeg-1

5

Mpeg-1+Mpeg-2+Mpeg4 的用意。Mpeg-7 的資料描述不在於資料的標籤而是資料的 內容,而且支援眾多聲音音訊和視覺影像的描述,以影像為例,低階的描述包含形 狀、顏色、紋理、運動、位置等。本研究主要採用 Mpeg-7 針對音訊內容方面的描 述,在音訊內容方面 Mpeg-7 的低階描述主要可以分成六類共 18 種描述,如下圖:

圖 4. Mpeg-7 中的音頻特徵描述 資料來源:Mpeg-7 Overview [3]

在本研究中只採用 Mpeg-7 作為基本的音訊內容分析,因此關於音色、旋律、和聲 等地描述皆跳過再另外由音樂理論中設計相關特徵來描述情緒成分。因此在這邊只 採用了 Basic Spectral 這個類別的描述子,相關詳細應用於 2-5-2 進行討論。

1-2-4

音樂內容分析

樂理可視為一般音樂的分析規則,其中包含節奏、調性、調式、和弦、和聲安 排…等眾多方面的分析,一般常見的音樂大多是具有調性和固定節奏的音樂,其內 容安排根據一般樂理也都是可以分析的。現今的流行音樂大多遵循西洋樂理,要由 樂理來闡述音樂內容的話,最小的單位可以由每個音來開始討論,然後再由一連串 的音組成不同的音階,這其中又包含著不同調性、調式等觀念。每個音依據不同的

6

音律下有不同的定義,古典音律如純音律是依據自然泛音列設計的音列,讓不同音 組成的和聲最接近自然,但是不方便於轉調,同一樂器彈奏不同調性音樂時需重新 調音。現今樂器大多採用十二平均律[4]的觀念設計,十二平均律中將一個雙倍頻率 的八度音(Octave)分成 12 個半音(Semitone)以中央 A 定 440Hz,其他頻率和音高換 算公式如下:

7

8

增三和絃的和絃內音無法完全配合自然音階的音階內音,是屬於和聲小調音階的三 級和絃。本研究只針對基本的自然大小調做分析,所以在和絃方面也只考慮了自然 大小調的順階和絃,這在流行音樂中也是最常被使用到的形式。

在林金慧提出的研究[5]中也解釋了一般廣為人知的音樂和情緒間的關聯,大音 程、大和弦、大音階、大調四項觀念與正面情緒的關聯性和小音程、小音階、小調 四項觀念與負面情緒的相關性。此外,現今的當代音樂也不乏無調性和無固定節奏 的實驗性音樂,甚至於音高不在傳統音律中而是裡面採用電子合成的新音律,以打 破傳統規律為主的內容安排,這些音樂並不在本研究的考慮範疇中。

1-2-5

情緒分類演算法介紹

在上述小節的討論過程中,在選擇了音樂情緒模型後確立了音樂情緒的分類,

因此為了將音樂內容對應到音樂情緒上,音訊的特徵分析只是個媒介,而基於這些 音訊特徵將音樂訊號分群分類的演算法則是連接兩者的工具。

在資料的分群和分類上有各種不同的演算法,常見的如:k 相近(k-nearest neighbor,k-NN)、高斯混和模型(Gaussian Mixture Model,GMM)、隱藏式馬可夫模 型(Hidden Markov model,HMM)、倒傳遞類神經網路(Back-Propagation Neural Network,BPN)、支援向量機(Support Vector Machine,SVM)…等,本研究中為方便 分析高維度的特徵值,採用了 SVM 作為分類的演算法。

SVM 演算法主要的概念是找出一個平面可以將兩個不同類別的集合分開,在多 維的特徵空間下,這平面稱為超平面(hyperplane)。以二維空間為例,可見下圖:

9 圖 6. SVM 分類示意圖

在已分類過的兩個資料群組但是不知道其分類的依據,SVM 嘗試在這兩個資料群組 中找個超平面區隔開兩邊,兩邊的虛線代表的是支援用的超平面(Support

hyperplane),兩個支援超平面拉開的邊界(Margin)越大也就越能分開兩個群組,故最 終目標是找出一個超平面有著最大的邊界稱之為最佳分割超平面(Optimal separating hyperplane,OSH)。

上述是可以理想分割的情況,但是資料會有誤差並不一定能夠完全的分割成兩

種類別,所以在實際運用上會有更複雜的假設,在計算上會在導入個誤差值ξ 並且

給予懲罰的權重C,讓誤差的資料在判別上會多點成本(Cost),詳細的推導見 2-6。

1-3

相關研究

現今關於音樂情緒分析(Music Emotion Recognition,MER)系統的研究有很多,

各個情緒模型都有研究採用,也衍伸出各種不同型態的系統。在文獻[6]中採用了 Hevner 的情緒分組作為情緒標籤,採用了 17 種音樂音訊特徵,以 k-NN(k 選用 5) 為分類演算法,最後比較以各種不同降低維度的方法來降低特徵維度後的辨識率,

如:FA(maximum likelihood common factor analysis)降低成 11 維、Ranker 降低成 6 維、GA(genetic algorithm of Goldberg)降低成 6 維、K-N-Match 降低成 13 維、PCA (Principal Component Analysis)降低成 10 維、Piv-Sel(local optimum selection of pivots) 降低成 10 維。而在文獻[7]採用了 Tempo、Intervals、Loudness、Note、Density、Timbre、

Chord 等七種特徵,直接對標記好的八種 Hevner 情緒類別訓練資料採用 GA-BP(back

10

propagation neural network and genetic algorithm)來建立一個音樂情緒辨識系統 (MER)。

採用二維情緒模型的如文獻[8],利用了音色(Timbre)、強度(Intensity)、節奏 (Rhythm)三種類型的特徵值以一種階層式的情緒分類結構並採取 GMM 當作分類的 演算法,如下圖:

圖 7. 階級式情緒分類結構 資料來源:[8]

隨後也有文獻[9]以相似的架構但改採用 SVM 演算法作為分類器。

除了直接分析音樂音訊內容的研究外,也有以生物學上的特徵來分析音樂情緒 對應到生理反應上的研究[10],這也證實了音樂情緒的分類的二維模型其的可靠 度。

11

相關文件