• 沒有找到結果。

2-1

研究內容探討

在音樂情緒辨識上有兩個主要的議題:

(1) 音樂情緒的時變性與否:關於音樂情緒的引發是隨著歌曲播放間經由音樂事件 或音訊內容帶領變化;抑或情緒是由整首歌曲的變化所引發的單一結果,這是 一大議題。

(2) 音樂情緒的量化:現在當前的音樂情緒研究多採用二維情緒模型(2-DES)為基 底[8][9][10][11],然後再嘗試將特徵萃取的結果對應到二維平面模型的兩個維度 上去標記出當前情緒位置;但由於情緒是相當主觀的感受,要將其化作客觀的 數值化表示則是二個大議題。

針對第一點議題,部分研究[12]為單一情緒的分析,但是歌曲在編寫間就有考 慮到情緒起伏的鋪陳,故此聆聽者的感受勢必不會是整首歌都固定在一個情緒,

而是隨著歌曲的音樂事件和音訊內容的激發而有所變動,而且近期研究[13]大多開 始趨向連續變動情緒的方向發展。因此本論文主要研究主題將是在於隨時間變化 的情緒成分分析。

針對第二點議題的處理方式現在有許多不同的做法,現今研究中有依自己的 的主觀感受對各特徵值設定權重計分將各音樂片段萃取的特徵值分別對應到二維 情緒模型上兩個維度的值,以此作為量化[14],也有採用測試人員直接畫下各自聆 聽音樂的情緒感受軌跡圖,再將其量化結果和特徵值的數值計算一個數學模型做 配對,測試程式畫面如下圖。

12 圖 8. 二維情緒平面模型軌跡輸入程式圖

由受測者手工繪入情緒軌跡模型。

資料來源:[15]

其中關於特徵值對應到二維模型的維度上的結果始終是令人質疑的,單一特徵是否 只對應到二維情緒模型的單一維度和每個特徵間對情緒分類的影響是否各自獨立,都是 值得研究的議題。因此,本研究將針對音樂情緒的成分來分析,而不是將音樂情緒量化 表示在單一情緒上,在此假設情緒並不是單一獨立存在,而是由多種情緒混雜堆疊而形 成。

2-2

研究內容構想

目前針對音樂情緒研究多以二維情緒模型為基礎[8][9][10][11],少數一些研究 提出的新式情緒模型也是延伸自二維情緒模型[16],在 Zentner 和 Eerola 的書中[2]

有針對二維情緒模型的演進做詳細介紹,心理學家不斷提出新的二維模型,以不同 的維度來表示情緒的分布,但是綜觀各情緒模型,雖然有不同的維度表示卻有著相 似的情緒分布,如圖 3。因此情緒模型的劃分依據各有出入,僅針對單一情緒模型 為依據做量化有失客觀性。

近年 Zentner 提出新的情緒模型 GEM-9[17]中,表示出情緒是可以階層劃分的,

將 40 個情緒形容詞加權歸類成 Sublimity、Vitality、Unease 三大類中。這也表示著 個情緒形容詞間有一定的相關性,而早期二維情緒模型平面上的單點情緒應該也 是可以歸類成簡單數個。

本研究結合上述研究提出一個對於情緒成分表示的假設,基於:

13

(1) 二維情緒模型的四個象限皆有共通相近的情緒。

(2) 各種情緒都可以簡化成簡單的情緒表示。

假設聆聽音樂所引發的情緒變化都是由四種基本情緒(Exubrant、Anxious、

Depression、Content)成分組成,如圖 9 所示。如三原色的原理,這四種情緒間將 在本研究視為組成情緒的基本要素,由這四個基本情緒依照不同比例組合進而表 現出各式各樣的情緒形容詞,取代單一情緒形容詞的描述,藉以降低不同人之間 對於情緒形容詞主觀的認知落差。

圖 9. 情緒成分元素示意圖

2-3

系統架構及流程

依據上一節中所提及的構想,本研究在 MATLAB 程式平台上設計了一套系統,

系統的流程方塊圖見圖 10。在接下來的小節中會對於程式的流程一一簡單介紹,詳 細的計算和說明則於之後 2-4 至 2-8 中探討。

14 圖 10. 系統流程方塊圖

2-3-1

音訊輸入

音樂輸入的格式採用 wav 檔案格式,取樣頻率為 44100Hz,聲音解析度為 32 bits,

雙聲道。其中測試音樂為了建立可以確實辨識連續情緒變化的分類模型,這邊選取 情緒起伏不大且單一的 30 秒音樂片段,詳細說明見 2-4。

2-3-2

音框化分析

為採用頻譜分析,並更進一步的做到即時性的情緒成分分析追蹤,在音樂片段 進入系統之前會先有音框化的前處理,將音樂片段切割成相等大小的微小片段。在 不同特徵萃取分析下會切成不同大小的音框進行分析,來增進各特徵的分析效益,

詳細的內容將在 2-5 討論。

2-3-3

特徵值萃取

採用特徵值分析音訊是目前研究普遍的方法,本研究針對音樂的音樂特徵和音 訊特徵兩個方面來選取特徵值。在音樂特徵方面選用主音(key)、主音清晰度(key clarity)、調性(mode)、音調質心(tonal centroid)。音訊特徵方面則參照 mpeg7 的標準,

採用 ASE(AudioSpectrumEnvelope)、ASS(AudioSpectrumSpread)、

15

ASF(AudioSpectrumflatness)、ASC(AudioSpectrumCentroid),含 MIRtoolbox 中採用 Spread、Centroid、flatness 共計 11 個特徵值。各特徵詳細的內容於 2-5 討論。

2-3-4

分類演算法

本系統中的分類演算法採用 Chih-Chung Chang and Chih-Jen Lin[18]統整的 SVM(Support Vector Machine)演算法,這是一個最佳化分析的演算方式,可以在已 分類好但是不知道分類依據的資料中建立一個分類模型,然後依此模型推測新進資 料會屬於哪一個分類中,詳細流程將在 2-6 討論。

2-3-5

計分方式

當各特徵對於該音框的情緒判定後會在該特徵上累計,11 種特徵不一定全指向 同一種情緒,可見得任一時刻的情緒並不是單一的。每個音框的情緒判定後也會累 計到後面 3 秒的所有音框中,因為情緒的起伏並不是瞬間的反應而是各種音樂事件 的累積,各時刻的影響會乘上一衰減加權累計進之後的音框計分,詳細計分步驟之 後 2-7 會進一步討論。

2-4

音樂情緒訓練資料

訓練資料總共 192 首,內容皆為多聲部(polyphonic)的 wav 格式。詳細曲目見附 錄-,音樂內容包含從古典到流行等各種音樂類型風格,情緒選取的方式採測試人 員主觀判斷,情緒類別包含本研究提出的四種情緒成分:Content、Depression、

Anxious、Exuberant,各情緒的歌曲數目見表 3.。這邊採用主觀的選擇也是希望未來 本系統在其他使用者的使用下可以依照各自的感受選取不同的訓練資料以建立針對 個人有更佳分辨效果的分類模型,並藉此大大的降低不同人對情緒形容詞主觀的認 知落差。

16 表 3. 各情緒成分的測試音樂數目

情緒 Content Depression Anxious Exuberant

數目 47 48 48 49

2-5

特徵值計算

特徵值的選用主要依據音樂的音樂特徵和音訊特徵兩方面,採用 Olivier Lartillot、

Petri Toiviainen 設計的 MIRtoolbox 1.3.2[19],和 MPEG-7 [20]中關於音訊內容的描述 子,詳細可見表 4.。其中各特徵值計算時對音樂片段音框化的前處理也不盡相同,

Audio Spectrum Envelope Audio Spectrum Centroid Audio Spectrum Spread Audio Spectrum Flatness

17 為平台的音訊特徵萃取套件,由芬蘭 Jyväskylä 大學的 Olivier Lartillot、Petri

Toiviainen 設計[21],其中特徵值包含音樂動態、節奏、和聲、音色…等眾多方面, 資料來源:MIRtoolbox user’s manual[22]

由於本研究是針對 WAV 檔案格式而非 MIDI 格式有內涵音樂事件訊息,在已經經過 複雜混音的音樂中,要回頭剖析該音樂片段的內容是非常困難的議題。

圖 11.的流程中,先以 miraudio 這程式讀入音檔,將 wav 的時域振幅波形讀入 MATLAB 中,如下圖:

18 圖 12. Over the Rainbow 藤田惠美 – audio waveform

mirframe 是個可選用的變數,若是不經過這一環節則結果將會輸出整個音樂片段的 分析結果,在這個環節針對不同的特徵質會給予不同的音框長度,以主音為例則是 給予 500ms 的大小,取完音框後的結果如下圖:

圖 13. Over the Rainbow 藤田惠美 – 取音框

音框化的處理完後接著是採用 mirspectrum 分析頻譜,由於在十二平均律中音高是 根據頻率來定義,因此採用頻譜分析是反過來剖析樂理的重要方法,取完頻譜的結 果如下圖 :

19 圖 14. Over the Rainbow 藤田惠美 – 頻譜分析

頻譜分析之後接著的 mirchromagram 是將頻譜的資訊對應到樂理上,是一個 12 維的 特徵值,可以了解頻譜分析對應到 12 個半音上的成分多寡,如下圖:

圖 15. Over the Rainbow 藤田惠美 – 音樂色譜分析

至此已將音訊波形對應到樂理的音高資訊上,接著再進一步的繼續下面的分析。

(1) 主音(Key)

如同 1-2-4 所討論的,要以音樂理論方面切入剖析音樂內容,該音樂主 音是一個重要的特徵值。在本研究中,針對主音的分析會對輸入的音訊切割成

20

0.5 秒一個音框來處理。在 MIRtoolbox 中萃取 key 的流程圖如下:

圖 16. 主音萃取流程

資料來源:MIRtoolbox user’s manual[22]

在經過音訊內容對應到音樂色譜的前處理後,在 mirkeystrength 裡會針對 12 個 主音構成的大小調做交叉相關函數(cross-correlation)來配對,最後輸出各個調性 的相關度,如下圖:

圖 17. Over the Rainbow 藤田惠美 – 調性強度分析

接著使用 mirpeaks 在調性強度的分布圖中找尋峰值即最有可能的調性分布,若 是在平行大小調上都有著最高的調性強度,則將這組平行大小調的主音是為該 音框的主音,最後主音的萃取結果如下圖:

21 圖 18. Over the Rainbow 藤田惠美 – 主音分析

(2) 主音清晰度(Key Clarity)

這項特徵是依據上一個特徵的內容同時計算的,在主音的特徵萃取中音樂色譜 的分析後經由對於各種可能的大小調做交叉相關函數的計算,此時若是平行大小調 皆有很強烈的峰值,則該音框有著清晰的主音也有著較高的主音清晰度的值,反之 這項特徵有較低的值,結果如下圖:

圖 19. Over the Rainbow 藤田惠美 – 主音清晰度分析

22

(3) 調性(mode)

相似於(2)中主音的萃取,對於調性的萃取流程如下圖:

圖 20. 調性萃取流程

資料來源:MIRtoolbox user’s manual[22]

調性和主音的差別在於分析完調性強度後,在 24 種不同調性結果中針對其中大調的 峰值和小調的峰值做進一步的分析,最後的輸出是一個數值,以 0 為分界若為正值 且越大的話代表是大調的強度越強,反之若為負值的話,則值越小其小調的強度越

調性和主音的差別在於分析完調性強度後,在 24 種不同調性結果中針對其中大調的 峰值和小調的峰值做進一步的分析,最後的輸出是一個數值,以 0 為分界若為正值 且越大的話代表是大調的強度越強,反之若為負值的話,則值越小其小調的強度越

相關文件