基於多重結構分析聆聽情緒相似度之音樂資訊檢索

(1)

國立交通大學

工學院聲音與音樂創意科技

碩士學位學程

碩士論文

基於多重結構分析聆聽情緒相似度之音樂資訊檢索

A Music Linkage Jukebox based on Multi-Structure

Analysis of Music Emotion Similarity

研究生：林芷伊

指導教授：鄭泗東教授

(2)

基於多重結構分析聆聽情緒相似度之音樂資訊檢索

A Music Linkage Jukebox based on Multi-Structure Analysis of Music

Emotion Similarity

研究生：林芷伊 Student：Chih-Yi Lin 指導教授：鄭泗東 Advisor：Stone Cheng

國立交通大學

工學院聲音與音樂創意科技碩士學位學程

碩士論文

A Thesis

Submitted to Master Program of Sound and Music Innovative Technologies National Chiao Tung University

in partial Fulfillment of the Requirements for the Degree of

Master in

College of Engineering

July 2012

Hsinchu, Taiwan, Republic of China

(3)

i

基於多重結構分析聆聽情緒相似度檢索之音樂心情點唱機

學生：林芷伊指導教授

：鄭泗東

國立交通大學聲音與音樂創意科技碩士學位學程

摘要

作曲家利用音符轉述傳達自己的想法來譜寫音樂作品，藉由音符連續不斷的變化構成音樂的主題，多個音樂主題組合產生一段主要旋律，希望使聆聽者在聆聽此音樂片段時有相似的情緒感受並快速地為聆聽者留下印象深刻、難以忘懷的聆聽經驗。許多音樂情緒分類或辨識的研究將聆聽音樂所產生的情緒感受總結為音樂帶給聆聽者的”心情”。在曲式結構中將許多的音樂主題(主歌與副歌)搭配過門音樂做重複性地些微變化串起來譜成完整的音樂，本論文以樂曲訊號之多重主題結構分析為基礎，提出一套基於聆聽情緒相似之音樂檢索系統，協助聆聽者快速地從音樂資料庫中選擇相似聆聽情緒之音樂檔案，並降低音樂資料多重特徵檢索對記憶體的使用量。本系統主要分為多重主題結構分析、音樂情緒比例分析、音樂情緒檢索等三個部份：首先，利用自相關函數 (autocorrelation function)分析多重主題的音樂結構，包括前奏(Intro)、主歌(Verse)與副歌 (Chorus)等段落。在音樂情緒比例分析方面，引用 Thayer 提出的情緒模型，將兩百首註有人工標記情緒類別的音樂片段進行特徵萃取與情緒記分，以高斯混合模型(GMM)進行訓練並劃定舒適、哀傷、焦慮與振奮等四個情緒類別的邊界。接著利用此多重主題結構組成的音樂片段做為音樂情緒辨識的測試樣本，計算該音樂所喚起的聆聽情緒比例，最後以距離相似度量測演算法計算任兩段音樂片段之間的情緒相似成分，結果得出並依序列出其聆聽情緒與此檢索音樂片段相似的音樂檔案。系統輸出的使用者介面同時提供此檢索歌曲以及推薦清單中所選歌曲的靜態情緒比例，方便使用者在聆聽歌曲以前快速了解該音樂檔案誘發的聆聽情緒。

(4)

ii

A Music Linkage Jukebox based on Multi-Structure Analysis of Music

Emotion Similarity

student：Chih-Yi Lin Advisors：Dr. Stone Cheng

Submitted to Master Program of Sound and Music Innovative Technologies

National Chiao Tung University

ABSTRACT

Key melodies are the representative fragments of music which may be the themes that people may easily recall once they heard and that breed a pleasurable and memorable listening experience. This study proposes a music linkage jukebox system that recommends listeners a ranked retrieval list with the proportion of music-induced emotions between the query and music bank collections. 200 music clips with emotion-predefined trained to build up the emotion plane, which demarcates the boundaries of four emotions by Gaussian mixture model. In the system, the multi-theme phrases of musical structure, including the Intro, Verse, and the Chorus are analyzed by autocorrelation function as input test structure, then using feature-weighted scoring algorithms to analyze the ingredients of music emotion with five audio feature sets, which represent the characteristics of the testing music clips. The similarity of emotions between music clips are measured by Euclidean distance algorithms. The outputs of the user-interface not only ranks the resembling music files but also offers a static graph with the proportion of music emotion, which can aid user rapidly in understanding the relationship between music-induced and emotions.

Keywords: Music information retrieval, emotion similarity, music summery, emotion ingredients.

(5)

iii

誌謝

首先要感謝指導教授鄭泗東老師這兩年來的細心教導與鼓勵，讓我在研究挫折中快速地恢復信心、解決難題；實驗室學長姐(俊傑學長、雲凱學長、于恬學姐、立瑋學長、偉廷學長等)傳授的論文資料與程式資料庫，使我能夠在論文的研究上得到豐富的知識與支援。在這段學習過程中，不但加深了對研究領域的認知與根基，更培養自己在面臨問題時的思考、解決能力，使我得已順利完成畢業碩士論文，並取得碩士學位。除了老師之外，亦感謝聲音學程的所有好夥伴(小婷、小愛、船長、紀子、哲瑋、小單、姚頭、阿杜、致偉、偉桓、坤廷、楊昕、欣諭)，不管在課業方面還是研究上都不吝嗇的提供我眾多的想法、寶貴的建議與協助，以及實驗室的學長、同學、學弟、學妹們(丞哥、奇穎、阿宏、慧珊、翔翔、婕安、小竹子、歆萍)每天的陪伴與關心，總是叮嚀我要記得吃飯，最後還要感謝一路支持、陪伴我的父親、母親、哥哥、好友們，在我失落無助的時候給予鼓勵與包容，讓我可以繼續奮鬥下去。

(6)

iv

摘要 ... i ABSTRACT ... ii 誌謝 ... iii 一、緒論 ... 1 1.1 研究動機 ... 1 1.2 系統之理論基礎與相關研究 ... 2 1.2.1 內涵式音樂資訊檢索 ... 2 1.2.2 音樂分段-音樂主題在音樂資料中扮演的重要角色 ... 4 1.2.3 音樂情緒模型 ... 5 1.2.4 音樂聆賞情緒之心理感受 ... 9 1.2.5 音訊特徵萃取 ... 12 1.2.6 相似度量測 ... 12 二、音樂多重結構分析 ... 14 2.1 音樂結構介紹 ... 14 2.2 自相似研究方法(Self-Similarity Analysis) ... 16 2.2.1 音頻參數化 (Parameterization) ... 17

2.2.2 距離－相似矩陣 (Distance Matrix Embedding) ... 18

2.2.3 偵測新穎性 (Detecting Novelty) ... 19

三、音訊分析之方法與原理介紹 ... 23

3.1 能量頻譜(Power Spectrum) ... 23

3.2 短時距頻譜 ... 23

3.3 音調層級分析 Pitch Class Profile(PCP) ... 26

(7)

v 四、研究方法 ... 32 4.1 系統架構 ... 32 4.2 音樂多重主題結構分析 ... 33 4.3 多重主題音樂片段的情緒分析 ... 39 4.3.1 情緒分析之設計概念 ... 39 4.3.2 訓練資料格式 ... 39 4.3.3 特徵萃取 ... 40 4.3.4 情緒計分方法 ... 46 4.3.5 音樂情緒比例 ... 48 4.4 音樂情緒之相似度量測 ... 52 五、音樂情緒點唱機 ... 54 5.1 圖形化使用者介面 ... 55 六、實驗結果分析 ... 57 6.1 音樂多重主題結構之擷取結果 ... 57 6.1.1 檢測準確度 ... 57 6.1.2 結果討論 ... 58 6.2 音樂情緒心理分析調查 ... 59 6.2.1 問卷調查 ... 59 6.2.2 問卷調查與實驗結果分析 ... 59 七、音樂情緒之應用 ... 63 八、結論 ... 66 8.1 論文貢獻 ... 66 8.2 結論 ... 66 九、參考文獻 ... 67 附錄一音樂情緒分析之問卷範例 ... 71

(8)

vi

附錄二問卷調查之受測者資料 ... 72 附錄三測試音樂之問卷調查結果 ... 73

(9)

vii

表目錄

表 1 音程的協合與情緒反應 ... 11 表 2 調性與情緒的對應 ... 11 表 3 訓練資料情緒分類數量統計 ... 40 表 4 不同音樂特徵之間的相對應比例 ... 46 表 5 歌曲“新不了情”各自版本之多重主題結構的片段相似度結果和總體準確度 ... 57 表 6 歌曲“NOBODY”之多重主題結構的片段相似度結果和總體準確度 ... 58 表 7 歌曲“Better man”之多重主題結構的片段相似度結果和總體準確度。 ... 58 表 8 古典歌曲之多重主題結構的片段相似度結果和總體準確度 ... 58 表 9 問卷調查之測試音樂 ... 59 表 10 My Heart Will Go On 之結果分析 ... 60

表 11 Avenged Sevenfold - Dear God 結果分析 ... 61

(10)

viii

圖目錄

圖 1 Hevner's adjective circle 情緒模型 ... 6

圖 2 各式二維情緒模型比較圖 ... 7

圖 3 Russell’s Circumplex Model ... 8

圖 4 Tellegen and Watson Clark 情緒模型 ... 8

圖 5 Thayer’s 情緒模型 ... 9 圖 6 流行歌曲的常見曲式 ... 16 圖 7 Foote’s similarity ... 17 圖 8 基於距離演算法之相似矩陣圖 ... 19 圖 9 新穎性計分的運算概念 ... 21 圖 10 32×32 高斯棋盤內核立體圖 ... 22 圖 11 32×32 高斯棋盤內核平面圖 ... 22 圖 12 單一音框的頻譜圖 ... 24 圖 13 連續時間的頻譜圖 ... 24 圖 14 三種不同視窗產生的濾波響應圖 ... 25 圖 15 單一音框的音調層級強度分佈圖 ... 27 圖 16 連續時間的音調層級強度分佈圖 ... 27 圖 17 高斯分部 ... 28 圖 18 混和高斯分部 ... 30 圖 19 系統架構流程方塊圖 ... 32 圖 20 說明預設擷取的音樂多重主題結構之週期 ... 33 圖 21 利用各個音框之能量頻譜進行自相關函數計算 ... 34 圖 22 以自相關函數計算任兩個音框能量頻譜特徵向量之相似矩陣 ... 35 圖 23 相似矩陣和新穎性計分之比對圖 ... 36

(11)

ix 圖 24 音樂片段之原始音樂波形 ... 41 圖 25 音訊頻譜流量進行音樂事件偵測 ... 42 圖 26 音樂事件密集程度計算結果 ... 42 圖 27 衰退函數 ... 47 圖 28 每個時間點的計分流程 ... 48 圖 29 貝多芬之月光奏鳴曲-情緒軌跡位移 ... 49 圖 30 貝多芬之月光奏鳴曲-情緒軌跡位移所提供的訓練資料 ... 50 圖 31 訓練資料之情緒樣本分佈 ... 51 圖 32 GMM 分類結果與各類別的邊界範圍 ... 51 圖 33 情緒類別辨識知結果 ... 52 圖 34 情緒相似度之分析概念 ... 53 圖 35 音樂情緒點唱機之使用者介面 ... 55 圖 36 系統執行完成後的最終圖形化使用者介面 ... 56

(12)

1

一、緒論

1.1 研究動機 音樂有如世上最美的語言，沒有國界、地域或族裔之分，人們藉由音樂來抒發低落的情緒或傳達喜悅的心情，音樂在生活中的重要性也同時地反應在情緒的反應之上，不同的音樂會帶給人們不同的情緒感受，經由細緻的音樂、溫暖的聲音或美妙的韻律把內心深處情感世界特有的激動化為自由自在的自我傾聽，使我們心靈免於壓抑和痛苦。而每個人對音樂的感覺是主觀性的，即使是處於相同的情境也會因為接觸的時代、社會背景及環境的不同而有所不同，更會隨著個人當下情緒的低落、亢奮、愉快而有所變更，因此如何幫助使用者從大量的音樂資料中與多變的情境下快速的有效找出符合自己情緒感受需求的音樂，善用音樂的情感特性釋放情緒、轉換心情成為本研究的主要目的。隨著資訊科技的發展與通訊技術的進步，使得數位音樂的取得越來越容易，人們不再需要依照音樂專輯編排的順序撥放音樂，當一張唱片撥放完畢時不再需要以手動的方式將唱片包含黑膠唱片、錄音帶、CD 等音樂載體放入音樂播放器才能繼續聆聽音樂，取而代之的是人們每天可以簡單地透過攜便式音樂播放器、智慧型手機的音樂播放軟體等即時性地盡情享受音樂，或經由網路的線上播放系統收聽音樂，數位的聆賞方式取代傳統的使用習慣，這樣的作法提供音樂聆賞者更多創意發揮的空間，可以依照個人喜好或不同的需求自行編排曲目順序聆聽音樂。雖然網際網路的成熟與數位科技的發展帶來了無窮的便利性與多功能性，其間龐大的音樂檔案數量卻也同時對使用者在整理、管理檔案上產生相當程度的困擾。當使用者在搜尋挑選音樂時，其比對成千上萬首音樂檔案的過長等待時間往往讓使用者無法接受，若能夠將音樂檔案如同文章依據主題利用段落的方式分開，使用者再也不需要將整首音樂檔案從頭聽過才可以瀏覽到所需要的音樂資料，音樂資料分段的好處不止於提供使用者能夠輕易地找到符合所需的音樂資訊，更可以利用分段的結果產生音樂內容的摘要或稱音頻縮略圖(Summary or Audio Thumbnailing)作為以內容為基礎的音樂資料檢索，幫助使用者達到搜尋音樂的目的。音頻縮略圖或音樂內容摘要主要用於概括音樂的

(13)

2 資料，通常是因樂檔案中最讓人印象深刻的音樂片段，其所生成的內容摘要或縮略圖可以幫助我們管理音訊檔案，方便瀏覽或搜尋音頻資料，減輕收聽此類音檔較長部份的問題。對於傳統的檢索方法大多採用關鍵字搜尋的方式，例如：曲名、唱片名稱、演唱者、作曲者、音樂類型、唱片廠牌等等，就音樂資料來說，如果使用者只記得一首歌的某段旋律，而不記得歌名或歌手是誰，就沒辦法找到想要的歌曲了。因此，在這種情形下可以利用音樂內涵式搜尋的方式對這段音樂進行特徵值分析，找出在音樂資料庫中最有可能包含此音樂片段之音樂，如此一來即使我們無法對該音樂下關鍵字，系統也可以依照音樂本身之特性進而完成搜尋的工作。全球的音樂每天不斷推陳出新，使得音樂資料庫的成長十分驚人，由於音樂屬於時序性的，加上複雜的聲音資料集合，在進行檢索比對的動作通常需要耗費很多的計算時間以及記憶體的用量。為了加快檢索速度，本研究之目的在於發展一套基於多重結構分析聆聽情緒相似度檢索之音樂心情點唱機，針對音樂的內容做主題式的分段來簡化分析過程的複雜度，擷取此多重主題結構的音樂片段來代替完整的音樂作品，並分析此音樂片段的音訊特徵做為音樂資料庫中音樂情緒的指標，如此，在搜尋時只需要比對四種音樂誘發的情緒比例，能大大節省儲存空間外，更能從龐大的資料庫中進行更有效率的查詢。 1.2 系統之理論基礎與相關研究 此章節將介紹本研究內容所涉及之音樂情緒檢索、音樂分段、音樂情緒模型、聆聽音樂誘發的情緒感受以及音訊分析等相關理論基礎與其相關文獻探討。 1.2.1 內涵式音樂資訊檢索 由於多媒體技術的快速進展，音樂創作的普及，使得數位音樂的取得越來越容易，各式各樣的音樂資料變得更加複雜及大量，音樂資料也不再是如同過去以書目資料的形式提供查詢、取得與利用，使用者如何從大量的音樂資料庫中，找出自己喜好的音樂之技術是日益重要的。過去，傳統的檢索方式將音樂資料、組織、分析以作曲者、演奏者、曲風、專輯名稱等項目分門別類，進而建立音樂書目資料庫，使用者依照這些項目雖可

(14)

3 檢索到資料，然而此種檢索的彈性仍然有限。假設當我們聽到某廣播電台播放的音樂片段是自己喜愛的音樂旋律，但對於第一次聽到，不知其曲名、演奏者等詳細資訊時就無法以這些書目資料查得音樂原件，而內涵式音樂資訊檢索即是提供使用者解決此類相關搜尋問題的技術，利用資料本身的特徵去找出使用者想要的資料。內涵式音樂資訊檢索依據檢索資料類型的不同可分為由(1)符號資料搜尋(Search by symbolic data)和(2)音頻資料搜尋(Search by audiodata)等兩大類[1]。符號資料指的是儲存音樂符號的檔案格式，例如：MIDI、XML，在特徵萃取的過程中可直接取得其音高、節拍、速度、音色的訊息，經由特定演算法的運算找出音樂的旋律、調性、節奏等音樂特徵；音頻資料搜尋(search by audio data)的資料庫則以完成錄音及混音後之聲波波形的檔案格式，經由特定演算法從波形大小中計算出音樂的訊息或聲學特徵後進而得到音高、節拍、速度、音色等音樂特徵，例如：wav、wma、mp3 等都是一般常被用來聆聽的檔案格式。 MIDI 格式儲存多樣性的音樂特徵，記錄了各種音符的強弱、高低、長短等特性來記錄音樂資料，如此多樣性的音樂資訊將有助於音樂搜尋研究上的處理，加上以符號記錄音樂資訊的 MIDI 格式音樂檔案可以很容易地抽取出主旋律特徵[2][3]，所以將 MIDI 音樂檔案轉成音樂序列用來當作音樂檢索的音樂資料是許多內涵式音樂檢索研究者所採取的方式，因此有許多音樂搜尋相關研究是以 MIDI 為主要的音樂格式，[4][5]利用音樂的低階特徵值並同時考慮音樂時序的意義，透過索引結構的建立讓音樂檢索快速地被處理；然而若考慮其現實應用層面的問題，Park 等人[6]以 MP3 格式的音檔萃取多種音樂特徵包含 spectral centroid, spectral rolloff, spectroll flux, zero crossing rates, MFCC 等來表現音樂，接著利用 Feature selection 的方式將原本高維度的特徵值減低，進而利用這些特徵進行音樂搜尋；雖然 mp3 是最常被使用的音樂格式，不過由於 mp3 為失真壓縮，它不像 MIDI 格式般包含了多樣性的音樂特徵，使得如果以 mp3 格式來進行音樂搜尋會有一定程度的困難；Foote[7]這一篇研究中，選擇未經壓縮 wav 的檔案格式，著重在節奏(tempo)和旋律(rhythm)這二種音樂特性來進行研究，並且利用這二種特性來進行

(15)

4 音樂的相似性分析。 1.2.2 音樂分段-音樂主題在音樂資料中扮演的重要角色 創作音樂如同許多文學、藝術創作一樣，在創作過程中就像寫作文一樣，作家先有了靈感再根據寫作原理文章章法：起、承、轉、合的思維模型，有緒論、主題、副題、結論。音樂創作可以被歸納分成靈感、腹稿和動機等三個程序，作曲家在作曲時一樣依靠靈感，有了靈感之後再如同建築師蓋房子一樣擬一個草圖(腹稿)，逐步計劃，注意音樂環節緊湊、前後搭配銜接、決定表現方式，最後再由動機發展出音樂主題。動機是由靈感帶來的最原始主題、旋律的最小單位，創作的關鍵。作曲家遵循音樂曲式結構法則，由動機切入旋律的起點，安排主題的重覆、倒裝、變奏等連續變化，再想出一個或多個副主題拼湊，繼而將許多個主題串起來展成完整優美的音樂。多個主題使樂曲多樣化不單調，但過多的主題容易離題，造成聽覺混淆、缺乏主題的一貫性等問題，好的動機為旋律鋪墊了堅實的根基、發展出鮮明的主題，Lartillot[8]說明因為動機的豐富變化串成音樂主題前後結構的連貫，人們是因為動機的改變而記住音樂的前後結構變化，因此，本研究在此將每個段落假設為同一首音樂中的不同主題，以音樂動機的變化為線索，萃取樂曲中的主題(主歌)和副主題(副歌，一個或多個)作為系統分析的測試音樂片段。目前已有許多相關音樂分段的研究，以人類聽覺認知對音樂訊號做分析來找出一首歌的重複樣式來代表一整個音樂物件，Cooper and Foote [9][10][11]首先將分析音檔作音頻參數化，統一音檔規格，取樣頻率 22.05KHz，單聲道，以 2048 個取樣點為音框(Frame) 單位切割音樂訊號，然後利用一個代表音色之梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients, MFCCs)演算法擷取每一個音框的低階特徵值，接著進行自相關 (Autocorrelation)的運算作為該音框所代表的音樂特徵，再以距離演算法來計算音框間的相似度，最後利用相似矩陣記錄音框比對的結果，從相似矩陣的資料中找出重複出現的音樂片段；[12][13][14][15]以人類聽覺認知對音高之敏感度為基礎，提出一種基於音調和重複結構劃分音樂的方法，並以這種重複結構來摘要音樂，[12]萃取如常數品質因數轉換(Constant Q Transform,CQT)，一個為了分析音樂訊號所開發之技術；[13]萃取以色

(16)

5 度(Chroma-Based)為基礎和音調相關(Pitch Related)的旋律特徵；為了減少比對每個音框的運算量、等待時間和記憶體用量，[14][15]提出以色度 Chroma-Based 特徵為基礎的直方圖轉換比對方法，色度直方圖指的是一個特定響度在特定音高種類中，其達到或超過此音高頻率的次數，為了加強找出局部音高的組成部分，利用快速傅立葉演算法(Fast Fourier Transformation, FFT)來計算每個時間點的瞬時頻率，將音高區分成 A A# B C C# D D# E F F# G G#等 12 種類，接著以相關係數演算法(Correlation Calculation)比較任兩個音框所屬的種類是否相同而產生一個二維空間的相似矩陣，進而將相似矩陣上的數據資料轉換映對至色度直方圖以測量音樂資料相似的部分。 1.2.3 音樂情緒模型 古人云：『樂者，心之動也。』亦即，音樂與人們內心的情感有著密切的關係，音樂融合人們的各種情感與情緒體驗；不同的音樂會帶給人們不同的情緒，不同的人對於同一首音樂的感覺與體驗也不盡相同，甚至同一個人對同一首音樂也會因為不同情境有著天壤之別的感受，根據 Music and Emotion[16]一書中的有關音樂與情緒的介紹，將現代的情緒模型分成 (1) 類別論，也有人稱離散論 (discrete or categorical emotion theory)[17][18]和(2)維度論(dimensional model of emotion)[19][20][21]兩種說法。類別論基於基本情緒理論將情緒分門別類，認為情緒有所謂的基本情緒(Basic Emotion)，對每個類別給於一個音樂情緒的形容詞，例如：高興、生氣、悲傷、平靜，強調每個基本情緒之間沒有必然的相關性，是互相獨立的，並不會因為某個情緒稍作變化而影響到另一個情緒的改變；維度論認為情緒應該是連續性的，例如：特定的情緒狀態只是代表一個正向情緒到負向情緒，同一個維度的相反兩極上，或是從快樂到悲傷的連續體中的一個位置。採用幾個心理學研究上的維度(例如：正向度及激昂度)，建立出一個情緒空間，並將情緒以空間中的一點表示。另外，也有學者將情緒心理學所提到的模型分成兩類：一類為一般通用型[19][20]，舉反心理、生理或認知上可能產生情感相關的情緒反應皆適用；另外一類即是和音樂表達情緒的類別與審美有關，針對音樂所引發的情緒反應模型[17][21]。

(17)

6

圖 1 Hevner's adjective circle 情緒模型資料來源：[17] Hevner[17]是類別論中最常見的情緒模型，也是最早被提出由音樂誘發的情緒模型，Hevner 從音樂學角度提出一個環狀的情緒模型，主要考慮作曲家、演奏家、聽眾的心理感受，於 1936 年設計了一系列音樂引發情緒的實驗，認為音樂本身便隱含著情緒意義，根據不同的音樂結構和音樂表情傳達各種情緒，假設人類聆賞音樂會引發不同的情緒反應，Hevner 透過此實驗，瞭解音樂的聲音和聽者的情緒反應間的關係，藉由實驗結果提出八組情緒相關的形容詞組(adjective group)，如圖 1，每一組代表性的形容詞分別為高貴的 (dignified) 、傷心的 (sad) 、悅耳的 (dreamy) 、平靜的 (serene) 、優美的 (graceful)、快樂的(happy)、使人興奮的(exciting)、強而有力的(vigorous)，在 Hevner 之後陸續有許多學者發表相關研究，Farnsworth[18](1958)為了能從音樂訊號來分析情緒，將其重新細分為十類，而最近期的研究如 Zentner(2008)提出的階層式情緒模型 GEM-9，將四十種情緒依不同的權重彙總成九種情緒，最後再統合成三大類，為了確定每種情緒的主要因素，對與每一種單一的情緒指標給於 1〜5 不同的評分。

(18)

7

圖 2 各式二維情緒模型比較圖資料來源：[16]

Juslin and sloboda 一書中[16]將 Russell[19]、Watson[20]和 Thayer[21]等三個情緒模型合併在同一個二維情緒平面上做討論，如圖 2 所示，Russell[19]根據情緒的愉悅程度 (valence/pleasure)和激發程度(arousal/activation)兩個軸度來對情緒進行分類，認為各種情緒是以環狀的排列方式分佈在一個二維的向量空間中，如圖 3；Watson 與 Tellegen[20] 在 1985 年提出一個以正向情感和負向情感為量測方法的階層式分類綱目(hierarchical taxonomic scheme)，將 Russell[19]所提出之情緒模型的兩軸旋轉 45 度後得到新的軸度：一個結合正價(valence)和高的激發程度(arousal)的正向情感（Positive Affective，PA）維度和一個結合負價(valence)和高的激發程度(arousal)的負向情感（Negative Affective，NA）維度，以此為基礎接著提出一個描述 20 種情緒的分類綱目稱為 PANAS(The Positive and Negative Affect Schedule)的心理模型，圖 4。

(19)

8

圖 3 Russell’s Circumplex Model 資料來源：[19]

圖 4 Tellegen and Watson Clark 情緒模型資料來源：[20]

Thayer[21]認為音樂的情感主要是受能量和壓力因素的影響，在 1989 年提出一個以

二維空間為基礎的情緒模型（Model of Mood），構成此音樂模型的兩個主要因子：壓力

(20)

9 平靜(calm)/充滿活力(energetic)的程度，根據壓力和能量對聆賞者所引發的情緒反應再將情緒分成四群，分別為滿足(contentment)、沮喪(depression)、豐富(exuberance)、焦慮 (anxious)。由於不同的色彩對於人類的情緒會有各種面向的不同影響，本研究引用 Thayer 提出的情緒模型，分別將四個象限加上不同顏色來表示情緒，滿足(contentment)象限以綠色表示，舒適愉悅、平靜的；沮喪(depression)象限以以藍色表示，讓人憂鬱寡歡、意志消沉的；豐富(exuberance)象限以黃色表示，興奮、生氣勃勃的；焦慮(anxious) 象限以紅色表示，焦躁不安、暴躁、憤怒的，如圖 5，圖中原點解釋為音樂剛開始的前奏，情緒導引及準備的狀態，圖表橫軸為壓力，代表音樂帶給聽者的抽象壓力；縱軸為能量，定義為音樂帶給聽者的抽象能量。例如：音量較大，抑、揚、頓、挫明顯，節奏快速緊湊分明的聲音通常代表音樂的能量較高；反之，音量較平和，拍子緩慢的聲音則表示音樂能量較小；不和諧的和絃或小調的音樂造成的壓力較大，反映出較為沉悶的情緒感受，容易讓聆聽者壓抑的情緒無法釋放等等，然而，這些音訊特徵不同的強弱程度和情緒模型中的兩軸都有直接相對的關係。圖 5 Thayer’s 情緒模型資料來源：[21] 1.2.4 音樂聆賞情緒之心理感受 由於音樂本身的本質是聽覺的媒體，在很多狀況下，人們所感受的音樂聆賞情緒，並不是單一的、彼此無交集的(disjointed)，梅爾認為音樂聆賞是一種動態的過程(dynamic

(21)

10 process) ，音樂的理解及欣賞在於人們對音樂的特性之感知 (perception) 與回應 (response)，Clark(1982)則認為情緒有別於情感，相對於情感而言，情緒比較強烈，也比較容易被注意，其中，常見的音樂情緒包含讓人緊張(tension)與鬆弛(repose)、穩定(stability)與不穩定(instability)、模糊(ambiguity)與清晰(clarity)等等，從音樂的心理層面的觀點看來，音樂心理學是音樂與人的行為、心理的互動關係和規律，音樂能持續不斷且出乎人意料的引起一些緊張感和不穩定的感覺，其引發的情緒反應之影響因素主要歸納為四類：（1）音樂結構：音的物理屬性(包含音高、音強、音質、時值)與感覺的關係；音程(八度、協和與不協和)對聽覺所產生的結合作用；（2）演奏者：演奏技巧或表達方式；（3）聆賞者：包括音樂方面的專業素養、個人偏好、個性、當下心情…等；（4）背景環境：演出場地、事件等，這些因素皆是影響聆賞情緒的

主要項目(Gabrielsson, 2001; Scherer & Zentner 2001)。

音樂演奏的過程中，只用音符無法完整的傳達音樂內容和表現音樂演奏的戲節，因此音樂表情(music expression)便成為在音樂演奏中很重要的因素之一，西方音樂用音符的相對長度和指定音高位置的體系來記譜，或者是運用音樂常見的特性，力度的強弱，速度的快慢、調性的不同，來呈現音樂想表達的情緒或意思。根據不同人物、不同的形象、發生不同的事件會產生不同情緒表現的關係；當音樂演奏時，影響音樂表情最重要的特性是速度以及力度；調性則讓我們在聆聽音樂時會有很明顯的情緒反應，例如表現開朗活潑情緒的音樂，在速度上大都是稍快的，力度上是較弱的，調性可能是屬於大調，表 1 和表 2 歸納歷年來音樂學家和研究學者對音程和音調與其引發的情緒反應之對照關係[22]。

(22)

11 表 1 音程的協合與情緒反應音程和諧程度音程頻率比情緒反應協合同度 1：1 中立完全八度 1：2 完美、成就，表現招搖、焦躁，哀悼完全五度 2：3 中庸、平靜、欣喜，間帶傷感完全四度 3：4 婉約的、哀怨的；滿足、欣喜、顏色、力量、發揚，間帶傷感不完全協合大三度 4：5 快樂的、安心的；欣喜、顏色、勇敢、果決、自信、發揚大六度 3：5 和悅、力量、勇敢、勝利小三度 5：6 忍耐的、順受的；悲傷、愁苦、騷動，另有人認為代表平靜、滿意以及宗教狂熱小六度 5：8 愉快的、渴望的；靜穆不協合小七度 4：7 哀傷的，悲泣的；疑慮大二度 8：9 愉快的盼望的；帶嚴肅氣大七度 8：15 強烈的盼望；騷動不滿意驚訝幻覺小二度 16：17 委靡不振；悲傷、痛悼、退讓、焦躁、疑慮增四度 8：11 神秘的、厭惡的、反抗的資料來源：[22] 表 2 調性與情緒的對應 C 大調和平、高潔、嚴整、樸素 c 小調溫和、景仰、思慕 D 大調雄壯、歡樂、充實、華麗 d 小調勇壯、沉鬱 E 大調華美、高貴、溫和 e 小調憂鬱、羞恥 F 大調柔和、喜悅、平和、充滿 f 小調暗淡、質樸 G 大調爽快、熱情、快活、華美 g 小調沉思、感慨 A 大調希望、光輝、活潑、熱情 a 小調柔和、流麗 B 大調銳利、典雅 b 小調嚴正、鈍重資料來源：[22]

(23)

12 1.2.5 音訊特徵萃取 由於音訊資料在多媒體資料當中隨處可見，也扮演著一個重要的特徵，因此音訊資料相關的研究與分析便顯得重要；尤其是基於音訊內涵為主的相關分析更為顯得重要與迫切。一般而言，在音訊資料的內容分析之前，音訊的特徵萃取是首要處理步驟，所謂音訊特徵即為聲音訊號行為模式的一種表現方式，將原始的聲音訊號以量化的方式盡量逼近人耳的感覺感受來代表此音樂的特徵。特徵萃取的分析步驟歸納如下：首先將音訊資料切割成音框單位，針對每個音框中的聲音做特徵分析，產生一組參數，通常包含響度(音量)、節奏、音調，三種影響音樂表情的主要因素，然後在所謂的特徵空間中以統計的方法，將每個音訊檔案做分類。音訊特徵在時間分佈上有尺度的不同，小的尺度音樂訊號的數值特徵，如：短時距頻譜(Short-time spectrum)與其幾何分部或對比、過零率 (Zero Crossing Rate)、平均靜音比率(Average Silence Ratio)…等。大的尺度也就是一般人可以直接感受到的音樂特徵，如：節奏、旋律、調性…等，通常大尺度的特徵可由小尺度的特徵做平均統計或是變化趨勢分析來找出。 1.2.6 相似度量測 在內涵式音樂資料檢索系統當中，音樂資料的相似度量測是音樂檢索系統能否成功的重要因素之一，相似度量測往往被用來解決使用者無法精確地提出查詢並得到合適的結果，例如：使用者在哼唱時容易出現音調、節拍不符，多音、少音、錯音等情形，因此，計算查詢與音樂資料間的相似度是內涵式音樂資料檢索一項重要的技術，但對於音樂特徵的萃取不同，其適合的相似度演算法也不盡相同。其中，近似字串比對 (approximate string matching)演算法和編輯距離演算法(edit distance)常被應用在將音樂的旋律特徵用符號或字串表示的相似度比對上，利用比對計算值的大小來決定兩字串近似的程度，找尋資料庫中相似的音樂檔案。編輯距離定義是兩個字串之間做比對，所需要最少插入 (insertion, duplication error) 、刪除 (deletion, dropout error) 、和替代 (Transposition error )的數目。

(24)

13

串時序性的序列，Hsu、Liu 及 Chen[24]把主旋律特徵包含旋律、節奏、和弦等用字串表示，Southampton[25]最早開發 QBH（Query By Humming）系統，將使用者透過麥克風哼唱的音樂資料轉成包含了 U（這個音比前一個音高）、D（這個音比前一個音低）、R （這個音和前一個音相同）的字串來對音樂資料庫搜尋；也有研究學者為了加快檢索速度和使用者的等待時間，透過索引結構的建立讓音樂檢索快速地被處理[26]，不同的索引結構所適合的近似字串比對方式也不相同，不過主要還是以編輯距離的精神為主，插入、刪除、替代這些在編輯距離上的操作正好可以用來處理查詢序列多音、漏音、變調的問題。除了近似字串比對演算法和編輯距離演算法，距離演算法可以用來解決多個特徵向量高維度的相似度比對，只要兩個要比對的音樂轉換成長度相同的特徵向量，就可以利用這個方式，最常被用的是歐基理德距離演算法，[11]將資料分割成同樣大小的音框，萃取音樂資料中每個音框的低階特徵值，利用距離演算法來計算任兩音框間特徵向量的相似度，其計算結果的距離最小，即為最相近的音樂作品。

(25)

14

二、音樂多重結構分析

2.1 音樂結構介紹 音樂是由各種音符有次序的安排而流動的聲音藝術，利用聲音來表達作曲者的情感、意志、欲望等內心世界，雖然它是無形的、抽象的、心理的、情感的，但構成音樂形象的聲音是有特定形式的，它是有生命的，作用於人的聽覺，使聆聽者產生一定的聯想，進而在頭腦中形成富有情感的意象，在情緒上受到感染和陶冶。根據陳文雄音樂與美學-曲式篇一文中的介紹，音樂學所釋義的『形式』，包括兩種不同意義的範圍：(1)音樂曲體（Form In Music），指的是音樂內在的結構形式，用來表達或傳達音樂內容，在特定的時間內各種音樂元素：音色、力度、節奏、旋律等交互作用而產生音樂的輪廓與結構，這些音樂要素不是一群音符的隨便組合，都是經過理性的思維與有秩序的安排所譜寫出來的音樂形式，其中主題(theme)為構成此音樂內容的結構單位之一。(2)音樂曲式（Form of Music）是音樂形式的外表，說明音樂曲子外在結構的規格曲式（Form），用來勾畫音樂形式中不同層次的結構單位分別為樂節、樂句、樂段、段等四種。音樂曲式通常意指音樂史上各時期所使用的曲式，亦即作曲家在譜寫作品時心中設計的一種結構模式，好比建築師的平面構圖一般，例如：巴洛克時期（ Baroque,1600-1750 ）的賦格曲（ Fugue ）或變奏曲式（ Variations ）；古典時期（Classical,1750-1820）的奏鳴曲式（Sonata Form）等等，因此，作曲家在作曲時會遵照此種特定之音樂結構的形式加以創作、發揮，稱為音樂形式(music form)。音樂形式為構成各種歌曲的形式，其構成因素分別為曲體和曲式，包含了音樂理論上的一切原則，即音、音程、音階、調性、節奏、樂句、主題、反覆、變奏、模進等等內在形式，而音樂形式的表達在於應使內容中最重要及次要的部分區分清楚，其中最重要的部分稱為「主題性材料」，主要是指古典音樂中的「主題」或「主題附加部分」（流行音樂中的主歌或副歌部分），而次要部份稱「非主題性材料」，最常見的是樂曲開始的「前奏」、樂曲結束的「尾奏」，及樂曲中間做為連接前後兩個主題用的「過門」或「間奏」。即使各種現代音樂流派紛紛出現，音樂觀和形式觀已經改變，音樂創作趨向自由

(26)

15

化，不再像傳統音樂拘泥於定型的曲式結構，但無論是古典音樂或現代流行音樂，在創作過程中仍然是存有音樂本身的音樂形式和音樂結構的一定規則。

音樂結構存在兩種規則：階層規則(hierarchical rule)和重複規則(repetition rule)。階層規則主要是針對古典音樂，說明音樂物件是以階層方式形成，如從大到小為 movements →sentences→phrases→figures；而同時被應用於流行音樂中的重複規則則是指一段一樣的旋律會重複地出現在音樂物件當中，像是古典樂中的動機(motives)或流行歌曲中的主歌或副歌部分，以上描述主要是以音樂學的角度來描述傳統音樂的音樂形式。也就是說，以傳統音樂學的概念來說明現代流行音樂，通常，一首普通音樂的音樂結構主要包括了前奏(Intro)、主歌(Verse)、副歌(Chorus)、過門或間奏(Instrument Solo)、尾奏(Ending)等幾個以音樂順序連接而成的部份，組成每個部分的元素大可分為主旋律（Melody）、節奏（拍子 Rhythm）、速度（Tempo，如快板、中板、慢板）、以及襯托主旋律的第二旋律等等音樂元素，但未必每首音樂都齊備上述種種元素。當我們欣賞一首歌曲的時候，最引人注意且印象深刻的無非就是樂曲中一再重複的音樂片段，也許是駕馭整首歌曲靈魂的主旋律(主歌)，整首歌曲的主要內容，也或許是用來襯托主旋律，與主旋律成對比的第二旋律(副歌)，而主歌和副歌兩部分亦即我們在前面所描述的「主題」部分；所謂的前奏是指歌曲第一主題出現前的音樂，以現代流行音樂來說，前奏是主歌開始前的部分，主要在告訴聆聽者一首歌的開始，同時給予聆聽者在情緒感受的導引和準備，幫助聆聽者進入音樂的內容。無論是什麼的前奏，都應該為樂曲先營造恰當的氣氛，這是十分重要的，音樂前奏的好與壞，影響聆聽者對歌曲的第一印象，正如一篇文章的引子一樣。過門讓音樂段落連接有間歇的效果，間奏則讓音樂段落連接更為自然且順暢[27]。

(27)

16 圖 6 流行歌曲的常見曲式資料來源：[27] 如圖 6，以流行音樂常見的曲式：AABA，其中 A 與 B 分別是兩個不同的音樂段落主題(主歌與副歌)，A’與 B’則是將 A 與 B 作些微的變化。以此例來說，過門發生的地方在 X 或 Y 中的主題段落連接，間奏則發生在不同曲式 X 與 Y 之間段落的連接，此外，在音樂編曲理論中，過門的小節數通常介於一至四小節，而間奏的小節數則介於四至八小節；尾奏通常發生在整首歌曲終結之前，大多有一段作完結的純音樂。較常聽見尾奏的表現方式，如將歌的最後一句重複一次，或重複多次並且漸漸降低聲量至完全沒有聲音（Fade Out）而作完結，以此方式的搭配，不僅使歌曲有收尾的動作，亦使歌曲有前後的呼應和對比，以及讓歌曲有更完美充實的意境與情感。綜合以上描述，本論文主要針對現代流行音樂作為研究分析，假設所萃取的音檔中存在少部分的古典音樂皆存在重複規則的音樂結構，一首歌的構造主要由前奏，兩段主歌，一段副歌，過門音樂，再來一次的副歌和主歌，以及結尾音樂順序地連接而成的。以音樂內容做主題式的分段，探勘歌曲中的主題性材料，做為系統情緒分析的測試音樂片段，而預設所要萃取音樂片段的部分主要包含前奏、兩段主歌、一段副歌等部分，義即為圖 6 中的 X 部分。 2.2 自相似研究方法(Self-Similarity Analysis) 相似性是音樂檢索、推薦的基礎，本論文參考 Foote[9][10][11]提出的一個基於自相似分析的音樂摘要方法[9][10][11]，該方法將音頻訊號分為固定長度的音框，提取每個音框中 MFCCs 係數作為特徵向量。經由計算任兩特徵向量間的餘弦距離得到一個二維相似度矩陣，最後以累加相似度矩陣各列的數值(Novelty Score)得到具有最大相似度的峰值來找出樂曲中近似重複片段的邊界，以此分段作為一個樂曲最有代表性的部分(摘

(28)

17

要)，並說明在任何時刻音頻訊號中明顯的變化和其的峰值成正比，系統流程圖請參照圖 7，在此我們將針對 Foote’s Self-Similarity 方法中的幾個重要步驟做詳細的介紹，首先 2.2.1 音頻參數化 (Parameterization)是訊號分析前做預處理的動作；2.2.2 距離－相似矩陣 (Distance Matrix Embedding)則是將每個音框間做距離運算而得的相似度矩陣； 2.2.3 偵測新穎性 (Detecting Novelty)簡單介紹新穎性計分方法(Novelty Score)在此方法中的定義並說明所應用的相關基礎理論－核心相關(kernel correlation)，以及介紹如何利用新穎性計分(Novelty Score)的計算公式測得音頻訊號各個音框間的最大相似值以判斷音樂多重結構的邊界。圖 7 Foote’s similarity 資料來源：[9][10][11] 2.2.1 音頻參數化 (Parameterization) Foote 所提出的方法其系統應用相當靈活，可以隨不同的應用加入現有的音頻分析方法，例如：基於人耳對於不同頻率的感受程度，萃取 MFCCs 作為輸入音頻訊號的特徵向量進而達到辨識效果。音頻參數化首要步驟為統一輸入音檔的規格和取樣頻率，針對窗函數的概念對輸入音頻的波形加窗取得獨立的音框，所謂加窗指的是將一段音頻離 散時間訊號 x(n)，用固定長度的視窗(window)套上去，只看視窗內的訊號，對此視窗內

(29)

18

的訊號作運算，用以求出在此視窗內的音樂特徵。針對不同的應用設計不同的音框長度和重疊長度，音框若太大，就無法抓出音訊隨時間變化的特性；反之，音框若太小，則無法抓出音訊的特性。

2.2.2 距離－相似矩陣 (Distance Matrix Embedding)

完成音頻參數化步驟的音頻訊號會被分割成具連續性同樣大小的音框，每個音框存

在獨自代表性的音頻特徵，將每個音框 i 的特徵向量 vi和音頻訊號中某個音框 j 的特徵

向量 vj以距離演算法作時序性的自相似量測，最後，特徵向量間的相似度距離計算結果

將產生一個二維空間的相似矩陣 S。

在向量空間中判斷兩向量間的距離或稱相似度，有兩種簡單且常用的方式－歐基理

德距離(Euclidean Distance)和餘弦相似度(Cosine Similarity)。假設在 L 維空間中存在 vi

和 vj兩特徵向量，則其歐幾里得距離可表示如公式(1)，亦即圖 8 中的距離 D( i , j )，其 中 k 表示為音框的索引數目。計算後的數值如果為 0 則表示兩個向量完全相同，而數值 越大則代表兩個向量間的相似程度越低。利用歐幾里得距離來度量相似度雖然簡單，但其缺點在於量測結果的單位與程度不明，只能知道距離越小，相似度越高。







 



2 1 D , L e _i y i j k v v v k v k  



 (1) 餘弦相似度(Cosine Similarity)如式(2)，以兩組相同基底（Base）與維度（Dimension）向量間的角度（Angle）差距來量測該兩向量間的距離（Distance），其計算結果會介於 0 至 1 之間，當兩個向量間的角度差距越小時，表示該向量間的餘弦角度越小，其計算結果就越接近於 1，也即代表該兩向量相似度越高，反之，其計算結果就越接近於 0，代表該兩向量相似度越低。一般來說，相似矩陣 S 的最大相似會出現在對角線的方向上，因為每個音框的音訊資料之最大相似部分就是自己本身。





   

 







 



c 2 2 1 , D , L i j i j y i k i i i j v v v k v k v v v v v k v k     



_ (2)

(30)

19 圖 8 基於距離演算法之相似矩陣圖 2.2.3 偵測新穎性 (Detecting Novelty) 新穎性(Novelty)在此用來表示音頻訊號顯著的變化點，在討論新穎性之前，我們將針對其用到的相關理論－核心相關(kernel correlation)先做介紹，然後再介紹如何測得新穎性計分(Novelty Score)。  核心相關(kernel correlation) 在 Foote’s Self-Similarity 方法中，相似矩陣 S 是量測音訊相似度的主要關鍵，為了找出瞬間音符大範圍變化的邊界點，也就是新穎性計分(Novelty Score)，Foote 利用一個 看起來像“黑白棋盤”的矩陣來和原本的相似矩陣 S 做摺積運算，其中組成棋盤格矩陣 的最簡單元素為：一個以主對角線為 1 組成的 2x2 單位同調矩陣(coherence matrix)和一個以反對角線為 1 組成的 2x2 單位不同調矩陣(anti-coherence matrix)，兩個單位矩陣的差即為棋盤的內核心(checkerboard kernel)，如公式(3)中C '的第一項和第二項。

(31)

20 1 1 1 0 0 1 ' = 1 1 0 1 1 0 C _  _ _  _{ } _        (3) 值得注意的是，在 Foote’s Self-Similarity 方法之相似矩陣的運算討論中，為了配合相似矩陣座標軸的起始點，將原本矩陣的座標軸是以左上方向至右下的方式皆改成左下至右上的方式，如公式(4)。 1 1 0 1 1 0 = 1 1 1 0 0 1 C_ _ _  _{ } _        (4) 單位棋盤內核的概念是將一個方形矩陣想像成一個被分割成四等分的正方形，正方形的中心點代表此單位棋盤內核的原點，中心點的左邊和下方依時序性來說代表過去的音框，右邊和上方代表未來的音框，每個小正方形代表一個矩陣元素。式(4)中的第一項是用來量測同一個音框的自相似性程度(self-similarity)，數值越高表示此音框中心點的兩側其音頻訊號之相似性極高；第二項是用來量測橫跨兩個音框的互相似性程度 (cross-similarity)，數值越高表示這兩個音框的音頻訊號大範圍幾乎一樣，只有些許的不同。而兩項數值的差就是在這個分法中的重要部份：新穎性計分(Novelty Score)，用來測量訊號本身的相似程度，所得的差值越大，表示此兩個不同音框的訊號彼此非常相似。棋盤內核的大小可以依照所要分析音頻資料的音框長度自行做調整，小尺寸的棋盤內核用來檢測短時間尺度的顯著改變，如節拍(beats)或音符(notes)；大尺寸的棋盤內核平均短時間尺度所量測的新穎性計分(Novelty Score)，用來檢測較長的音樂結構，如主歌和副歌之間的音樂轉換。大尺寸的棋盤內核構造是一個 2×2 的單位棋盤內核和一個維度為 m×n、構成元素皆為 1 的矩陣做克羅內克積(Kronecker product)運算，克羅內克積定義為兩個任意大小的矩陣間的運算，以符號表示，如果 A 是一個 m×n 的矩陣，B 是一個 p×q 的矩陣，而克羅內克積則是一個 mp×nq 的分塊矩陣，舉例來說：如果要得到一個 4×4 的棋盤內核，就是把 2×2 單位棋盤內核和 2×2 矩陣做克羅內克積運算，如式(5)。利用克羅內克積來改變棋盤內核尺寸大小的優點在於可以保留原本棋盤內核的結構。 1 1 1 1 1 1 1 1 1 1 1 1 = 1 1 1 1 1 1 1 1 1 1 1 1        _{ } _    _{ } _        _{ } _        _        (5)

(32)

21  新穎性計分(Novelty Score) 由於相似矩陣是將音訊資料切割成音框單位後，任兩音框之間作相似比較而得的數值，所以新穎性計分(Novelty Score)正代表兩個音框間其音頻訊號改變的程度，我們將利用測量而得的新穎性得分作為音樂訊號粗略分段的邊界。圖 9 新穎性計分的運算概念如何運算得到新穎性計分呢？做法為想像將一個以單位棋盤內核組成的矩陣，沿著 相似矩陣 S 對角線的方向滑行，如圖 9。棋盤內核矩陣和相似矩陣 S 中每個元素做乘積 運算，最後將所有乘積運算而得的數值加總起來就是新穎性計分(Novelty Score)，如式 (6)，其中 C 表示一個棋盤內核矩陣，寬度為 w，中心點( 0,0 )，中心點兩側分別代表寬 度為 2 w_{，以時序性而言，過去的音框和未來的音框；i 則是相對於原始音頻訊號在連續} 時間索引上的音框數目。為了有效的考慮距離中心點( 0,0 )在新穎性計分的影響程度，同時避免音框中心點兩側音頻資料組成的不平均所產生的邊緣效應(Edge Effect)，在這裡我們使用加窗概念，利用一個 32×32 高斯徑向基函數的濾波器來平滑棋盤內核矩陣，如圖 10；圖 11 比較原始尚未濾波的棋盤內核(左邊)和經過高斯濾波器平滑後所形成的棋盤內核平面圖(右邊)，其中越接近中心點( 0,0 )的值越大；反之，越靠近邊緣區域的值

(33)

22 將趨近於 0。   2 2     2 2 , , w w w w m n N i C m n S i m i n   

 

  (6) 圖 10 32×32 高斯棋盤內核立體圖資料來源：[28] 圖 11 32×32 高斯棋盤內核平面圖資料來源：[29]

(34)

23

三、音訊分析之方法與原理介紹

3.1 能量頻譜(Power Spectrum) 能量頻譜為一種描述訊號在頻率軸上如何分布的方法，經由快速傅立葉(FFT)的運算後將時間訊號轉換至頻率軸上討論，如式(7)。根據 Parseval 定理，訊號經快速傅立葉轉換後取其振福的平方即為音樂訊號的能量，如式(8)。 2 1 0,1,2,..., 1 0

[ ]

k N _j _n N m m k N n

X

k

x n

e

    _{ } _     







(7)

 

2 0,1,2,..., 1

[ ]

m m k N

P k

X

k

 



(8) 其中，xm[n]為原始音樂訊號，m 為音框索引值，Xm[k]為原始訊號經快速傅立葉轉換 後的頻譜，Pm[k]為訊號的能量頻譜。 3.2 短時距頻譜 當我們在分析聲音時，通常以「短時距分析」（Short-time Analysis）為主，因為音訊在短時間內是相對穩定的。因此，針對已音框化單一音框的聲音訊號，其頻譜可由短時距傅立葉轉換(Short time Fourier transform)計算，配與特定權重的離散傅立葉轉換 (Discrete Fourier transform)，其數學定義如下：

2 1 0,1,2,..., 1 0

[ ]

k N j n N m m k N n

S

k

x n

w n

e

    _{ } _     







(9) =0,1,2,..., 1

[ ]

s k N

f

f k

k

N







(10) 其中 m 為音框數的索引，k 為音框頻域樣本點的索引，Sm[k]代表第 m 個音框的其對 應於頻率 f[k]的頻譜強度，w[n]即為每個音框樣本點的對應權重或稱為視窗函數(window function)。f[k]為音框頻域樣本點所對應的實際頻率值，fs為訊號的取樣頻率。圖 12 為單一音框頻譜的圖形，從圖中可以清楚看到音訊在各個頻率的強度大小與分佈。如圖 13 說明連續時間音頻訊號在不同時間各個頻率的強度大小與分佈的頻譜圖。

(35)

24 頻譜的內容和聲音訊號的音色有密切關係，包含聲音訊號的基頻、泛音成分、音高的清晰程度…等，反映在頻譜中各個頻率的強度分布情形。圖 12 單一音框的頻譜圖資料來源：Mariage Damour.wav_frame#300 圖 13 連續時間的頻譜圖資料來源：Mariage Damour.wav

(36)

25

而視窗函數 w[n]是用來選取原始音樂訊號某特定部分的實數、且長度有限的序列， 常用的視窗函數為矩形視窗(Rectangular window)、漢明視窗(Hamming window)和漢尼視窗(Hanning window)，三種不同視窗之示意圖如圖 14。由於訊號是連續的，如果在傅立業的轉換過程中外加一個矩形窗做取樣，在窗的兩旁會造成訊號的不連續且對於轉換後的訊號兩旁容易產生假訊號，為了降低此問題，使窗內外不會有太劇烈的變化，通常分析時會選擇使用漢明窗或漢尼窗，它具有壓抑短時距訊號的兩端，改善音框訊號在計算頻譜時的邊界效應；保持中間段的特性，使頻譜的數值對比更好。三種視窗之數學定義依序如下。 0,1,2,..., 1 [ ] 1 n N w n    (11) 0,1,2,..., 1 2 [ ] 0.54 0.46 cos 1 n N n w n N



       _ _    (12) 0,1,2,..., 1 2 [ ] 0.5 0.5 cos 1 n N n w n N



       _ _    (13) 圖 14 三種不同視窗產生的濾波響應圖

(37)

26 3.3 音調層級分析 Pitch Class Profile(PCP)

由短時距傅立葉轉換得到頻譜數值後，可以進一步利用頻譜來計算一般的音樂理論分析上較常用的音調特徵值(Pitch Class Profile，PCP)，音調一般以大寫音文字母 A 到 G 表示。由頻率和半音(semitone)之間的關係式可將頻率換算為音調，再利用音調於倍頻或稱八度(Octave)為相同音調層級的概念，即可將頻譜換算為對應的音調層級(Pitch Class)

[2]

，如下： 2 1

( )

24 log

f

s

k

mod 24

P k

N

f









_



_





(14) ( )

PCP[ ( ), ]

| [ , ] |

P k

P k n





S k n

₍₁₅₎ 上式將頻譜數值映射到 24 個音調層級上，因為考量以 12 平均律切割的 12 個音調層級在數值分析應用上不夠準確，故將每個層級中再對半切割，成為 24 個音調層級。 第一式中 k 為頻域的樣本點數索引，P(k)表示頻域和音調層級空間的對應關係，代表頻 域第 k 個樣本點之頻率值對應的音調層級，24log2((fs/N)k /f1)將第 k 點的頻率值換算為對應的半音數，再由餘數(mod)方式將倍頻的音調歸為同個音調層級。第二式將頻譜數值 轉換到音調層級空間(PCP domain)的表示法，其中 n 為音框數的索引， S[(k=0, 1 , …, N), n]為第 n 個音框的頻譜數值，P(k)為音調層級空間的樣本點數索引， PCP[(P(k)=0, … , 23), n]則為第 n 個音框的音調層級數值，其為頻譜中所有倍頻的相同音 調層級的強度加總。對於較為複雜的音訊，如實際的流行音樂，音調層級的表示可以看出音框內的各個的音調層級的強度與和聲架構。以音調層級的表式法，則可以對頻譜套用音樂學理上的分析方式，如音程(Interval)、旋律(Melody)、和弦(Chord)、調性(Mode)… 等，各種音樂理論分析或應用。單一音框的音調層級強度分佈如圖 15，各個時間的音調層級的強度分佈如圖 16。

(38)

27

圖 15 單一音框的音調層級強度分佈圖資料來源：Damour Mariage.wav_frame#300

圖 16 連續時間的音調層級強度分佈圖資料來源：periodmusicDamour Mariage.wav

(39)

28 3.4 高斯混合模型 Gaussian Mixture Model (GMM)

高斯混合模型是單一高斯機率密度函數的延伸，為一種常見的正規分佈。一般在一 維的狀況下，高斯機率密度(Probability density function)是用來說明特徵向量 x 在一個特 定種類中出現的機率為何，如式(16)為描述特徵向量 x 的機率密度，其分佈圖形如圖 17。 2 2 ( ) 2 1 ( ; , ) 2 x p x e  

 

 

    (16) 圖 17 高斯分部其中有 µ 和兩個重要的參數，µ 為期望值(Expectation value)，代表密度函數的中心點或平均向量，位於高斯分佈的中央；2稱為變異數(Variance)，而為標準差(Standard deviation)，其值的大小和分佈的集中程度有關，值愈小表示越集中。定義如下： [ ] ( ) E x xp x dx     

_

(17) 2 2 [( )] ( ) ( ) E x x p x dx        

_

 (18) 高斯模型：利用向量和矩陣推廣為高維度的高斯機率密度函數表示如下式(19)： T 1 / 2 1 / 2 1 1 ( ; , C)= exp ( ) C ( ) 2 (2 )d | C | g x x  x    _ _ _      (19)

(40)

29

其中μ和 C 分別為期望值和共變異矩陣(Covariance Matrix)，Covariance 是 Variance 在高維度中的一種推廣，其第 i-j 個元素代表第 i 維度和第 j 維度的相關性，其值大於零表示正相關，小於零為負相關，等於零代表互相獨立，對角線元素就是變異數，數學定義如下，同一維的情形，高斯分佈的參數μ和的值會和其分佈的中心位置和曲線寬度有關。 1 1 2 2 x E[ ] E[ ] [x] x (x) E[ _d] _d x x P x                                 



(20) 1 1 1 1 1 1 2 2 1 1 2 2 1 1 2 2 2 2 2 2 1 1 2 2

E[( )( )] E[( )( )] E[( )( )]

C

E[( )( )] E[( )( )] E[( )( )]

d d d d d d d d d d d d x x x x x x x x x x x x x x x x x x                            _ _ _ _ _ _        _ _ _ _ _ _    (21) 高斯分佈其在統計應用上有許多特殊性質，數據資料若集中在平均數附近，皆可以以高斯分佈做一個近似的分佈模型，因此為一種良好的統計模型，但是並不是所有的狀 況都能以單一高斯分佈描述，當所量測的資料 X={x1,x2,…,xn}在 d 為空間中的分佈不是椭球狀，就不適合以一個單一的高斯密度函數來描述這些資料點的機率密度函數。此時將採用數個高斯函數的加權平均(Weighted Average)來描述 X 的機率密度，亦即高斯混合模型。如第(22)式為一個二維空間、以三個高斯機率密度函數表示的數學式，其中 Cj為各個高斯密度函數的共變異矩陣，而且權重1、2、3要滿足總和為 1，其分佈圖形如圖 18。 1 1 1 2 2 2 3 3 3 2 2 1 2 3 ( , ) ( , ; , C ) ( , ; , C ) ( , ; , C ) 1 0 0 C I = 0 1 0 , 1, 2, 3 0 0 1 1 j j j p x y g x y g x y g x y j                    _ _         (22)

(41)

30 圖 18 混和高斯分部資料來源[30] 只要知道屬於每個種類的機率密度函數，很容易就可以比較同一個量測值，對應每個種類的機率的大小，進而找出可能性最大的種類為何，但由於一般待測量的數據資料，並沒有辦法得知其實際機率密度函數，找出一近似的機率密度函數的方式如下： 1.對於每個類別，由一個初始的猜測：給定初始的高斯函數疊加個數，及每個高斯函數 的參數，產生一個初始的 GMM。 2.利用已經設定好的數據，即訓練樣本，利用 GMM 計算分類結果，找出辨識率。接下 來的目標就是要使這個辨識率的值增加，辨識率越高代表這個分佈模型越能表示這些訓 練樣本。 3.以微分求極值的方式，由舊有的參數計算出一組新的 GMM 參數。 4.重複步驟 2~3 疊代，直到辨識率收斂到某一個極值。

此描述的計算方法稱為 Maximum Likelihood Estimation (MLE) 或 Expectation Maximization (EM)，經由反覆疊代，找出一組最佳化的 GMM 參數，當作代表這些數據樣本的機率密度函數。對於未知種類的測試樣本，簡單比較其值對於各個種類的機率值

(42)

31 大小(屬於該種類高斯分佈位置的高度)，就可以找出最有可能的種類為何，如此便設計了一個 GMM 分類器。註：疊代過程中並不是一定會收斂到全局最大值(Global Maximum)，也有可能會收斂到局部最大值(Local Maximum)。所以並不是所有的數據 GMM 都可以有很好的表現，這和初始設定的參數也都有關係，如高斯函數疊加的數目…等，想要有較好的結果，訓練樣本一定要足夠。

(43)

32

四、研究方法

本章節討論本篇論文的研究方法，第一節提出系統架構流程；第二節說明測試資料預處理步驟－音樂分段；第三節討論音樂多主題架構的情緒分析方法；第四節說明音樂情緒相似度的概念與比對方法。而系統最終輸出之圖形化使用介面－視覺化的音樂自動選曲系統與流程將在第五章音樂心情點唱機再做詳細的介紹。 4.1 系統架構 系統流程如圖 19 所示，系統輸入的音訊資料主要分成訓練資料和測試資料兩大部分，圖中紫色方塊部分為訓練資料和測試資料都需要分析的步驟，包含音訊輸入、特徵萃取、計算能量－壓力情緒分數等；綠色方塊部分代表只針對訓練資料做分析；藍色方塊部分代表測試資料的分析步驟。圖 19 系統架構流程方塊圖訓練資料由兩百首長度為三十秒、已標記單一穩定情緒的音樂片段組成，用於辨識系統測試資料的音樂情緒；測試資料總共有兩百一十首，音訊內容完整、wave 格式的

(44)

33 音樂，包含古典純樂器演奏音樂至流行音樂、電子音樂等各種風格類型，主要用於系統最終輸出的圖性化介面，為系統的音樂資料庫。音樂資料庫的音訊資料首先透過系統的預處理步驟分析多重主題結構的音樂片段，接著萃取並分析這些音樂片段的各種音訊特徵後計算其能量－壓力的情緒得分，最後經由訓練資料界定的情緒邊界辨識在每個時刻所屬的情緒後，事先儲存音樂資料庫中每首歌曲的情緒比例，將被應用於之後系統輸出使用者介面情緒成份相關的即時運算。 4.2 音樂多重主題結構分析 音樂之多重主題結構分析為系統測試資料的訊號預處理步驟，主要是擷取音樂多重主題結構的音樂片段。為了測量以多主題音樂結構為基礎的音樂片段，首先要分析的是樂曲中近似重複片段的週期 t1,t2,t3,t4 (包含主歌和副歌的近似重複片段)，分別以主歌的近似重複片段週期之邊界和副歌的近似重複片段週期之邊界作為主題性音樂片段的切割點，基於音樂時序性分析所有擷取的切割點來找出樂曲演奏完所有主題結構(第一主題曲式結構)，即將進入第二次重複演奏以前的時間點，亦即間奏部分，由於間奏在音樂結構中主要扮演連接的角色，對於音樂情緒感受的影響並不大，因此我們將間奏部分視為自由性擷取，最後，並將所擷取的時間點作為音樂多重主題結構之週期切割點。音樂多重主題結構之音樂片段的擷取主要著重於主題段落，預設擷取的音樂片段週期如圖 20 的紅色現段，A 代表主歌；B 代表副歌。圖 20 說明預設擷取的音樂多重主題結構之週期

(45)

34 音樂多重主題結構之分析方法分成(1)粗略分段(Rough Segmentation)和(2)精細分段 (Salient Segmentation)兩個主要步驟,詳細說明如下： (1) 粗略分段－近似重複片段之邊界檢測 訊號預處理：統一所有要分析的音樂檔案格式為.wav 檔，雙聲道，設定取樣頻率為 11025Hz，將音訊檔案切割成固定的音框長度，音框數目依各個音訊檔案的時間長度改變。特徵萃取：統一設定音訊檔案的所有參數後，首先萃取音頻訊號波形在頻域空間上的頻譜特徵來取代萃取音頻訊號中音樂內容相關的聲音特徵所造成複雜且過大的運算量，常見的如：音高(Pitch)、和弦(Chord)、調性(Tonality)、主音(Key)、rhythm(節奏)、節拍(Tempo)等。考慮重複片段出現的頻率，將每個音框的頻譜振幅值取平方而得的能量頻譜(power spectrum)作為一特徵向量，所謂能量頻譜(power spectrum) 定義為一個時間序列的訊號經快速傅立葉(FFT)轉換後振幅的平方值，說明一個時間序列的訊號變化在頻域空間上的能量分步。接著，利用自相關函數(Autocorrelation) 計算每個音框的能量頻譜特徵來強調重複片段在時域空間上出現的頻率，如圖 21 頻域上能量分布豐富且明顯的部分代表近似重複片段可能發生的時間點。圖 21 利用各個音框之能量頻譜進行自相關函數計算資料來源：Mariage Damour.wav

(46)

35

相似矩陣：參考 Foote[9][10][11]提出的 Foote’s Self-Similarity 方法，首先利用餘弦相似度之距離演算法來計算任兩個音框能量頻譜特徵向量之間的相似度，如圖 22，相似矩陣中顏色越亮代表其相似性越高，主對角線白色部分代表音框自己本身的相似度。從圖 22 中可以由平行主對角線的白色線條或較明亮的方形區塊來判斷歌曲中近似重複片段的部分，其中平行主對角線的線條說明了再次發生的“連續性序列音樂”，而方形區塊表示內部重複出現同種音樂的狀態。基於相似矩陣的對稱性，可以單只針對一個上三角型或下三角型上的資料做分析。圖 22 以自相關函數計算任兩個音框能量頻譜特徵向量之相似矩陣音樂分段：如同 Foote’s Self-Similarity 的做法，根據公式 23，利用一個 32×32 的棋盤內核矩陣和相似矩陣做各個元素的乘積運算，最後再加總所有音框內的元素乘積數值而得新穎性計分。如圖 23，其下方圖為新穎性計分的峰值圖。   2 2     2 2 , , w w w w m n N i C m n S i m i n   

 

  (23)

(47)

36 圖 23 相似矩陣和新穎性計分之比對圖資料來源：Mariage Damour.wav 利用已量測的新穎性計分之峰值來判斷近似重複片段之週期切割點，利用前三高的新穎性計分做為各個主題週期的切割點，初步以最高之新穎性計分峰值作為近似重複片段之粗略分段，如圖 23 中之下方圖的 91.45s 處，即為近似重複片段之粗略分段。在此，將針對新穎性計分的峰值(Novelty score = 1)和谷值(Novelty score = 0)分別做介紹：

 Novelty score = 0

根據新穎性計分公式，若將棋盤內核矩陣和一個組成元素皆為 1 的矩陣直接作乘積運算後加總起來，其新穎性計分為等於零，亦即代表圖 23 中下方圖的谷值部分。依據組成棋盤內核的概念來說明組成元素皆為 1 的矩陣，參考公式 24

基於多重結構分析聆聽情緒相似度之音樂資訊檢索

國 立 交 通 大 學

工學院聲音與音樂創意科技

碩士學位學程

碩 士 論 文