國 立 交 通 大 學
工學院聲音與音樂創意科技
碩士學位學程
碩 士 論 文
基於多重結構分析聆聽情緒相似度之音樂資訊檢索
A Music Linkage Jukebox based on Multi-Structure
Analysis of Music Emotion Similarity
研究生:林芷伊
指導教授:鄭泗東 教授
基於多重結構分析聆聽情緒相似度之音樂資訊檢索
A Music Linkage Jukebox based on Multi-Structure Analysis of Music
Emotion Similarity
研 究 生:林芷伊 Student:Chih-Yi Lin 指導教授:鄭泗東 Advisor:Stone Cheng國 立 交 通 大 學
工學院聲音與音樂創意科技碩士學位學程
碩 士 論 文
A ThesisSubmitted to Master Program of Sound and Music Innovative Technologies National Chiao Tung University
in partial Fulfillment of the Requirements for the Degree of
Master in
College of Engineering
July 2012
Hsinchu, Taiwan, Republic of China
i
基於多重結構分析聆聽情緒相似度檢索之音樂心情點唱機
學生:林芷伊 指導教授
:鄭泗東國立交通大學 聲音與音樂創意科技碩士學位學程
摘 要
作曲家利用音符轉述傳達自己的想法來譜寫音樂作品,藉由音符連續不斷的變化構 成音樂的主題,多個音樂主題組合產生一段主要旋律,希望使聆聽者在聆聽此音樂片段 時有相似的情緒感受並快速地為聆聽者留下印象深刻、難以忘懷的聆聽經驗。許多音樂 情緒分類或辨識的研究將聆聽音樂所產生的情緒感受總結為音樂帶給聆聽者的”心 情”。在曲式結構中將許多的音樂主題(主歌與副歌)搭配過門音樂做重複性地些微變化串 起來譜成完整的音樂,本論文以樂曲訊號之多重主題結構分析為基礎,提出一套基於聆 聽情緒相似之音樂檢索系統,協助聆聽者快速地從音樂資料庫中選擇相似聆聽情緒之音 樂檔案,並降低音樂資料多重特徵檢索對記憶體的使用量。本系統主要分為多重主題結 構分析、音樂情緒比 例分析、音樂情緒檢索等三個部份:首先,利用自相關函數 (autocorrelation function)分析多重主題的音樂結構,包括前奏(Intro)、主歌(Verse)與副歌 (Chorus)等段落。在音樂情緒比例分析方面,引用 Thayer 提出的情緒模型,將兩百首註 有人工標記情緒類別的音樂片段進行特徵萃取與情緒記分,以高斯混合模型(GMM)進行 訓練並劃定舒適、哀傷、焦慮與振奮等四個情緒類別的邊界。接著利用此多重主題結構 組成的音樂片段做為音樂情緒辨識的測試樣本,計算該音樂所喚起的聆聽情緒比例,最 後以距離相似度量測演算法計算任兩段音樂片段之間的情緒相似成分,結果得出並依序 列出其聆聽情緒與此檢索音樂片段相似的音樂檔案。系統輸出的使用者介面同時提供此 檢索歌曲以及推薦清單中所選歌曲的靜態情緒比例,方便使用者在聆聽歌曲以前快速了 解該音樂檔案誘發的聆聽情緒。ii
A Music Linkage Jukebox based on Multi-Structure Analysis of Music
Emotion Similarity
student:Chih-Yi Lin Advisors:Dr. Stone Cheng
Submitted to Master Program of Sound and Music Innovative Technologies
National Chiao Tung University
ABSTRACT
Key melodies are the representative fragments of music which may be the themes that people may easily recall once they heard and that breed a pleasurable and memorable listening experience. This study proposes a music linkage jukebox system that recommends listeners a ranked retrieval list with the proportion of music-induced emotions between the query and music bank collections. 200 music clips with emotion-predefined trained to build up the emotion plane, which demarcates the boundaries of four emotions by Gaussian mixture model. In the system, the multi-theme phrases of musical structure, including the Intro, Verse, and the Chorus are analyzed by autocorrelation function as input test structure, then using feature-weighted scoring algorithms to analyze the ingredients of music emotion with five audio feature sets, which represent the characteristics of the testing music clips. The similarity of emotions between music clips are measured by Euclidean distance algorithms. The outputs of the user-interface not only ranks the resembling music files but also offers a static graph with the proportion of music emotion, which can aid user rapidly in understanding the relationship between music-induced and emotions.
Keywords: Music information retrieval, emotion similarity, music summery, emotion ingredients.
iii
誌 謝
首先要感謝指導教授鄭泗東老師這兩年來的細心教導與鼓勵,讓我在研究挫折中快 速地恢復信心、解決難題;實驗室學長姐(俊傑學長、雲凱學長、于恬學姐、立瑋學長、 偉廷學長等)傳授的論文資料與程式資料庫,使我能夠在論文的研究上得到豐富的知識 與支援。在這段學習過程中,不但加深了對研究領域的認知與根基,更培養自己在面臨 問題時的思考、解決能力,使我得已順利完成畢業碩士論文,並取得碩士學位。 除了老師之外,亦感謝聲音學程的所有好夥伴(小婷、小愛、船長、紀子、哲瑋、 小單、姚頭、阿杜、致偉、偉桓、坤廷、楊昕、欣諭),不管在課業方面還是研究上都 不吝嗇的提供我眾多的想法、寶貴的建議與協助,以及實驗室的學長、同學、學弟、學 妹們(丞哥、奇穎、阿宏、慧珊、翔翔、婕安、小竹子、歆萍)每天的陪伴與關心,總是 叮嚀我要記得吃飯,最後還要感謝一路支持、陪伴我的父親、母親、哥哥、好友們,在 我失落無助的時候給予鼓勵與包容,讓我可以繼續奮鬥下去。iv
目 錄
摘 要 ... i ABSTRACT ... ii 誌 謝 ... iii 一、 緒 論 ... 1 1.1 研究動機 ... 1 1.2 系統之理論基礎與相關研究 ... 2 1.2.1 內涵式音樂資訊檢索 ... 2 1.2.2 音樂分段-音樂主題在音樂資料中扮演的重要角色 ... 4 1.2.3 音樂情緒模型 ... 5 1.2.4 音樂聆賞情緒之心理感受 ... 9 1.2.5 音訊特徵萃取 ... 12 1.2.6 相似度量測 ... 12 二、 音樂多重結構分析 ... 14 2.1 音樂結構介紹 ... 14 2.2 自相似研究方法(Self-Similarity Analysis) ... 16 2.2.1 音頻參數化 (Parameterization) ... 172.2.2 距離-相似矩陣 (Distance Matrix Embedding) ... 18
2.2.3 偵測新穎性 (Detecting Novelty) ... 19
三、 音訊分析之方法與原理介紹 ... 23
3.1 能量頻譜(Power Spectrum) ... 23
3.2 短時距頻譜 ... 23
3.3 音調層級分析 Pitch Class Profile(PCP) ... 26
v 四、 研究方法 ... 32 4.1 系統架構 ... 32 4.2 音樂多重主題結構分析 ... 33 4.3 多重主題音樂片段的情緒分析 ... 39 4.3.1 情緒分析之設計概念 ... 39 4.3.2 訓練資料格式 ... 39 4.3.3 特徵萃取 ... 40 4.3.4 情緒計分方法 ... 46 4.3.5 音樂情緒比例 ... 48 4.4 音樂情緒之相似度量測 ... 52 五、 音樂情緒點唱機 ... 54 5.1 圖形化使用者介面 ... 55 六、 實驗結果分析 ... 57 6.1 音樂多重主題結構之擷取結果 ... 57 6.1.1 檢測準確度 ... 57 6.1.2 結果討論 ... 58 6.2 音樂情緒心理分析調查 ... 59 6.2.1 問卷調查 ... 59 6.2.2 問卷調查與實驗結果分析 ... 59 七、 音樂情緒之應用 ... 63 八、 結論 ... 66 8.1 論文貢獻 ... 66 8.2 結論 ... 66 九、 參考文獻 ... 67 附錄一 音樂情緒分析之問卷範例 ... 71
vi
附錄二 問卷調查之受測者資料 ... 72 附錄三 測試音樂之問卷調查結果 ... 73
vii
表目錄
表 1 音程的協合與情緒反應 ... 11 表 2 調性與情緒的對應 ... 11 表 3 訓練資料情緒分類數量統計 ... 40 表 4 不同音樂特徵之間的相對應比例 ... 46 表 5 歌曲“新不了情”各自版本之多重主題結構的片段相似度結果和總體準確度 ... 57 表 6 歌曲“NOBODY”之多重主題結構的片段相似度結果和總體準確度 ... 58 表 7 歌曲“Better man”之多重主題結構的片段相似度結果和總體準確度。 ... 58 表 8 古典歌曲之多重主題結構的片段相似度結果和總體準確度 ... 58 表 9 問卷調查之測試音樂 ... 59 表 10 My Heart Will Go On 之結果分析 ... 60表 11 Avenged Sevenfold - Dear God 結果分析 ... 61
viii
圖目錄
圖 1 Hevner's adjective circle 情緒模型 ... 6
圖 2 各式二維情緒模型比較圖 ... 7
圖 3 Russell’s Circumplex Model ... 8
圖 4 Tellegen and Watson Clark 情緒模型 ... 8
圖 5 Thayer’s 情緒模型 ... 9 圖 6 流行歌曲的常見曲式 ... 16 圖 7 Foote’s similarity ... 17 圖 8 基於距離演算法之相似矩陣圖 ... 19 圖 9 新穎性計分的運算概念 ... 21 圖 10 32×32 高斯棋盤內核立體圖 ... 22 圖 11 32×32 高斯棋盤內核平面圖 ... 22 圖 12 單一音框的頻譜圖 ... 24 圖 13 連續時間的頻譜圖 ... 24 圖 14 三種不同視窗產生的濾波響應圖 ... 25 圖 15 單一音框的音調層級強度分佈圖 ... 27 圖 16 連續時間的音調層級強度分佈圖 ... 27 圖 17 高斯分部 ... 28 圖 18 混和高斯分部 ... 30 圖 19 系統架構流程方塊圖 ... 32 圖 20 說明預設擷取的音樂多重主題結構之週期 ... 33 圖 21 利用各個音框之能量頻譜進行自相關函數計算 ... 34 圖 22 以自相關函數計算任兩個音框能量頻譜特徵向量之相似矩陣 ... 35 圖 23 相似矩陣和新穎性計分之比對圖 ... 36
ix 圖 24 音樂片段之原始音樂波形 ... 41 圖 25 音訊頻譜流量進行音樂事件偵測 ... 42 圖 26 音樂事件密集程度計算結果 ... 42 圖 27 衰退函數 ... 47 圖 28 每個時間點的計分流程 ... 48 圖 29 貝多芬之月光奏鳴曲-情緒軌跡位移 ... 49 圖 30 貝多芬之月光奏鳴曲-情緒軌跡位移所提供的訓練資料 ... 50 圖 31 訓練資料之情緒樣本分佈 ... 51 圖 32 GMM 分類結果與各類別的邊界範圍 ... 51 圖 33 情緒類別辨識知結果 ... 52 圖 34 情緒相似度之分析概念 ... 53 圖 35 音樂情緒點唱機之使用者介面 ... 55 圖 36 系統執行完成後的最終圖形化使用者介面 ... 56
1
一、 緒 論
1.1 研究動機 音樂有如世上最美的語言,沒有國界、地域或族裔之分,人們藉由音樂來抒發低落 的情緒或傳達喜悅的心情,音樂在生活中的重要性也同時地反應在情緒的反應之上,不 同的音樂會帶給人們不同的情緒感受,經由細緻的音樂、溫暖的聲音或美妙的韻律把內 心深處情感世界特有的激動化為自由自在的自我傾聽,使我們心靈免於壓抑和痛苦。而 每個人對音樂的感覺是主觀性的,即使是處於相同的情境也會因為接觸的時代、社會背 景及環境的不同而有所不同,更會隨著個人當下情緒的低落、亢奮、愉快而有所變更, 因此如何幫助使用者從大量的音樂資料中與多變的情境下快速的有效找出符合自己情 緒感受需求的音樂,善用音樂的情感特性釋放情緒、轉換心情成為本研究的主要目的。 隨著資訊科技的發展與通訊技術的進步,使得數位音樂的取得越來越容易,人們不 再需要依照音樂專輯編排的順序撥放音樂,當一張唱片撥放完畢時不再需要以手動的方 式將唱片包含黑膠唱片、錄音帶、CD 等音樂載體放入音樂播放器才能繼續聆聽音樂,取 而代之的是人們每天可以簡單地透過攜便式音樂播放器、智慧型手機的音樂播放軟體等 即時性地盡情享受音樂,或經由網路的線上播放系統收聽音樂,數位的聆賞方式取代傳 統的使用習慣,這樣的作法提供音樂聆賞者更多創意發揮的空間,可以依照個人喜好或 不同的需求自行編排曲目順序聆聽音樂。 雖然網際網路的成熟與數位科技的發展帶來了無窮的便利性與多功能性,其間龐大 的音樂檔案數量卻也同時對使用者在整理、管理檔案上產生相當程度的困擾。當使用者 在搜尋挑選音樂時,其比對成千上萬首音樂檔案的過長等待時間往往讓使用者無法接 受,若能夠將音樂檔案如同文章依據主題利用段落的方式分開,使用者再也不需要將整 首音樂檔案從頭聽過才可以瀏覽到所需要的音樂資料,音樂資料分段的好處不止於提供 使用者能夠輕易地找到符合所需的音樂資訊,更可以利用分段的結果產生音樂內容的摘 要或稱音頻縮略圖(Summary or Audio Thumbnailing)作為以內容為基礎的音樂資料檢 索,幫助使用者達到搜尋音樂的目的。音頻縮略圖或音樂內容摘要主要用於概括音樂的2 資料,通常是因樂檔案中最讓人印象深刻的音樂片段,其所生成的內容摘要或縮略圖可 以幫助我們管理音訊檔案,方便瀏覽或搜尋音頻資料,減輕收聽此類音檔較長部份的問 題。對於傳統的檢索方法大多採用關鍵字搜尋的方式,例如:曲名、唱片名稱、演唱者、 作曲者、音樂類型、唱片廠牌等等,就音樂資料來說,如果使用者只記得一首歌的某段 旋律,而不記得歌名或歌手是誰,就沒辦法找到想要的歌曲了。因此,在這種情形下可 以利用音樂內涵式搜尋的方式對這段音樂進行特徵值分析,找出在音樂資料庫中最有可 能包含此音樂片段之音樂,如此一來即使我們無法對該音樂下關鍵字,系統也可以依照 音樂本身之特性進而完成搜尋的工作。 全球的音樂每天不斷推陳出新,使得音樂資料庫的成長十分驚人,由於音樂屬於時 序性的,加上複雜的聲音資料集合,在進行檢索比對的動作通常需要耗費很多的計算時 間以及記憶體的用量。為了加快檢索速度,本研究之目的在於發展一套基於多重結構分 析聆聽情緒相似度檢索之音樂心情點唱機,針對音樂的內容做主題式的分段來簡化分析 過程的複雜度,擷取此多重主題結構的音樂片段來代替完整的音樂作品,並分析此音樂 片段的音訊特徵做為音樂資料庫中音樂情緒的指標,如此,在搜尋時只需要比對四種音 樂誘發的情緒比例,能大大節省儲存空間外,更能從龐大的資料庫中進行更有效率的查 詢。 1.2 系統之理論基礎與相關研究 此章節將介紹本研究內容所涉及之音樂情緒檢索、音樂分段、音樂情緒模型、聆聽 音樂誘發的情緒感受以及音訊分析等相關理論基礎與其相關文獻探討。 1.2.1 內涵式音樂資訊檢索 由於多媒體技術的快速進展,音樂創作的普及,使得數位音樂的取得越來越容易, 各式各樣的音樂資料變得更加複雜及大量,音樂資料也不再是如同過去以書目資料的形 式提供查詢、取得與利用,使用者如何從大量的音樂資料庫中,找出自己喜好的音樂之 技術是日益重要的。過去,傳統的檢索方式將音樂資料、組織、分析以作曲者、演奏者、 曲風、專輯名稱等項目分門別類,進而建立音樂書目資料庫,使用者依照這些項目雖可
3 檢索到資料,然而此種檢索的彈性仍然有限。假設當我們聽到某廣播電台播放的音樂片 段是自己喜愛的音樂旋律,但對於第一次聽到,不知其曲名、演奏者等詳細資訊時就無 法以這些書目資料查得音樂原件,而內涵式音樂資訊檢索即是提供使用者解決此類相關 搜尋問題的技術,利用資料本身的特徵去找出使用者想要的資料。 內涵式音樂資訊檢索依據檢索資料類型的不同可分為由(1)符號資料搜尋(Search by symbolic data)和(2)音頻資料搜尋(Search by audiodata)等兩大類[1]。符號資料指的是儲存 音樂符號的檔案格式,例如:MIDI、XML,在特徵萃取的過程中可直接取得其音高、 節拍、速度、音色的訊息,經由特定演算法的運算找出音樂的旋律、調性、節奏等音樂 特徵;音頻資料搜尋(search by audio data)的資料庫則以完成錄音及混音後之聲波波形的 檔案格式,經由特定演算法從波形大小中計算出音樂的訊息或聲學特徵後進而得到音 高、節拍、速度、音色等音樂特徵,例如:wav、wma、mp3 等都是一般常被用來聆聽 的檔案格式。 MIDI 格式儲存多樣性的音樂特徵,記錄了各種音符的強弱、高低、長短等特性來 記錄音樂資料,如此多樣性的音樂資訊將有助於音樂搜尋研究上的處理,加上以符號記 錄音樂資訊的 MIDI 格式音樂檔案可以很容易地抽取出主旋律特徵[2][3],所以將 MIDI 音樂檔案轉成音樂序列用來當作音樂檢索的音樂資料是許多內涵式音樂檢索研究者所 採取的方式,因此有許多音樂搜尋相關研究是以 MIDI 為主要的音樂格式,[4][5]利用 音樂的低階特徵值並同時考慮音樂時序的意義,透過索引結構的建立讓音樂檢索快速地 被處理;然而若考慮其現實應用層面的問題,Park 等人[6]以 MP3 格式的音檔萃取多種 音樂特徵包含 spectral centroid, spectral rolloff, spectroll flux, zero crossing rates, MFCC 等 來表現音樂,接著利用 Feature selection 的方式將原本高維度的特徵值減低,進而利用 這些特徵進行音樂搜尋;雖然 mp3 是最常被使用的音樂格式,不過由於 mp3 為失真壓 縮,它不像 MIDI 格式般包含了多樣性的音樂特徵,使得如果以 mp3 格式來進行音樂搜 尋會有一定程度的困難;Foote[7]這一篇研究中,選擇未經壓縮 wav 的檔案格式,著重 在節奏(tempo)和旋律(rhythm)這二種音樂特性來進行研究,並且利用這二種特性來進行
4 音樂的相似性分析。 1.2.2 音樂分段-音樂主題在音樂資料中扮演的重要角色 創作音樂如同許多文學、藝術創作一樣,在創作過程中就像寫作文一樣,作家先有 了靈感再根據寫作原理文章章法:起、承、轉、合的思維模型,有緒論、主題、副題、 結論。音樂創作可以被歸納分成靈感、腹稿和動機等三個程序,作曲家在作曲時一樣依 靠靈感,有了靈感之後再如同建築師蓋房子一樣擬一個草圖(腹稿),逐步計劃,注意音 樂環節緊湊、前後搭配銜接、決定表現方式,最後再由動機發展出音樂主題。動機是由 靈感帶來的最原始主題、旋律的最小單位,創作的關鍵。作曲家遵循音樂曲式結構法則, 由動機切入旋律的起點,安排主題的重覆、倒裝、變奏等連續變化,再想出一個或多個 副主題拼湊,繼而將許多個主題串起來展成完整優美的音樂。多個主題使樂曲多樣化不 單調,但過多的主題容易離題,造成聽覺混淆、缺乏主題的一貫性等問題,好的動機為 旋律鋪墊了堅實的根基、發展出鮮明的主題,Lartillot[8]說明因為動機的豐富變化串成 音樂主題前後結構的連貫,人們是因為動機的改變而記住音樂的前後結構變化,因此, 本研究在此將每個段落假設為同一首音樂中的不同主題,以音樂動機的變化為線索,萃 取樂曲中的主題(主歌)和副主題(副歌,一個或多個)作為系統分析的測試音樂片段。 目前已有許多相關音樂分段的研究,以人類聽覺認知對音樂訊號做分析來找出一首 歌的重複樣式來代表一整個音樂物件,Cooper and Foote [9][10][11]首先將分析音檔作音 頻參數化,統一音檔規格,取樣頻率 22.05KHz,單聲道,以 2048 個取樣點為音框(Frame) 單位切割音樂訊號,然後利用一個代表音色之梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients, MFCCs)演算法擷取每一個音框的低階特徵值,接著進行自相關 (Autocorrelation)的運算作為該音框所代表的音樂特徵,再以距離演算法來計算音框間的 相似度,最後利用相似矩陣記錄音框比對的結果,從相似矩陣的資料中找出重複出現的 音樂片段;[12][13][14][15]以人類聽覺認知對音高之敏感度為基礎,提出一種基於音調 和重複結構劃分音樂的方法,並以這種重複結構來摘要音樂,[12]萃取如常數品質因數 轉換(Constant Q Transform,CQT),一個為了分析音樂訊號所開發之技術;[13]萃取以色
5 度(Chroma-Based)為基礎和音調相關(Pitch Related)的旋律特徵;為了減少比對每個音框 的運算量、等待時間和記憶體用量,[14][15]提出以色度 Chroma-Based 特徵為基礎的直 方圖轉換比對方法,色度直方圖指的是一個特定響度在特定音高種類中,其達到或超過 此音高頻率的次數,為了加強找出局部音高的組成部分,利用快速傅立葉演算法(Fast Fourier Transformation, FFT)來計算每個時間點的瞬時頻率,將音高區分成 A A# B C C# D D# E F F# G G#等 12 種類,接著以相關係數演算法(Correlation Calculation)比較任兩個 音框所屬的種類是否相同而產生一個二維空間的相似矩陣,進而將相似矩陣上的數據資 料轉換映對至色度直方圖以測量音樂資料相似的部分。 1.2.3 音樂情緒模型 古人云:『樂者,心之動也。』亦即,音樂與人們內心的情感有著密切的關係,音 樂融合人們的各種情感與情緒體驗;不同的音樂會帶給人們不同的情緒,不同的人對於 同一首音樂的感覺與體驗也不盡相同,甚至同一個人對同一首音樂也會因為不同情境有 著天壤之別的感受,根據 Music and Emotion[16]一書中的有關音樂與情緒的介紹,將現 代 的 情 緒 模 型 分 成 (1) 類 別 論 , 也 有 人 稱 離 散 論 (discrete or categorical emotion theory)[17][18]和(2)維度論(dimensional model of emotion)[19][20][21]兩種說法。類別論 基於基本情緒理論將情緒分門別類,認為情緒有所謂的基本情緒(Basic Emotion),對每 個類別給於一個音樂情緒的形容詞,例如:高興、生氣、悲傷、平靜,強調每個基本情 緒之間沒有必然的相關性,是互相獨立的,並不會因為某個情緒稍作變化而影響到另一 個情緒的改變;維度論認為情緒應該是連續性的,例如:特定的情緒狀態只是代表一個 正向情緒到負向情緒,同一個維度的相反兩極上,或是從快樂到悲傷的連續體中的一個 位置。採用幾個心理學研究上的維度(例如:正向度及激昂度),建立出一個情緒空間, 並將情緒以空間中的一點表示。 另外,也有學者將情緒心理學所提到的模型分成兩類:一類為一般通用型[19][20], 舉反心理、生理或認知上可能產生情感相關的情緒反應皆適用;另外一類即是和音樂表 達情緒的類別與審美有關,針對音樂所引發的情緒反應模型[17][21]。
6
圖 1 Hevner's adjective circle 情緒模型 資料來源:[17] Hevner[17]是類別論中最常見的情緒模型,也是最早被提出由音樂誘發的情緒模 型,Hevner 從音樂學角度提出一個環狀的情緒模型,主要考慮作曲家、演奏家、聽眾的 心理感受,於 1936 年設計了一系列音樂引發情緒的實驗,認為音樂本身便隱含著情緒 意義,根據不同的音樂結構和音樂表情傳達各種情緒,假設人類聆賞音樂會引發不同的 情緒反應,Hevner 透過此實驗,瞭解音樂的聲音和聽者的情緒反應間的關係,藉由實 驗結果提出八組情緒相關的形容詞組(adjective group),如圖 1,每一組代表性的形容詞 分 別 為高 貴的 (dignified) 、 傷 心的 (sad) 、 悅耳 的 (dreamy) 、 平 靜 的 (serene) 、 優 美 的 (graceful)、快樂的(happy)、使人興奮的(exciting)、強而有力的(vigorous),在 Hevner 之 後陸續有許多學者發表相關研究,Farnsworth[18](1958)為了能從音樂訊號來分析情緒, 將其重新細分為十類,而最近期的研究如 Zentner(2008)提出的階層式情緒模型 GEM-9, 將四十種情緒依不同的權重彙總成九種情緒,最後再統合成三大類,為了確定每種情緒 的主要因素,對與每一種單一的情緒指標給於 1〜5 不同的評分。
7
圖 2 各式二維情緒模型比較圖 資料來源:[16]
Juslin and sloboda 一書中[16]將 Russell[19]、Watson[20]和 Thayer[21]等三個情緒模 型合併在同一個二維情緒平面上做討論,如圖 2 所示,Russell[19]根據情緒的愉悅程度 (valence/pleasure)和激發程度(arousal/activation)兩個軸度來對情緒進行分類,認為各種情 緒是以環狀的排列方式分佈在一個二維的向量空間中,如圖 3;Watson 與 Tellegen[20] 在 1985 年提出一個以正向情感和負向情感為量測方法的階層式分類綱目(hierarchical taxonomic scheme),將 Russell[19]所提出之情緒模型的兩軸旋轉 45 度後得到新的軸度: 一個結合正價(valence)和高的激發程度(arousal)的正向情感(Positive Affective,PA)維 度和一個結合負價(valence)和高的激發程度(arousal)的負向情感(Negative Affective,NA) 維度,以此為基礎接著提出一個描述 20 種情緒的分類綱目稱為 PANAS(The Positive and Negative Affect Schedule)的心理模型,圖 4。
8
圖 3 Russell’s Circumplex Model 資料來源:[19]
圖 4 Tellegen and Watson Clark 情緒模型 資料來源:[20]
Thayer[21]認為音樂的情感主要是受能量和壓力因素的影響,在 1989 年提出一個以
二維空間為基礎的情緒模型(Model of Mood),構成此音樂模型的兩個主要因子:壓力
9 平靜(calm)/充滿活力(energetic)的程度,根據壓力和能量對聆賞者所引發的情緒反應再將 情緒分成四群,分別為滿足(contentment)、沮喪(depression)、豐富(exuberance)、焦慮 (anxious)。由於不同的色彩對於人類的情緒會有各種面向的不同影響,本研究引用 Thayer 提出的情緒模型,分別將四個象限加上不同顏色來表示情緒,滿足(contentment)象限以 綠色表示,舒適愉悅、平靜的;沮喪(depression)象限以以藍色表示,讓人憂鬱寡歡、意 志消沉的;豐富(exuberance)象限以黃色表示,興奮、生氣勃勃的;焦慮(anxious) 象限 以紅色表示,焦躁不安、暴躁、憤怒的,如圖 5,圖中原點解釋為音樂剛開始的前奏, 情緒導引及準備的狀態,圖表橫軸為壓力,代表音樂帶給聽者的抽象壓力;縱軸為能量, 定義為音樂帶給聽者的抽象能量。例如:音量較大,抑、揚、頓、挫明顯,節奏快速緊 湊分明的聲音通常代表音樂的能量較高;反之,音量較平和,拍子緩慢的聲音則表示音 樂能量較小;不和諧的和絃或小調的音樂造成的壓力較大,反映出較為沉悶的情緒感 受,容易讓聆聽者壓抑的情緒無法釋放等等,然而,這些音訊特徵不同的強弱程度和情 緒模型中的兩軸都有直接相對的關係。 圖 5 Thayer’s 情緒模型 資料來源:[21] 1.2.4 音樂聆賞情緒之心理感受 由於音樂本身的本質是聽覺的媒體,在很多狀況下,人們所感受的音樂聆賞情緒, 並不是單一的、彼此無交集的(disjointed),梅爾認為音樂聆賞是一種動態的過程(dynamic
10 process) , 音 樂 的 理解 及 欣 賞 在 於人 們 對音 樂 的 特 性 之感 知 (perception) 與 回 應 (response),Clark(1982)則認為情緒有別於情感,相對於情感而言,情緒比較強烈, 也比較容易被注意,其中,常見的音樂情緒包含讓人緊張(tension)與鬆弛(repose)、 穩定(stability)與不穩定(instability)、模糊(ambiguity)與清晰(clarity)等等, 從音樂的心理層面的觀點看來,音樂心理學是音樂與人的行為、心理的互動關係和 規律,音樂能持續不斷且出乎人意料的引起一些緊張感和不穩定的感覺,其引發的情緒 反應之影響因素主要歸納為四類:(1)音樂結構:音的物理屬性(包含音高、音強、音 質、時值)與感覺的關係;音程(八度、協和與不協和)對聽覺所產生的結合作用;(2) 演奏者:演奏技巧或表達方式;(3)聆賞者:包括音樂方面的專業素養、個人偏好、個 性、當下心情…等;(4)背景環境:演出場地、事件等,這些因素皆是影響聆賞情緒的
主要項目(Gabrielsson, 2001; Scherer & Zentner 2001)。
音樂演奏的過程中,只用音符無法完整的傳達音樂內容和表現音樂演奏的戲節,因 此音樂表情(music expression)便成為在音樂演奏中很重要的因素之一,西方音樂用音符 的相對長度和指定音高位置的體系來記譜,或者是運用音樂常見的特性,力度的強弱, 速度的快慢、調性的不同,來呈現音樂想表達的情緒或意思。根據不同人物、不同的形 象、發生不同的事件會產生不同情緒表現的關係;當音樂演奏時,影響音樂表情最重要 的特性是速度以及力度;調性則讓我們在聆聽音樂時會有很明顯的情緒反應,例如表現 開朗活潑情緒的音樂,在速度上大都是稍快的,力度上是較弱的,調性可能是屬於大調, 表 1 和表 2 歸納歷年來音樂學家和研究學者對音程和音調與其引發的情緒反應之對照關 係[22]。
11 表 1 音程的協合與情緒反應 音程和諧程度 音程 頻率比 情緒反應 協合 同度 1:1 中立 完全八度 1:2 完美、成就,表現招搖、焦躁, 哀悼 完全五度 2:3 中庸、平靜、欣喜,間帶傷感 完全四度 3:4 婉約的、哀怨的;滿足、欣喜、 顏色、力量、發揚,間帶傷感 不完全協合 大三度 4:5 快樂的、安心的;欣喜、顏色、 勇敢、果決、自信、發揚 大六度 3:5 和悅、力量、勇敢、勝利 小三度 5:6 忍耐的、順受的;悲傷、愁苦、 騷動,另有人認為代表平靜、滿 意以及宗教狂熱 小六度 5:8 愉快的、渴望的;靜穆 不協合 小七度 4:7 哀傷的,悲泣的;疑慮 大二度 8:9 愉快的 盼望的;帶嚴肅氣 大七度 8:15 強烈的盼望;騷動 不滿意 驚訝 幻覺 小二度 16:17 委靡不振;悲傷、痛悼、退讓、 焦躁、疑慮 增四度 8:11 神秘的、厭惡的、反抗的 資料來源:[22] 表 2 調性與情緒的對應 C 大調 和平、高潔、嚴整、樸素 c 小調 溫和、景仰、思慕 D 大調 雄壯、歡樂、充實、華麗 d 小調 勇壯、沉鬱 E 大調 華美、高貴、溫和 e 小調 憂鬱、羞恥 F 大調 柔和、喜悅、平和、充滿 f 小調 暗淡、質樸 G 大調 爽快、熱情、快活、華美 g 小調 沉思、感慨 A 大調 希望、光輝、活潑、熱情 a 小調 柔和、流麗 B 大調 銳利、典雅 b 小調 嚴正、鈍重 資料來源:[22]
12 1.2.5 音訊特徵萃取 由於音訊資料在多媒體資料當中隨處可見,也扮演著一個重要的特徵,因此音訊資 料相關的研究與分析便顯得重要;尤其是基於音訊內涵為主的相關分析更為顯得重要與 迫切。一般而言,在音訊資料的內容分析之前,音訊的特徵萃取是首要處理步驟,所謂 音訊特徵即為聲音訊號行為模式的一種表現方式,將原始的聲音訊號以量化的方式盡量 逼近人耳的感覺感受來代表此音樂的特徵。特徵萃取的分析步驟歸納如下:首先將音訊 資料切割成音框單位,針對每個音框中的聲音做特徵分析,產生一組參數,通常包含響 度(音量)、節奏、音調,三種影響音樂表情的主要因素,然後在所謂的特徵空間中以統 計的方法,將每個音訊檔案做分類。音訊特徵在時間分佈上有尺度的不同,小的尺度音 樂訊號的數值特徵,如:短時距頻譜(Short-time spectrum)與其幾何分部或對比、過零率 (Zero Crossing Rate)、平均靜音比率(Average Silence Ratio)…等。大的尺度也就是一般人 可以直接感受到的音樂特徵,如:節奏、旋律、調性…等,通常大尺度的特徵可由小尺 度的特徵做平均統計或是變化趨勢分析來找出。 1.2.6 相似度量測 在內涵式音樂資料檢索系統當中,音樂資料的相似度量測是音樂檢索系統能否成功 的重要因素之一,相似度量測往往被用來解決使用者無法精確地提出查詢並得到合適的 結果,例如:使用者在哼唱時容易出現音調、節拍不符,多音、少音、錯音等情形,因 此,計算查詢與音樂資料間的相似度是內涵式音樂資料檢索一項重要的技術,但對於音 樂 特 徵 的 萃 取 不 同 , 其 適 合 的 相 似 度 演 算 法 也 不 盡 相 同 。 其 中 , 近 似 字 串 比 對 (approximate string matching)演算法和編輯距離演算法(edit distance)常被應用在將音樂 的旋律特徵用符號或字串表示的相似度比對上,利用比對計算值的大小來決定兩字串近 似的程度,找尋資料庫中相似的音樂檔案。編輯距離定義是兩個字串之間做比對,所需 要 最 少 插 入 (insertion, duplication error) 、 刪 除 (deletion, dropout error) 、 和 替 代 (Transposition error )的數目。
13
串時序性的序列,Hsu、Liu 及 Chen[24]把主旋律特徵包含旋律、節奏、和弦等用字串表 示,Southampton[25]最早開發 QBH(Query By Humming)系統,將使用者透過麥克風 哼唱的音樂資料轉成包含了 U(這個音比前一個音高)、D(這個音比前一個音低)、R (這個音和前一個音相同)的字串來對音樂資料庫搜尋;也有研究學者為了加快檢索速 度和使用者的等待時間,透過索引結構的建立讓音樂檢索快速地被處理[26],不同的索 引結構所適合的近似字串比對方式也不相同,不過主要還是以編輯距離的精神為主,插 入、刪除、替代這些在編輯距離上的操作正好可以用來處理查詢序列多音、漏音、變調 的問題。 除了近似字串比對演算法和編輯距離演算法,距離演算法可以用來解決多個特徵向 量高維度的相似度比對,只要兩個要比對的音樂轉換成長度相同的特徵向量,就可以利 用這個方式,最常被用的是歐基理德距離演算法,[11]將資料分割成同樣大小的音框, 萃取音樂資料中每個音框的低階特徵值,利用距離演算法來計算任兩音框間特徵向量的 相似度,其計算結果的距離最小,即為最相近的音樂作品。
14
二、 音樂多重結構分析
2.1 音樂結構介紹 音樂是由各種音符有次序的安排而流動的聲音藝術,利用聲音來表達作曲者的情 感、意志、欲望等內心世界,雖然它是無形的、抽象的、心理的、情感的,但構成音樂 形象的聲音是有特定形式的,它是有生命的,作用於人的聽覺,使聆聽者產生一定的聯 想,進而在頭腦中形成富有情感的意象,在情緒上受到感染和陶冶。 根據陳文雄音樂與美學-曲式篇一文中的介紹,音樂學所釋義的『形式』,包括兩種 不同意義的範圍:(1)音樂曲體(Form In Music),指的是音樂內在的結構形式,用來表 達或傳達音樂內容,在特定的時間內各種音樂元素:音色、力度、節奏、旋律等交互作 用而產生音樂的輪廓與結構,這些音樂要素不是一群音符的隨便組合,都是經過理性的 思維與有秩序的安排所譜寫出來的音樂形式,其中主題(theme)為構成此音樂內容的結構 單位之一。(2)音樂曲式(Form of Music)是音樂形式的外表,說明音樂曲子外在結構的 規格曲式(Form),用來勾畫音樂形式中不同層次的結構單位分別為樂節、樂句、樂段、 段等四種。音樂曲式通常意指音樂史上各時期所使用的曲式,亦即作曲家在譜寫作品時 心 中 設 計 的 一 種 結 構 模 式 , 好 比 建 築 師 的 平 面 構 圖 一 般 , 例 如 : 巴 洛 克 時 期 ( Baroque,1600-1750 ) 的 賦 格 曲 ( Fugue ) 或 變 奏 曲 式 ( Variations ); 古 典 時 期 (Classical,1750-1820)的奏鳴曲式(Sonata Form)等等,因此,作曲家在作曲時會遵 照此種特定之音樂結構的形式加以創作、發揮,稱為音樂形式(music form)。 音樂形式為構成各種歌曲的形式,其構成因素分別為曲體和曲式,包含了音樂理論 上的一切原則,即音、音程、音階、調性、節奏、樂句、主題、反覆、變奏、模進等等 內在形式,而音樂形式的表達在於應使內容中最重要及次要的部分區分清楚,其中最重 要的部分稱為「主題性材料」,主要是指古典音樂中的「主題」或「主題附加部分」(流 行音樂中的主歌或副歌部分),而次要部份稱「非主題性材料」,最常見的是樂曲開始的 「前奏」、樂曲結束的「尾奏」,及樂曲中間做為連接前後兩個主題用的「過門」或「間 奏」。即使各種現代音樂流派紛紛出現,音樂觀和形式觀已經改變,音樂創作趨向自由15
化,不再像傳統音樂拘泥於定型的曲式結構,但無論是古典音樂或現代流行音樂,在創 作過程中仍然是存有音樂本身的音樂形式和音樂結構的一定規則。
音樂結構存在兩種規則:階層規則(hierarchical rule)和重複規則(repetition rule)。階 層規則主要是針對古典音樂,說明音樂物件是以階層方式形成,如從大到小為 movements →sentences→phrases→figures;而同時被應用於流行音樂中的重複規則則是指一段一樣 的旋律會重複地出現在音樂物件當中,像是古典樂中的動機(motives)或流行歌曲中的主 歌或副歌部分,以上描述主要是以音樂學的角度來描述傳統音樂的音樂形式。 也就是說,以傳統音樂學的概念來說明現代流行音樂,通常,一首普通音樂的音樂 結構主要包括了前奏(Intro)、主歌(Verse)、副歌(Chorus)、過門或間奏(Instrument Solo)、 尾奏(Ending)等幾個以音樂順序連接而成的部份,組成每個部分的元素大可分為主旋律 (Melody)、節奏(拍子 Rhythm)、速度(Tempo,如快板、中板、慢板)、以及襯托主 旋律的第二旋律等等音樂元素,但未必每首音樂都齊備上述種種元素。 當我們欣賞一首歌曲的時候,最引人注意且印象深刻的無非就是樂曲中一再重複的 音樂片段,也許是駕馭整首歌曲靈魂的主旋律(主歌),整首歌曲的主要內容,也或許是 用來襯托主旋律,與主旋律成對比的第二旋律(副歌),而主歌和副歌兩部分亦即我們在 前面所描述的「主題」部分;所謂的前奏是指歌曲第一主題出現前的音樂,以現代流行 音樂來說,前奏是主歌開始前的部分,主要在告訴聆聽者一首歌的開始,同時給予聆聽 者在情緒感受的導引和準備,幫助聆聽者進入音樂的內容。無論是什麼的前奏,都應該 為樂曲先營造恰當的氣氛,這是十分重要的,音樂前奏的好與壞,影響聆聽者對歌曲的 第一印象,正如一篇文章的引子一樣。過門讓音樂段落連接有間歇的效果,間奏則讓音 樂段落連接更為自然且順暢[27]。
16 圖 6 流行歌曲的常見曲式 資料來源:[27] 如圖 6,以流行音樂常見的曲式:AABA,其中 A 與 B 分別是兩個不同的音樂段落 主題(主歌與副歌),A’與 B’則是將 A 與 B 作些微的變化。以此例來說,過門發生的地方 在 X 或 Y 中的主題段落連接,間奏則發生在不同曲式 X 與 Y 之間段落的連接,此外, 在音樂編曲理論中,過門的小節數通常介於一至四小節,而間奏的小節數則介於四至八 小節;尾奏通常發生在整首歌曲終結之前,大多有一段作完結的純音樂。較常聽見尾奏 的表現方式,如將歌的最後一句重複一次,或重複多次並且漸漸降低聲量至完全沒有聲 音(Fade Out)而作完結,以此方式的搭配,不僅使歌曲有收尾的動作,亦使歌曲有前 後的呼應和對比,以及讓歌曲有更完美充實的意境與情感。 綜合以上描述,本論文主要針對現代流行音樂作為研究分析,假設所萃取的音檔中 存在少部分的古典音樂皆存在重複規則的音樂結構,一首歌的構造主要由前奏,兩段主 歌,一段副歌,過門音樂,再來一次的副歌和主歌,以及結尾音樂順序地連接而成的。 以音樂內容做主題式的分段,探勘歌曲中的主題性材料,做為系統情緒分析的測試音樂 片段,而預設所要萃取音樂片段的部分主要包含前奏、兩段主歌、一段副歌等部分,義 即為圖 6 中的 X 部分。 2.2 自相似研究方法(Self-Similarity Analysis) 相似性是音樂檢索、推薦的基礎,本論文參考 Foote[9][10][11]提出的一個基於自相 似分析的音樂摘要方法[9][10][11],該方法將音頻訊號分為固定長度的音框,提取每個 音框中 MFCCs 係數作為特徵向量。經由計算任兩特徵向量間的餘弦距離得到一個二維 相似度矩陣,最後以累加相似度矩陣各列的數值(Novelty Score)得到具有最大相似度的 峰值來找出樂曲中近似重複片段的邊界,以此分段作為一個樂曲最有代表性的部分(摘
17
要),並說明在任何時刻音頻訊號中明顯的變化和其的峰值成正比,系統流程圖請參照 圖 7,在此我們將針對 Foote’s Self-Similarity 方法中的幾個重要步驟做詳細的介紹,首 先 2.2.1 音頻參數化 (Parameterization)是訊號分析前做預處理的動作;2.2.2 距離-相似 矩陣 (Distance Matrix Embedding)則是將每個音框間做距離運算而得的相似度矩陣; 2.2.3 偵測新穎性 (Detecting Novelty)簡單介紹新穎性計分方法(Novelty Score)在此方法 中的定義並說明所應用的相關基礎理論-核心相關(kernel correlation),以及介紹如何利 用新穎性計分(Novelty Score)的計算公式測得音頻訊號各個音框間的最大相似值以判斷 音樂多重結構的邊界。 圖 7 Foote’s similarity 資料來源:[9][10][11] 2.2.1 音頻參數化 (Parameterization) Foote 所提出的方法其系統應用相當靈活,可以隨不同的應用加入現有的音頻分析 方法,例如:基於人耳對於不同頻率的感受程度,萃取 MFCCs 作為輸入音頻訊號的特 徵向量進而達到辨識效果。音頻參數化首要步驟為統一輸入音檔的規格和取樣頻率,針 對窗函數的概念對輸入音頻的波形加窗取得獨立的音框,所謂加窗指的是將一段音頻離 散時間訊號 x(n),用固定長度的視窗(window)套上去,只看視窗內的訊號,對此視窗內
18
的訊號作運算,用以求出在此視窗內的音樂特徵。針對不同的應用設計不同的音框長度 和重疊長度,音框若太大,就無法抓出音訊隨時間變化的特性;反之,音框若太小,則 無法抓出音訊的特性。
2.2.2 距離-相似矩陣 (Distance Matrix Embedding)
完成音頻參數化步驟的音頻訊號會被分割成具連續性同樣大小的音框,每個音框存
在獨自代表性的音頻特徵,將每個音框 i 的特徵向量 vi和音頻訊號中某個音框 j 的特徵
向量 vj以距離演算法作時序性的自相似量測,最後,特徵向量間的相似度距離計算結果
將產生一個二維空間的相似矩陣 S。
在向量空間中判斷兩向量間的距離或稱相似度,有兩種簡單且常用的方式-歐基理
德距離(Euclidean Distance)和餘弦相似度(Cosine Similarity)。假設在 L 維空間中存在 vi
和 vj兩特徵向量,則其歐幾里得距離可表示如公式(1),亦即圖 8 中的距離 D( i , j ),其 中 k 表示為音框的索引數目。計算後的數值如果為 0 則表示兩個向量完全相同,而數值 越大則代表兩個向量間的相似程度越低。利用歐幾里得距離來度量相似度雖然簡單,但 其缺點在於量測結果的單位與程度不明,只能知道距離越小,相似度越高。
2 1 D , L e i y i j k v v v k v k
(1) 餘弦相似度(Cosine Similarity)如式(2),以兩組相同基底(Base)與維度(Dimension) 向量間的角度(Angle)差距來量測該兩向量間的距離(Distance),其計算結果會介於 0 至 1 之間,當兩個向量間的角度差距越小時,表示該向量間的餘弦角度越小,其計算結 果就越接近於 1,也即代表該兩向量相似度越高,反之,其計算結果就越接近於 0,代 表該兩向量相似度越低。 一般來說,相似矩陣 S 的最大相似會出現在對角線的方向上,因為每個音框的音訊 資料之最大相似部分就是自己本身。
c 2 2 1 , D , L i j i j y i k i i i j v v v k v k v v v v v k v k
(2)19 圖 8 基於距離演算法之相似矩陣圖 2.2.3 偵測新穎性 (Detecting Novelty) 新穎性(Novelty)在此用來表示音頻訊號顯著的變化點,在討論新穎性之前,我們將 針對其用到的相關理論-核心相關(kernel correlation)先做介紹,然後再介紹如何測得新 穎性計分(Novelty Score)。 核心相關(kernel correlation) 在 Foote’s Self-Similarity 方法中,相似矩陣 S 是量測音訊相似度的主要關鍵,為了 找出瞬間音符大範圍變化的邊界點,也就是新穎性計分(Novelty Score),Foote 利用一個 看起來像“黑白棋盤”的矩陣來和原本的相似矩陣 S 做摺積運算,其中組成棋盤格矩陣 的最簡單元素為:一個以主對角線為 1 組成的 2x2 單位同調矩陣(coherence matrix)和一 個以反對角線為 1 組成的 2x2 單位不同調矩陣(anti-coherence matrix),兩個單位矩陣的 差即為棋盤的內核心(checkerboard kernel),如公式(3)中C '的第一項和第二項。
20 1 1 1 0 0 1 ' = 1 1 0 1 1 0 C (3) 值得注意的是,在 Foote’s Self-Similarity 方法之相似矩陣的運算討論中,為了配合 相似矩陣座標軸的起始點,將原本矩陣的座標軸是以左上方向至右下的方式皆改成左下 至右上的方式,如公式(4)。 1 1 0 1 1 0 = 1 1 1 0 0 1 C (4) 單位棋盤內核的概念是將一個方形矩陣想像成一個被分割成四等分的正方形,正方 形的中心點代表此單位棋盤內核的原點,中心點的左邊和下方依時序性來說代表過去的 音框,右邊和上方代表未來的音框,每個小正方形代表一個矩陣元素。式(4)中的第一項 是用來量測同一個音框的自相似性程度(self-similarity),數值越高表示此音框中心點的兩 側 其 音 頻 訊 號 之 相 似 性 極 高 ; 第 二 項 是 用 來 量 測 橫 跨 兩 個 音 框 的 互 相 似 性 程 度 (cross-similarity),數值越高表示這兩個音框的音頻訊號大範圍幾乎一樣,只有些許的不 同。而兩項數值的差就是在這個分法中的重要部份:新穎性計分(Novelty Score),用來 測量訊號本身的相似程度,所得的差值越大,表示此兩個不同音框的訊號彼此非常相似。 棋盤內核的大小可以依照所要分析音頻資料的音框長度自行做調整,小尺寸的棋盤 內核用來檢測短時間尺度的顯著改變,如節拍(beats)或音符(notes);大尺寸的棋盤內核 平均短時間尺度所量測的新穎性計分(Novelty Score),用來檢測較長的音樂結構,如主 歌和副歌之間的音樂轉換。大尺寸的棋盤內核構造是一個 2×2 的單位棋盤內核和一個維 度為 m×n、構成元素皆為 1 的矩陣做克羅內克積(Kronecker product)運算,克羅內克積定 義為兩個任意大小的矩陣間的運算,以符號表示,如果 A 是一個 m×n 的矩陣,B 是 一個 p×q 的矩陣,而克羅內克積則是一個 mp×nq 的分塊矩陣,舉例來說:如果要得到一 個 4×4 的棋盤內核,就是把 2×2 單位棋盤內核和 2×2 矩陣做克羅內克積運算,如式(5)。 利用克羅內克積來改變棋盤內核尺寸大小的優點在於可以保留原本棋盤內核的結構。 1 1 1 1 1 1 1 1 1 1 1 1 = 1 1 1 1 1 1 1 1 1 1 1 1 (5)
21 新穎性計分(Novelty Score) 由於相似矩陣是將音訊資料切割成音框單位後,任兩音框之間作相似比較而得的數 值,所以新穎性計分(Novelty Score)正代表兩個音框間其音頻訊號改變的程度,我們將 利用測量而得的新穎性得分作為音樂訊號粗略分段的邊界。 圖 9 新穎性計分的運算概念 如何運算得到新穎性計分呢?做法為想像將一個以單位棋盤內核組成的矩陣,沿著 相似矩陣 S 對角線的方向滑行,如圖 9。棋盤內核矩陣和相似矩陣 S 中每個元素做乘積 運算,最後將所有乘積運算而得的數值加總起來就是新穎性計分(Novelty Score),如式 (6),其中 C 表示一個棋盤內核矩陣,寬度為 w,中心點( 0,0 ),中心點兩側分別代表寬 度為 2 w,以時序性而言,過去的音框和未來的音框;i 則是相對於原始音頻訊號在連續 時間索引上的音框數目。為了有效的考慮距離中心點( 0,0 )在新穎性計分的影響程度, 同時避免音框中心點兩側音頻資料組成的不平均所產生的邊緣效應(Edge Effect),在這 裡我們使用加窗概念,利用一個 32×32 高斯徑向基函數的濾波器來平滑棋盤內核矩陣, 如圖 10;圖 11 比較原始尚未濾波的棋盤內核(左邊)和經過高斯濾波器平滑後所形成的 棋盤內核平面圖(右邊),其中越接近中心點( 0,0 )的值越大;反之,越靠近邊緣區域的值
22 將趨近於 0。 2 2 2 2 , , w w w w m n N i C m n S i m i n
(6) 圖 10 32×32 高斯棋盤內核立體圖 資料來源:[28] 圖 11 32×32 高斯棋盤內核平面圖 資料來源:[29]23
三、 音訊分析之方法與原理介紹
3.1 能量頻譜(Power Spectrum) 能量頻譜為一種描述訊號在頻率軸上如何分布的方法,經由快速傅立葉(FFT)的運 算後將時間訊號轉換至頻率軸上討論,如式(7)。根據 Parseval 定理,訊號經快速傅立葉 轉換後取其振福的平方即為音樂訊號的能量,如式(8)。 2 1 0,1,2,..., 1 0[ ]
[ ]
k N j n N m m k N nX
k
x n
e
(7)
2 0,1,2,..., 1[ ]
m m k NP k
X
k
(8) 其中,xm[n]為原始音樂訊號,m 為音框索引值,Xm[k]為原始訊號經快速傅立葉轉換 後的頻譜,Pm[k]為訊號的能量頻譜。 3.2 短時距頻譜 當我們在分析聲音時,通常以「短時距分析」(Short-time Analysis)為主,因為音 訊在短時間內是相對穩定的。因此,針對已音框化單一音框的聲音訊號,其頻譜可由短 時距傅立葉轉換(Short time Fourier transform)計算,配與特定權重的離散傅立葉轉換 (Discrete Fourier transform),其數學定義如下:2 1 0,1,2,..., 1 0
[ ]
[ ]
[ ]
k N j n N m m k N nS
k
x n
w n
e
(9) =0,1,2,..., 1[ ]
s k Nf
f k
k
N
(10) 其中 m 為音框數的索引,k 為音框頻域樣本點的索引,Sm[k]代表第 m 個音框的其對 應於頻率 f[k]的頻譜強度,w[n]即為每個音框樣本點的對應權重或稱為視窗函數(window function)。f[k]為音框頻域樣本點所對應的實際頻率值,fs為訊號的取樣頻率。 圖 12 為單一音框頻譜的圖形,從圖中可以清楚看到音訊在各個頻率的強度大小與 分佈。如圖 13 說明連續時間音頻訊號在不同時間各個頻率的強度大小與分佈的頻譜圖。24 頻譜的內容和聲音訊號的音色有密切關係,包含聲音訊號的基頻、泛音成分、音高 的清晰程度…等,反映在頻譜中各個頻率的強度分布情形。 圖 12 單一音框的頻譜圖 資料來源:Mariage Damour.wav_frame#300 圖 13 連續時間的頻譜圖 資料來源:Mariage Damour.wav
25
而視窗函數 w[n]是用來選取原始音樂訊號某特定部分的實數、且長度有限的序列, 常用的視窗函數為矩形視窗(Rectangular window)、漢明視窗(Hamming window)和漢尼視 窗(Hanning window),三種不同視窗之示意圖如圖 14。由於訊號是連續的,如果在傅立 業的轉換過程中外加一個矩形窗做取樣,在窗的兩旁會造成訊號的不連續且對於轉換後 的訊號兩旁容易產生假訊號,為了降低此問題,使窗內外不會有太劇烈的變化,通常分 析時會選擇使用漢明窗或漢尼窗,它具有壓抑短時距訊號的兩端,改善音框訊號在計算 頻譜時的邊界效應;保持中間段的特性,使頻譜的數值對比更好。三種視窗之數學定義 依序如下。 0,1,2,..., 1 [ ] 1 n N w n (11) 0,1,2,..., 1 2 [ ] 0.54 0.46 cos 1 n N n w n N
(12) 0,1,2,..., 1 2 [ ] 0.5 0.5 cos 1 n N n w n N
(13) 圖 14 三種不同視窗產生的濾波響應圖26 3.3 音調層級分析 Pitch Class Profile(PCP)
由短時距傅立葉轉換得到頻譜數值後,可以進一步利用頻譜來計算一般的音樂理論 分析上較常用的音調特徵值(Pitch Class Profile,PCP),音調一般以大寫音文字母 A 到 G 表示。由頻率和半音(semitone)之間的關係式可將頻率換算為音調,再利用音調於倍頻或 稱 八度(Octave)為相同音調層級的概念,即可將頻譜換算 為對應的 音調層級(Pitch Class)
[2]
,如下: 2 1( )
24 log
f
sk
mod 24
P k
N
f
(14) ( )PCP[ ( ), ]
| [ , ] |
P kP k n
S k n
(15) 上式將頻譜數值映射到 24 個音調層級上,因為考量以 12 平均律切割的 12 個音調 層級在數值分析應用上不夠準確,故將每個層級中再對半切割,成為 24 個音調層級。 第一式中 k 為頻域的樣本點數索引,P(k)表示頻域和音調層級空間的對應關係,代表頻 域第 k 個樣本點之頻率值對應的音調層級,24log2((fs/N)k /f1)將第 k 點的頻率值換算為對 應的半音數,再由餘數(mod)方式將倍頻的音調歸為同個音調層級。第二式將頻譜數值 轉換到音調層級空間(PCP domain)的表示法,其中 n 為音框數的索引, S[(k=0, 1 , …, N), n]為第 n 個音框的頻譜數值,P(k)為音調層級空間的樣本點數索引, PCP[(P(k)=0, … , 23), n]則為第 n 個音框的音調層級數值,其為頻譜中所有倍頻的相同音 調層級的強度加總。對於較為複雜的音訊,如實際的流行音樂,音調層級的表示可以看 出音框內的各個的音調層級的強度與和聲架構。以音調層級的表式法,則可以對頻譜套 用音樂學理上的分析方式,如音程(Interval)、旋律(Melody)、和弦(Chord)、調性(Mode)… 等,各種音樂理論分析或應用。單一音框的音調層級強度分佈如圖 15,各個時間的音調 層級的強度分佈如圖 16。27
圖 15 單一音框的音調層級強度分佈圖 資料來源:Damour Mariage.wav_frame#300
圖 16 連續時間的音調層級強度分佈圖 資料來源:periodmusicDamour Mariage.wav
28 3.4 高斯混合模型 Gaussian Mixture Model (GMM)
高斯混合模型是單一高斯機率密度函數的延伸,為一種常見的正規分佈。一般在一 維的狀況下,高斯機率密度(Probability density function)是用來說明特徵向量 x 在一個特 定種類中出現的機率為何,如式(16)為描述特徵向量 x 的機率密度,其分佈圖形如圖 17。 2 2 ( ) 2 1 ( ; , ) 2 x p x e
(16) 圖 17 高斯分部 其中有 µ 和兩個重要的參數,µ 為期望值(Expectation value),代表密度函數的中心 點或平均向量,位於高斯分佈的中央;2稱為變異數(Variance),而為標準差(Standard deviation),其值的大小和分佈的集中程度有關,值愈小表示越集中。定義如下: [ ] ( ) E x xp x dx
(17) 2 2 [( )] ( ) ( ) E x x p x dx
(18) 高斯模型:利用向量和矩陣推廣為高維度的高斯機率密度函數表示如下式(19): T 1 / 2 1 / 2 1 1 ( ; , C)= exp ( ) C ( ) 2 (2 )d | C | g x x x (19)29
其中μ和 C 分別為期望值和共變異矩陣(Covariance Matrix),Covariance 是 Variance 在高維度中的一種推廣,其第 i-j 個元素代表第 i 維度和第 j 維度的相關性,其值大於零 表示正相關,小於零為負相關,等於零代表互相獨立,對角線元素就是變異數,數學定 義如下,同一維的情形,高斯分佈的參數μ和的值會和其分佈的中心位置和曲線寬度有 關。 1 1 2 2 x E[ ] E[ ] [x] x (x) E[ d] d x x P x
(20) 1 1 1 1 1 1 2 2 1 1 2 2 1 1 2 2 2 2 2 2 1 1 2 2E[( )( )] E[( )( )] E[( )( )]
E[( )( )] E[( )( )] E[( )( )]
C
E[( )( )] E[( )( )] E[( )( )]
d d d d d d d d d d d d x x x x x x x x x x x x x x x x x x (21) 高斯分佈其在統計應用上有許多特殊性質,數據資料若集中在平均數附近,皆可以 以高斯分佈做一個近似的分佈模型,因此為一種良好的統計模型,但是並不是所有的狀 況都能以單一高斯分佈描述,當所量測的資料 X={x1,x2,…,xn}在 d 為空間中的分佈不是 椭球狀,就不適合以一個單一的高斯密度函數來描述這些資料點的機率密度函數。此時 將採用數個高斯函數的加權平均(Weighted Average)來描述 X 的機率密度,亦即高斯混合 模型。如第(22)式為一個二維空間、以三個高斯機率密度函數表示的數學式,其中 Cj為 各個高斯密度函數的共變異矩陣,而且權重1、2、3要滿足總和為 1,其分佈圖形如 圖 18。 1 1 1 2 2 2 3 3 3 2 2 1 2 3 ( , ) ( , ; , C ) ( , ; , C ) ( , ; , C ) 1 0 0 C I = 0 1 0 , 1, 2, 3 0 0 1 1 j j j p x y g x y g x y g x y j (22)
30 圖 18 混和高斯分部 資料來源[30] 只要知道屬於每個種類的機率密度函數,很容易就可以比較同一個量測值,對應每 個種類的機率的大小,進而找出可能性最大的種類為何,但由於一般待測量的數據資 料,並沒有辦法得知其實際機率密度函數,找出一近似的機率密度函數的方式如下: 1.對於每個類別,由一個初始的猜測:給定初始的高斯函數疊加個數,及每個高斯函數 的參數,產生一個初始的 GMM。 2.利用已經設定好的數據,即訓練樣本,利用 GMM 計算分類結果,找出辨識率。接下 來的目標就是要使這個辨識率的值增加,辨識率越高代表這個分佈模型越能表示這些訓 練樣本。 3.以微分求極值的方式,由舊有的參數計算出一組新的 GMM 參數。 4.重複步驟 2~3 疊代,直到辨識率收斂到某一個極值。
此 描 述 的 計 算 方 法 稱 為 Maximum Likelihood Estimation (MLE) 或 Expectation Maximization (EM),經由反覆疊代,找出一組最佳化的 GMM 參數,當作代表這些數據 樣本的機率密度函數。對於未知種類的測試樣本,簡單比較其值對於各個種類的機率值
31 大小(屬於該種類高斯分佈位置的高度),就可以找出最有可能的種類為何,如此便設計 了一個 GMM 分類器。 註:疊代過程中並不是一定會收斂到全局最大值(Global Maximum),也有可能會收斂到 局部最大值(Local Maximum)。所以並不是所有的數據 GMM 都可以有很好的表現, 這和初始設定的參數也都有關係,如高斯函數疊加的數目…等,想要有較好的結 果,訓練樣本一定要足夠。
32
四、 研究方法
本章節討論本篇論文的研究方法,第一節提出系統架構流程;第二節說明測試資料 預處理步驟-音樂分段;第三節討論音樂多主題架構的情緒分析方法;第四節說明音樂 情緒相似度的概念與比對方法。而系統最終輸出之圖形化使用介面-視覺化的音樂自動 選曲系統與流程將在第五章音樂心情點唱機再做詳細的介紹。 4.1 系統架構 系統流程如圖 19 所示,系統輸入的音訊資料主要分成訓練資料和測試資料兩大部 分,圖中紫色方塊部分為訓練資料和測試資料都需要分析的步驟,包含音訊輸入、特徵 萃取、計算能量-壓力情緒分數等;綠色方塊部分代表只針對訓練資料做分析;藍色方 塊部分代表測試資料的分析步驟。 圖 19 系統架構流程方塊圖 訓練資料由兩百首長度為三十秒、已標記單一穩定情緒的音樂片段組成,用於辨識 系統測試資料的音樂情緒;測試資料總共有兩百一十首,音訊內容完整、wave 格式的33 音樂,包含古典純樂器演奏音樂至流行音樂、電子音樂等各種風格類型,主要用於系統 最終輸出的圖性化介面,為系統的音樂資料庫。音樂資料庫的音訊資料首先透過系統的 預處理步驟分析多重主題結構的音樂片段,接著萃取並分析這些音樂片段的各種音訊特 徵後計算其能量-壓力的情緒得分,最後經由訓練資料界定的情緒邊界辨識在每個時刻 所屬的情緒後,事先儲存音樂資料庫中每首歌曲的情緒比例,將被應用於之後系統輸出 使用者介面情緒成份相關的即時運算。 4.2 音樂多重主題結構分析 音樂之多重主題結構分析為系統測試資料的訊號預處理步驟,主要是擷取音樂多重 主題結構的音樂片段。為了測量以多主題音樂結構為基礎的音樂片段,首先要分析的是 樂曲中近似重複片段的週期 t1,t2,t3,t4 (包含主歌和副歌的近似重複片段),分別以主歌的近 似重複片段週期之邊界和副歌的近似重複片段週期之邊界作為主題性音樂片段的切割 點,基於音樂時序性分析所有擷取的切割點來找出樂曲演奏完所有主題結構(第一主題 曲式結構),即將進入第二次重複演奏以前的時間點,亦即間奏部分,由於間奏在音樂 結構中主要扮演連接的角色,對於音樂情緒感受的影響並不大,因此我們將間奏部分視 為自由性擷取,最後,並將所擷取的時間點作為音樂多重主題結構之週期切割點。音樂 多重主題結構之音樂片段的擷取主要著重於主題段落,預設擷取的音樂片段週期如圖 20 的紅色現段,A 代表主歌;B 代表副歌。 圖 20 說明預設擷取的音樂多重主題結構之週期
34 音樂多重主題結構之分析方法分成(1)粗略分段(Rough Segmentation)和(2)精細分段 (Salient Segmentation)兩個主要步驟,詳細說明如下: (1) 粗略分段-近似重複片段之邊界檢測 訊號預處理:統一所有要分析的音樂檔案格式為.wav 檔,雙聲道,設定取樣頻率為 11025Hz,將音訊檔案切割成固定的音框長度,音框數目依各個音訊檔案的時間長 度改變。 特徵萃取:統一設定音訊檔案的所有參數後,首先萃取音頻訊號波形在頻域空間上 的頻譜特徵來取代萃取音頻訊號中音樂內容相關的聲音特徵所造成複雜且過大的 運算量,常見的如:音高(Pitch)、和弦(Chord)、調性(Tonality)、主音(Key)、rhythm(節 奏)、節拍(Tempo)等。考慮重複片段出現的頻率,將每個音框的頻譜振幅值取平方 而得的能量頻譜(power spectrum)作為一特徵向量,所謂能量頻譜(power spectrum) 定義為一個時間序列的訊號經快速傅立葉(FFT)轉換後振幅的平方值,說明一個時 間序列的訊號變化在頻域空間上的能量分步。接著,利用自相關函數(Autocorrelation) 計算每個音框的能量頻譜特徵來強調重複片段在時域空間上出現的頻率,如圖 21 頻域上能量分布豐富且明顯的部分代表近似重複片段可能發生的時間點。 圖 21 利用各個音框之能量頻譜進行自相關函數計算 資料來源:Mariage Damour.wav
35
相似矩陣:參考 Foote[9][10][11]提出的 Foote’s Self-Similarity 方法,首先利用餘弦 相似度之距離演算法來計算任兩個音框能量頻譜特徵向量之間的相似度,如圖 22,相似 矩陣中顏色越亮代表其相似性越高,主對角線白色部分代表音框自己本身的相似度。從 圖 22 中可以由平行主對角線的白色線條或較明亮的方形區塊來判斷歌曲中近似重複片 段的部分,其中平行主對角線的線條說明了再次發生的“連續性序列音樂”,而方形區 塊表示內部重複出現同種音樂的狀態。基於相似矩陣的對稱性,可以單只針對一個上三 角型或下三角型上的資料做分析。 圖 22 以自相關函數計算任兩個音框能量頻譜特徵向量之相似矩陣 音樂分段:如同 Foote’s Self-Similarity 的做法,根據公式 23,利用一個 32×32 的棋 盤內核矩陣和相似矩陣做各個元素的乘積運算,最後再加總所有音框內的元素乘積 數值而得新穎性計分。如圖 23,其下方圖為新穎性計分的峰值圖。 2 2 2 2 , , w w w w m n N i C m n S i m i n
(23)36 圖 23 相似矩陣和新穎性計分之比對圖 資料來源:Mariage Damour.wav 利用已量測的新穎性計分之峰值來判斷近似重複片段之週期切割點,利用前三高的 新穎性計分做為各個主題週期的切割點,初步以最高之新穎性計分峰值作為近似重 複片段之粗略分段,如圖 23 中之下方圖的 91.45s 處,即為近似重複片段之粗略分 段。在此,將針對新穎性計分的峰值(Novelty score = 1)和谷值(Novelty score = 0)分 別做介紹:
Novelty score = 0
根據新穎性計分公式,若將棋盤內核矩陣和一個組成元素皆為 1 的矩陣直接作 乘積運算後加總起來,其新穎性計分為等於零,亦即代表圖 23 中下方圖的谷 值部分。依據組成棋盤內核的概念來說明組成元素皆為 1 的矩陣,參考公式 24