二、 音樂多重結構分析
2.2 自相似研究方法(Self-Similarity Analysis)
2.2.3 偵測新穎性 (Detecting Novelty)
用新穎性計分(Novelty Score)的計算公式測得音頻訊號各個音框間的最大相似值以判斷 音樂多重結構的邊界。
圖 7 Foote’s similarity 資料來源:[9][10][11]
2.2.1 音頻參數化 (Parameterization)
Foote 所提出的方法其系統應用相當靈活,可以隨不同的應用加入現有的音頻分析 方法,例如:基於人耳對於不同頻率的感受程度,萃取 MFCCs 作為輸入音頻訊號的特 徵向量進而達到辨識效果。音頻參數化首要步驟為統一輸入音檔的規格和取樣頻率,針 對窗函數的概念對輸入音頻的波形加窗取得獨立的音框,所謂加窗指的是將一段音頻離 散時間訊號 x(n),用固定長度的視窗(window)套上去,只看視窗內的訊號,對此視窗內
18
的訊號作運算,用以求出在此視窗內的音樂特徵。針對不同的應用設計不同的音框長度 和重疊長度,音框若太大,就無法抓出音訊隨時間變化的特性;反之,音框若太小,則 無法抓出音訊的特性。
2.2.2 距離-相似矩陣 (Distance Matrix Embedding)
完成音頻參數化步驟的音頻訊號會被分割成具連續性同樣大小的音框,每個音框存 在獨自代表性的音頻特徵,將每個音框 i 的特徵向量 vi和音頻訊號中某個音框 j 的特徵 向量 vj以距離演算法作時序性的自相似量測,最後,特徵向量間的相似度距離計算結果 將產生一個二維空間的相似矩陣 S。
在向量空間中判斷兩向量間的距離或稱相似度,有兩種簡單且常用的方式-歐基理 德距離(Euclidean Distance)和餘弦相似度(Cosine Similarity)。假設在 L 維空間中存在 vi 和 vj兩特徵向量,則其歐幾里得距離可表示如公式(1),亦即圖 8 中的距離 D( i , j ),其
向量間的角度(Angle)差距來量測該兩向量間的距離(Distance),其計算結果會介於 0 至 1 之間,當兩個向量間的角度差距越小時,表示該向量間的餘弦角度越小,其計算結
19
圖 8 基於距離演算法之相似矩陣圖
2.2.3 偵測新穎性 (Detecting Novelty)
新穎性(Novelty)在此用來表示音頻訊號顯著的變化點,在討論新穎性之前,我們將 針對其用到的相關理論-核心相關(kernel correlation)先做介紹,然後再介紹如何測得新 穎性計分(Novelty Score)。
核心相關(kernel correlation)
在 Foote’s Self-Similarity 方法中,相似矩陣 S 是量測音訊相似度的主要關鍵,為了 找出瞬間音符大範圍變化的邊界點,也就是新穎性計分(Novelty Score),Foote 利用一個 看起來像“黑白棋盤”的矩陣來和原本的相似矩陣 S 做摺積運算,其中組成棋盤格矩陣 的最簡單元素為:一個以主對角線為 1 組成的 2x2 單位同調矩陣(coherence matrix)和一 個以反對角線為 1 組成的 2x2 單位不同調矩陣(anti-coherence matrix),兩個單位矩陣的 差即為棋盤的內核心(checkerboard kernel),如公式(3)中C '的第一項和第二項。
20
值得注意的是,在 Foote’s Self-Similarity 方法之相似矩陣的運算討論中,為了配合 相似矩陣座標軸的起始點,將原本矩陣的座標軸是以左上方向至右下的方式皆改成左下 同。而兩項數值的差就是在這個分法中的重要部份:新穎性計分(Novelty Score),用來 測量訊號本身的相似程度,所得的差值越大,表示此兩個不同音框的訊號彼此非常相似。
棋盤內核的大小可以依照所要分析音頻資料的音框長度自行做調整,小尺寸的棋盤 內核用來檢測短時間尺度的顯著改變,如節拍(beats)或音符(notes);大尺寸的棋盤內核 平均短時間尺度所量測的新穎性計分(Novelty Score),用來檢測較長的音樂結構,如主 歌和副歌之間的音樂轉換。大尺寸的棋盤內核構造是一個 2×2 的單位棋盤內核和一個維 度為 m×n、構成元素皆為 1 的矩陣做克羅內克積(Kronecker product)運算,克羅內克積定 義為兩個任意大小的矩陣間的運算,以符號表示,如果 A 是一個 m×n 的矩陣,B 是
21
新穎性計分(Novelty Score)
由於相似矩陣是將音訊資料切割成音框單位後,任兩音框之間作相似比較而得的數 值,所以新穎性計分(Novelty Score)正代表兩個音框間其音頻訊號改變的程度,我們將 利用測量而得的新穎性得分作為音樂訊號粗略分段的邊界。
圖 9 新穎性計分的運算概念
如何運算得到新穎性計分呢?做法為想像將一個以單位棋盤內核組成的矩陣,沿著 相似矩陣 S 對角線的方向滑行,如圖 9。棋盤內核矩陣和相似矩陣 S 中每個元素做乘積 運算,最後將所有乘積運算而得的數值加總起來就是新穎性計分(Novelty Score),如式 (6),其中 C 表示一個棋盤內核矩陣,寬度為 w,中心點( 0,0 ),中心點兩側分別代表寬 度為2
w,以時序性而言,過去的音框和未來的音框;i 則是相對於原始音頻訊號在連續 時間索引上的音框數目。為了有效的考慮距離中心點( 0,0 )在新穎性計分的影響程度,
同時避免音框中心點兩側音頻資料組成的不平均所產生的邊緣效應(Edge Effect),在這 裡我們使用加窗概念,利用一個 32×32 高斯徑向基函數的濾波器來平滑棋盤內核矩陣,
如圖 10;圖 11 比較原始尚未濾波的棋盤內核(左邊)和經過高斯濾波器平滑後所形成的 棋盤內核平面圖(右邊),其中越接近中心點( 0,0 )的值越大;反之,越靠近邊緣區域的值
22
將趨近於 0。
2 2
2 2
, ,
w w
w w
m n
N i C m n S i m i n
(6)圖 10 32×32 高斯棋盤內核立體圖 資料來源:[28]
圖 11 32×32 高斯棋盤內核平面圖 資料來源:[29]
23