音樂結構分析

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

5 第 2 章相關研究

關於詞式分析與詞曲搭配目前還沒有相同目標的研究，因此以下整理出四個與本研究最相近的研究議題：(1)音樂結構分析；(2)歌詞與旋律關係研究；(3)流行音樂與歌詞自動同步；(4)由歌詞產生旋律與由旋律產生歌詞。

2.1. 音樂結構分析

現在的流行音樂中常常分成幾個部分，分別為主歌、副歌、前奏、間奏與尾奏。

音樂家會將這些部分依照ㄧ定的邏輯排列，目的為了達到他想表達的內容，這樣的排列我們稱為曲式。其中主歌或副歌是最基本的曲式單仍[34]，主歌是傳達一首歌曲的背景故事，是整首歌曲的骨幹。副歌往往是令聽眾最印象深刻的片段，

通常也是歌曲的高潮，並且會相對於主歌重複多次，用以加深聽眾的記憶。因此有學者希望可以透過電腦自動分析出音樂的曲式結構，如此可以應用在 Indexing 或是 Audio Thumbnailing 等等的領域。Foote[3]是第一個利用 SSM(自相似度矩陣) 來視覺化音樂訊號的學者，隨後的研究大部分都是建立在 SSM 上來做後續的音樂結構分析。

音樂結構分析的第一步通常為音樂的特徵值擷取，擷取的方式是利用 10-100 毫秒的 Frame 慢慢的移動覆蓋整個音樂訊號，並且對每個 Frame 的訊號內容進行特徵值擷取，最後一個音樂訊號就會形成一條特徵值序列。抓取的特徵值通常為高階的特徵，像是 MFCC(Mel-scale Frequency Cepstral Coefficient)、Chroma 與 Rhythmogram 等等，其對應的意義依序為音色、音高或節奏，每種特徵值通常表示為一個向量的形式。有了一序列的音樂特徵值 x₁,x₂,…x_N，接下來再對特徵序列的仍素兩兩計算相似度(或距離)產生一個 N*N 的 SSM(i, j) = sim(xi, xj),

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

6

∀i, j ∈ {1,2, . . N}，sim 為兩個特徵仍素的相似度函數。

有學者[23]整理了訊號基底(Audio-Based)的音樂結構分析的研究，他們將到目前為止的音樂結構分析方法分成三大部分： (1)Novelty-based( 新奇性 ) ； (2)Homogeneity-based(同質性)；(3)Repetition-based(重複性)。

2.1.1. Novelty-based

主歌與副歌之間往往會有一個變化，可能是音量、節奏或是樂器等等的面向，如此是為了可以吸引聽眾，讓音樂不單調。因此 Foote[4]提出偵測 Novelty 的方式來找出音樂中段落的分段點。他先以 MFCC 特徵為基礎，建立一個 N*N 的 SSM 接著利用一個 M*M 的 Checkerboard Kernel 矩陣，他將此 Checkerboard Kernel 矩陣延著 SSM 的主對角線掃描，計算每一個時間點的 Novelty，得到一個 Novelty 的隨時間的分佈，接著再做峰值擷取(Peak Picking)。Novelty 分數越高表示越可能是一個分段點。

2.1.2. Homogeneity-based

這個方向的目標是將輸入的音樂訊號視為一連串的狀態(state)，並且將同質性的狀態分為同一個族群。Cooper 等人[2]利用先前提到的偵測 Novelty 的方法，找出音樂訊號的分段點，接下來將這些段落利用 Kullback-Leibler Divergence 計算段落兩兩之間的距離產生段落的 SSM。通常特徵序列 SSM 的大小為幾千乘幾千，

轉換成段落的 SSM 後，大小降為幾十乘幾十，如此可以減少計算量。接著對段落 SSM 做 SVD(Singular Value Decomposition)，可以得到 K 個特徵值(Singular Value)，這也意味著可以將目前切割出的段落分成 K 群，最後再將每個段落依據其最大可能性選擇其屬於的族群，達到段落分群，產生出音樂結構。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

7 2.1.3. Repetition-based

重複是音樂創作很重要的仍素，如此可以加深聽眾的印象。在 SSM 上若有重複樣式產生，則會出現一條很明顯的斜線樣式，例如圖 2.1 為曲式 ABABB 產生 SSM 後的示意圖，其中黑色斜線樣式代表者兩段落的特徵值序列的相似度很高。

可以看到 A₁與 A₂之間有條斜線樣式，A₁B₁與 A₂B₂之間也有條斜線樣式。

B₃ B2

A₁

A1 B1 A2 B2 B3

圖 2.1 SSM 上的斜線樣式

圖 2.1 為一個理想情況，實際上 SSM 上的斜線樣式產生是取決於抓取的音樂特徵值，因此 Muller 等人[19]希望可以強化斜線樣式的呈現並且去除雜訊，將由音樂特徵序列產生的 SSM 考慮 Contextual Information 產生一個強化的 (Enhanced)SSM。而 Peeters[24]則將由音樂特徵序列產生的 SSM 考慮遞移關係，

也就是當 A 與 B 像，B 與 C 像，則可以推論 A 與 C 也會像，這種性質產生一個 Higher-order 的 SSM。這兩種方法都可以達到強化斜線樣式的目的。

在 SSM 上有了清楚的斜線樣式後，接下來便是自動找出取出這些斜線樣式。

Mueller 等人[18]利用貪婪(Greedy)的方式並且設定門檻值，找出斜線樣式，接下來將取出的斜線樣式考慮遞移關係，找出音樂的重複結構。

時間

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

8

在文檔中華語流行音樂之詞式分析與詞曲結構搭配之排比與同步 - 政大學術集成 (頁 16-19)

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

5

第 2 章 相關研究

2.1. 音樂結構分析

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

6

2.1.1. Novelty-based

2.1.2. Homogeneity-based

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

7

2.1.3. Repetition-based

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

8

立政治大學

第 2 章相關研究

立政治大學

立政治大學

立政治大學