• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

5

第 2 章 相關研究

關於詞式分析與詞曲搭配目前還沒有相同目標的研究,因此以下整理出四個與本 研究最相近的研究議題:(1)音樂結構分析;(2)歌詞與旋律關係研究;(3)流行音 樂與歌詞自動同步;(4)由歌詞產生旋律與由旋律產生歌詞。

2.1. 音樂結構分析

現在的流行音樂中常常分成幾個部分,分別為主歌、副歌、前奏、間奏與尾奏。

音樂家會將這些部分依照ㄧ定的邏輯排列,目的為了達到他想表達的內容,這樣 的排列我們稱為曲式。其中主歌或副歌是最基本的曲式單仍[34],主歌是傳達一 首歌曲的背景故事,是整首歌曲的骨幹。副歌往往是令聽眾最印象深刻的片段,

通常也是歌曲的高潮,並且會相對於主歌重複多次,用以加深聽眾的記憶。因此 有學者希望可以透過電腦自動分析出音樂的曲式結構,如此可以應用在 Indexing 或是 Audio Thumbnailing 等等的領域。Foote[3]是第一個利用 SSM(自相似度矩陣) 來視覺化音樂訊號的學者,隨後的研究大部分都是建立在 SSM 上來做後續的音 樂結構分析。

音樂結構分析的第一步通常為音樂的特徵值擷取,擷取的方式是利用 10-100 毫秒的 Frame 慢慢的移動覆蓋整個音樂訊號,並且對每個 Frame 的訊號內容進 行特徵值擷取,最後一個音樂訊號就會形成一條特徵值序列。抓取的特徵值通常 為高階的特徵,像是 MFCC(Mel-scale Frequency Cepstral Coefficient)、Chroma 與 Rhythmogram 等等,其對應的意義依序為音色、音高或節奏,每種特徵值通常表 示為一個向量的形式。有了一序列的音樂特徵值 x1,x2,…xN,接下來再對特徵序 列的仍素兩兩計算相似度(或距離)產生一個 N*N 的 SSM(i, j) = sim(xi, xj),

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

6

∀i, j ∈ {1,2, . . N},sim 為兩個特徵仍素的相似度函數。

有學者[23]整理了訊號基底(Audio-Based)的音樂結構分析的研究,他們將到 目 前 為 止 的 音 樂 結 構 分 析 方 法 分 成 三 大 部 分 : (1)Novelty-based( 新 奇 性 ) ; (2)Homogeneity-based(同質性);(3)Repetition-based(重複性)。

2.1.1. Novelty-based

主歌與副歌之間往往會有一個變化,可能是音量、節奏或是樂器等等的面向,如 此是為了可以吸引聽眾,讓音樂不單調。因此 Foote[4]提出偵測 Novelty 的方式 來找出音樂中段落的分段點。他先以 MFCC 特徵為基礎,建立一個 N*N 的 SSM 接著利用一個 M*M 的 Checkerboard Kernel 矩陣,他將此 Checkerboard Kernel 矩陣延著 SSM 的主對角線掃描,計算每一個時間點的 Novelty,得到一個 Novelty 的隨時間的分佈,接著再做峰值擷取(Peak Picking)。Novelty 分數越高表示越可 能是一個分段點。

2.1.2. Homogeneity-based

這個方向的目標是將輸入的音樂訊號視為一連串的狀態(state),並且將同質性的 狀態分為同一個族群。Cooper 等人[2]利用先前提到的偵測 Novelty 的方法,找出 音樂訊號的分段點,接下來將這些段落利用 Kullback-Leibler Divergence 計算段 落兩兩之間的距離產生段落的 SSM。通常特徵序列 SSM 的大小為幾千乘幾千,

轉換成段落的 SSM 後,大小降為幾十乘幾十,如此可以減少計算量。接著對段 落 SSM 做 SVD(Singular Value Decomposition),可以得到 K 個特徵值(Singular Value),這也意味著可以將目前切割出的段落分成 K 群,最後再將每個段落依據 其最大可能性選擇其屬於的族群,達到段落分群,產生出音樂結構。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

7

2.1.3. Repetition-based

重複是音樂創作很重要的仍素,如此可以加深聽眾的印象。在 SSM 上若有重複 樣式產生,則會出現一條很明顯的斜線樣式,例如圖 2.1 為曲式 ABABB 產生 SSM 後的示意圖,其中黑色斜線樣式代表者兩段落的特徵值序列的相似度很高。

可以看到 A1與 A2之間有條斜線樣式,A1B1與 A2B2之間也有條斜線樣式。

B3 B2

A2

B1

A1

A1 B1 A2 B2 B3

圖 2.1 SSM 上的斜線樣式

圖 2.1 為一個理想情況,實際上 SSM 上的斜線樣式產生是取決於抓取的音 樂特徵值,因此 Muller 等人[19]希望可以強化斜線樣式的呈現並且去除雜訊,將 由音樂特徵序列產生的 SSM 考慮 Contextual Information 產生一個強化的 (Enhanced)SSM。而 Peeters[24]則將由音樂特徵序列產生的 SSM 考慮遞移關係,

也就是當 A 與 B 像,B 與 C 像,則可以推論 A 與 C 也會像,這種性質產生一個 Higher-order 的 SSM。這兩種方法都可以達到強化斜線樣式的目的。

在 SSM 上有了清楚的斜線樣式後,接下來便是自動找出取出這些斜線樣式。

Mueller 等人[18]利用貪婪(Greedy)的方式並且設定門檻值,找出斜線樣式,接下 來將取出的斜線樣式考慮遞移關係,找出音樂的重複結構。

時間

時間

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8

相關文件