音樂分段

第二章相關研究

2.1 音樂分段

Spevak[40]等人指出，音樂的分段是將獨立的音符以時間結構的關係結合起來。目前研究主要的作法是從音樂的主旋律找出許多組的分段點(Boundary) ，每一個段落都是由前後兩個分段點所決定，因此將主旋律分成許多局部的片段(Local boundary segmentations)。有時候，音樂中有些部份是找不到完整的分段點，所以分段的結果可能不會涵蓋整段音樂。

音樂的小片段可以幫我們分析出比較高階的音樂特徵，如：對比、和聲等。通常音樂可`以利用音長、音高資訊來決定分段點，不考慮較高階的音樂資訊[3][15]。一些研究學者 [2]針對民俗音樂(或民謠 Folksong)做分解時，考慮歌詞的押韻，因為歌曲中的歌詞與旋律會相互影響。

另一方面來看，音樂可以依照主題分成許多的段落。比如說：古典音樂的奏鳴曲式可以分為主題、主題發展、主題再現、終止四大段落。這種與音樂實質內容有關的段落形式，

並不能單純以分段點來決定。目前很少研究是針對音樂的段落來處理，音樂學已經有許多相關的資訊與音樂的分段有關係，如：和弦進程 (Chord progression)可以讓我們分辨出一個完整的段落，我們一般常聽見的民歌，在利用吉他彈唱時，都會固定的和弦進行。這樣的方法並不能反映出音樂主題的內容，只是單純的將音樂切割開。

Generative Theory of Tonal Music

Lerdahl 與 Jackendoff[27]在 1983 年提出 “Generative Theory of Tonal Music” (GTTM)，

Lerdahl 等人將調性音樂(Tonal music)於人類直覺上的意義，具體的描述。GTTM 主要用於從音樂的表面形式(Surface)，找出隱含於內的結構。GTTM 主要能分析的音樂是以主音音樂(Homophony)為主，主音音樂是由一個主旋律與外加伴奏所組成。GTTM 是目前較具體

的音樂分析理論，具有相當的參考價值。首先，這個理論將音樂以群組(Group)的方式來分析。群組的方式指的是把主音音樂分解成一群一群的小單位，並且具有階層的關係。圖 2.1 為一個GTTM 所群組分析後的結果，所有的群組都必須符合被上層群組階層包含的關係。

GTTM 利用主音音樂在演奏或演唱時，需要換氣的部分來作為分段的依據，而這些分段點，大都是音長較長、休止符出現或是音高的起伏改變時的部分。除此之外，GTTM 還利用相鄰音之間的音長或休止當作距離(Proximity)，以及利用各個音相似度(Similarity)，來決定群組的範圍。如圖 2.2 所示，以相同形狀來表示相似音，圖形之間的距離代表音長或休止。因為相鄰關係與相似關係不同的考量，會改變群組的方式。舉例來說，圖 2.2 的 B 中間的部分有一個圓形與方形距離相近，我們這時候可以選擇不同的比重考量相鄰與相似的關係。

Grouper

Temperley 等人[42]利用音樂的 Duration 資訊(Inter-Onset Interval、Offset-Onset Interval) 與Metric 資訊(Beat List)，找出可能的分段點。這個方法從長度為 n 個音符的音樂中，分別去分析2ⁿ個可能的分段方法，然後求出分段最好的結果。Temperley 利用 GTTM 的規則，

來評估分段好壞。大致來說，這些規則會讓分段點在IOI 與 OOI 間距很大，而且分段點剛圖 2.1：GTTM 群組範例。

圖 2.2：相鄰關係與相似關係的群組。

A

B

C

好在Beat 上的結果得到較好的評估排序。

Local Boundary Detection Model(LBDM)

Cambouropoulos[3][4]利用 GTTM 所描述的相鄰與相似的關係，提出 Local Boundary Detection Model(LBDM)。LBDM 所能處理的音樂與 GTTM 一樣，是針對主音音樂的主旋律。由主旋律分別計算出音程差(Pitch interval)、音長(Interonset interval, IOI)及休止(rest-計算目前的Onset-time 到上一個 Offset-time 的間距)三個特徵序列。LBDM 計算三個序列得出

“Boundary strength value”，數值序列。數值序列中的高峰(Peak)部分，就是群組或分段的邊界。LBDM 訂出兩個計算 Boundary strength value 的規則，“Change Rule (CR)”與“Proximity Rule(PR)”。CR 針對一個特徵序列，計算出 “Degree of change”。假設我們取用三種音樂的特徵值k，k∈{pitch, ioi, rest}，每一個特徵值序列以 Prok = [

x

₁,

x

₂,...,

x

_n]表示，所有 Prok所

PR 則是找出特徵序列中，可能的分界點，分界點由 Strength value 高的決定。對於一個特徵k，可以計算出 Vk=[

v

₁,

v

₂,...,

v

_n]，其中

v

_i =

x

_i ⋅(

r

_i₋₁_,_i +

r

_i_,_i₊₁)。加權整合每個特徵所分別計算出來的Vk，可以決定最後可能的邊界。

Data-Oriented Parsing

Bod[2]針對民俗音樂分段提出 Data-Oriented Parsing(DOP)的方法，利用一個已知分段的音樂資料庫來做learning，建立一個機率分布。然後在利用 learning 的結果對其他音樂做分段。Bod 利用 Natural Language 的方法套用到音樂的資料上，主要利用三種 Probabilistic grammar technique 做 learning，分別是 Treebank Grammar Technique，Markov Grammar Technique 與 Extended Markov Grammar Technique with DOB Technique。此外，這個方法考慮民俗音樂歌詞押韻的方式，同樣也是以Natural Language 的技術處理。

Perceptual Analysis

Jian 等人[22]提出以人類聽覺認知對音樂訊號做分段，有別於傳統聲音訊號的分段。他們利用Roughness、Periodicity pitch 與 Loudness 三項特徵，找出分段點。Roughness 包含有音樂的音色與節奏的資訊；Periodicity pitch 包含音高的資訊；Loudness 包含音量的資訊。

與前面所提到的LBDM 所用的原理相同，特徵值中，如果有劇烈變化的地方，就可能是分段點，例如：在音色變換的時候，Roughness 值會有劇烈的變化。不過，這個方法並不適用於對主題做分段。在交響曲中，主題常常被不同樂器輪流演奏出來。舉例來說，貝多芬第六號交響曲“田園”第一樂章的第一個主題，是由小提琴、豎笛與雙簧管三種樂器輪流演奏出來。如果以音色變化來做分段，會將第一主題分成許多小段。

Repeating Pattern based on LBDM

Chen[8]提出一個應用 LBDM 方法的研究，對整首音樂先分解出一個個片段。然後，

以片段為單位，找出重複出現的片段。Chen 進一步修改 LBDM 的方法，使分解片段的效果，更貼近人類的感知。

Structural Analysis

Chai[7]針對 Acoustic 音樂資料，找出音樂的重複結構。音樂結構的分析分為五個主要的步驟，步驟如下。第一，Feature extraction，以 Frame 為單位切割音樂訊號，並且擷取每一個Frame 的特徵值。對每一個 Frame 使用 Autocorrelation 的方法做特徵擷取，擷取出來的音樂特徵為該Frame 所代表的音高。第二，Pattern matching，以固定的連續 Frame 個數組合成許多有重疊(overlap)的片段，利用 Local Alignment 的方法，找出各別重疊的片段在音樂序列中重複出現的情形。第三，Repetition detection，由前一個步驟的結果探勘出重複序列。第四，Segment merging，將性質相近的連續數個片段合成一個。最後，結構標示 (Structure labeling)，將重複出現的段落做標示。因此，一首音樂在做完結構分析後，如圖 2.3 所示，我們可以得知圖中的音樂結構為ABAB 的形式。

在文檔中數位音樂典藏之資料探勘與智慧型檢索技術 (I) (頁 18-22)

第二章 相關研究