第二章 相關研究
2.1 音樂分段
Spevak[40]等人指出,音樂的分段是將獨立的音符以時間結構的關係結合起來。目前研 究主要的作法是從音樂的主旋律找出許多組的分段點(Boundary) ,每一個段落都是由前後 兩個分段點所決定,因此將主旋律分成許多局部的片段(Local boundary segmentations)。有 時候,音樂中有些部份是找不到完整的分段點,所以分段的結果可能不會涵蓋整段音樂。
音樂的小片段可以幫我們分析出比較高階的音樂特徵,如:對比、和聲等。通常音樂 可`以利用音長、音高資訊來決定分段點,不考慮較高階的音樂資訊[3][15]。一些研究學者 [2]針對民俗音樂(或民謠 Folksong)做分解時,考慮歌詞的押韻,因為歌曲中的歌詞與旋律 會相互影響。
另一方面來看,音樂可以依照主題分成許多的段落。比如說:古典音樂的奏鳴曲式可 以分為主題、主題發展、主題再現、終止四大段落。這種與音樂實質內容有關的段落形式,
並不能單純以分段點來決定。目前很少研究是針對音樂的段落來處理,音樂學已經有許多 相關的資訊與音樂的分段有關係,如:和弦進程 (Chord progression)可以讓我們分辨出一個 完整的段落,我們一般常聽見的民歌,在利用吉他彈唱時,都會固定的和弦進行。這樣的 方法並不能反映出音樂主題的內容,只是單純的將音樂切割開。
Generative Theory of Tonal Music
Lerdahl 與 Jackendoff[27]在 1983 年提出 “Generative Theory of Tonal Music” (GTTM),
Lerdahl 等人將調性音樂(Tonal music)於人類直覺上的意義,具體的描述。GTTM 主要用於 從音樂的表面形式(Surface),找出隱含於內的結構。GTTM 主要能分析的音樂是以主音音 樂(Homophony)為主,主音音樂是由一個主旋律與外加伴奏所組成。GTTM 是目前較具體
的音樂分析理論,具有相當的參考價值。首先,這個理論將音樂以群組(Group)的方式來分 析。群組的方式指的是把主音音樂分解成一群一群的小單位,並且具有階層的關係。圖 2.1 為一個GTTM 所群組分析後的結果,所有的群組都必須符合被上層群組階層包含的關係。
GTTM 利用主音音樂在演奏或演唱時,需要換氣的部分來作為分段的依據,而這些分 段點,大都是音長較長、休止符出現或是音高的起伏改變時的部分。除此之外,GTTM 還 利用相鄰音之間的音長或休止當作距離(Proximity),以及利用各個音相似度(Similarity),來 決定群組的範圍。如圖 2.2 所示,以相同形狀來表示相似音,圖形之間的距離代表音長或 休止。因為相鄰關係與相似關係不同的考量,會改變群組的方式。舉例來說,圖 2.2 的 B 中間的部分有一個圓形與方形距離相近,我們這時候可以選擇不同的比重考量相鄰與相似 的關係。
Grouper
Temperley 等人[42]利用音樂的 Duration 資訊(Inter-Onset Interval、Offset-Onset Interval) 與Metric 資訊(Beat List),找出可能的分段點。這個方法從長度為 n 個音符的音樂中,分別 去分析2n個可能的分段方法,然後求出分段最好的結果。Temperley 利用 GTTM 的規則,
來評估分段好壞。大致來說,這些規則會讓分段點在IOI 與 OOI 間距很大,而且分段點剛 圖 2.1:GTTM 群組範例。
圖 2.2:相鄰關係與相似關係的群組。
A
B
C
好在Beat 上的結果得到較好的評估排序。
Local Boundary Detection Model(LBDM)
Cambouropoulos[3][4]利用 GTTM 所描述的相鄰與相似的關係,提出 Local Boundary Detection Model(LBDM)。LBDM 所能處理的音樂與 GTTM 一樣,是針對主音音樂的主旋 律。由主旋律分別計算出音程差(Pitch interval)、音長(Interonset interval, IOI)及休止(rest-計 算目前的Onset-time 到上一個 Offset-time 的間距)三個特徵序列。LBDM 計算三個序列得出
“Boundary strength value”,數值序列。數值序列中的高峰(Peak)部分,就是群組或分段的邊 界。LBDM 訂出兩個計算 Boundary strength value 的規則,“Change Rule (CR)”與“Proximity Rule(PR)”。CR 針對一個特徵序列,計算出 “Degree of change”。假設我們取用三種音樂的 特徵值k,k∈{pitch, ioi, rest},每一個特徵值序列以 Prok = [
x
1,x
2,...,x
n]表示,所有 Prok所PR 則是找出特徵序列中,可能的分界點,分界點由 Strength value 高的決定。對於一 個特徵k,可以計算出 Vk=[
v
1,v
2,...,v
n],其中v
i =x
i ⋅(r
i−1,i +r
i,i+1)。加權整合每個特徵所分 別計算出來的Vk,可以決定最後可能的邊界。Data-Oriented Parsing
Bod[2]針對民俗音樂分段提出 Data-Oriented Parsing(DOP)的方法,利用一個已知分段 的音樂資料庫來做learning,建立一個機率分布。然後在利用 learning 的結果對其他音樂做 分段。Bod 利用 Natural Language 的方法套用到音樂的資料上,主要利用三種 Probabilistic grammar technique 做 learning,分別是 Treebank Grammar Technique,Markov Grammar Technique 與 Extended Markov Grammar Technique with DOB Technique。此外,這個方法考 慮民俗音樂歌詞押韻的方式,同樣也是以Natural Language 的技術處理。
Perceptual Analysis
Jian 等人[22]提出以人類聽覺認知對音樂訊號做分段,有別於傳統聲音訊號的分段。他 們利用Roughness、Periodicity pitch 與 Loudness 三項特徵,找出分段點。Roughness 包含有 音樂的音色與節奏的資訊;Periodicity pitch 包含音高的資訊;Loudness 包含音量的資訊。
與前面所提到的LBDM 所用的原理相同,特徵值中,如果有劇烈變化的地方,就可能是分 段點,例如:在音色變換的時候,Roughness 值會有劇烈的變化。不過,這個方法並不適用 於對主題做分段。在交響曲中,主題常常被不同樂器輪流演奏出來。舉例來說,貝多芬第 六號交響曲“田園”第一樂章的第一個主題,是由小提琴、豎笛與雙簧管三種樂器輪流演奏 出來。如果以音色變化來做分段,會將第一主題分成許多小段。
Repeating Pattern based on LBDM
Chen[8]提出一個應用 LBDM 方法的研究,對整首音樂先分解出一個個片段。然後,
以片段為單位,找出重複出現的片段。Chen 進一步修改 LBDM 的方法,使分解片段的效 果,更貼近人類的感知。
Structural Analysis
Chai[7]針對 Acoustic 音樂資料,找出音樂的重複結構。音樂結構的分析分為五個主要 的步驟,步驟如下。第一,Feature extraction,以 Frame 為單位切割音樂訊號,並且擷取每 一個Frame 的特徵值。對每一個 Frame 使用 Autocorrelation 的方法做特徵擷取,擷取出來 的音樂特徵為該Frame 所代表的音高。第二,Pattern matching,以固定的連續 Frame 個數 組合成許多有重疊(overlap)的片段,利用 Local Alignment 的方法,找出各別重疊的片段在 音樂序列中重複出現的情形。第三,Repetition detection,由前一個步驟的結果探勘出重複 序列。第四,Segment merging,將性質相近的連續數個片段合成一個。最後,結構標示 (Structure labeling),將重複出現的段落做標示。因此,一首音樂在做完結構分析後,如圖 2.3 所示,我們可以得知圖中的音樂結構為ABAB 的形式。