中華大學碩士論文

(1)

中華大學碩士論文

題目：音樂的自動韻律結構分析音樂的自動韻律結構分析音樂的自動韻律結構分析音樂的自動韻律結構分析

系所別：資訊工程學系碩士班學號姓名：M09602011 江俊賢指導教授：劉志俊博士

中華民國九十中華民國九十中華民國九十

中華民國九十九九九年九年年年一一一一月月月月

(2)

摘要摘要摘要摘要

音樂韻律是階層式的架構，由不同層次的節拍單位所組成。早期的節奏分析，大多以規則性的系統模型企圖模擬人類聽覺系統；而近代的研究都以分離聲音起音點找出音樂的三個階層：泰坦(tatum)、拍(beat)、小節(measure)。本文提出一套自動拍子感測系統，目的在音樂中取出不同結構之音長特徵，作為音樂分析的依據。我們由偵測起音點資訊，統計起音點間距長度，再利用赤池資訊量準則來擬合起音點間距之高斯混合模型

，進行泰坦檢測及拍點檢測。在泰坦檢測部分，我們提出了三個方法，依據不同規則來找尋最小時間刻度泰坦(最短起音點長度規則、最長起音點長度規則及最頻繁起音點長度規則)；在小節偵測方面，我們透過重音樣板的權重設定來估算小節的邊界位置及其相位。

關鍵字關鍵字

關鍵字關鍵字：泰坦、拍、小節、拍子分析

(3)

i

1. 序論... 1

1.1. 研究背景... 1

1.2. 研究動機... 1

1.3. 章節概要... 2

2. 相關研究... 3

2.1. 起音點偵測... 3

2.2. 泰坦分析... 4

2.3. 拍子追蹤... 5

2.4. 小節分析... 6

3. 拍子涵義... 8

3.1. 拍號... 8

3.2. 拍子的強弱... 8

3.3. 音樂韻律的階層架構... 11

4. 自動韻律分析系統架構... 13

4.1. 起音點偵測... 14

4.2. 起音點間隔計算及統計... 16

4.3. 赤池資訊量準則... 18

4.4. 泰坦分析... 21

4.5. 拍點偵測... 23

4.6. 小節時值與相位估算... 24

5. 實驗... 27

5.1. 泰坦時值估算... 28

5.2. 拍時值估算... 28

(4)

ii

5.3. 小節時值估算... 29

6. 結論與未來研究... 32

7. 參考文獻... 33

附錄 A. ... 35

附錄 B. ... 37

(5)

iii

圖 1 拍號範例... 8

圖 2 二拍子範例(佈爾格彌勒 25 首練習曲-阿拉貝斯克) ... 9

圖 3 三拍子範例(佈爾格彌勒 25 首練習曲-天真) ... 9

圖 4 四拍子範例(佈爾格彌勒 25 首練習曲-順良的心) ... 9

圖 5 樂譜及聲音波形檔之對照以及拍子階層架構示意圖... 12

圖 6 拍子分析之整體架構... 13

圖 7 Dixon 拍點追蹤程式“Beatroot”起音點偵測範例 ... 16

圖 8 起音點時間間隔示意圖... 17

圖 9 根據圖 8 所計算的起音點時間間隔長方圖... 18

圖 10 使用赤池資訊量準則來逼近起音點時間間隔直方圖之高斯混合模型.. 21

圖 11 使用赤池資訊量準則求得之高斯混合分佈圖 ... 22

圖 12 小節時值判斷規則樹... 24

圖 13 2 拍子與 3 拍子系統樣板... 24

圖 14 強弱音的判斷... 26

圖 15 人工起音點間距標記結果之拍時值分佈統計... 27

圖 16 程式起音點間距偵測結果之泰坦時值分佈統計... 28

(6)

iv

表 1 拍號-單拍子 ... 10

表 2 拍號-複拍子 ... 11

表 3 三種泰坦時值估算方法之誤差值比較... 30

表 4 拍點起音點擊中率... 31

(7)

1

1. 序論序論序論序論

1.1. 研究背景研究背景研究背景研究背景

近年來由於多媒體壓縮技術的發達與網際網路的興起，多媒體資料已成為現今網路上最大量的交換資料，在生活中數位音樂也成為不可或缺的角色。因此多媒體資料的內涵式查詢與分析成為近年來多媒體與資訊擷取領域研究的焦點之一。

1.2. 研究動機研究動機研究動機研究動機

以往在音樂的內涵式分析著重於旋律比對以及拍子追蹤為主，例如 MIREX 音樂內涵分析近年來的比賽著重於旋律、拍追蹤等技術[4][8][9][15]，對於音樂的韻律結構 (metrical structures)分析方面較少定量研究。拍子是一首音樂的重要內涵，人們聽到一段音樂，往往會不由自主的配合音樂節奏打拍子，甚至身體也跟著韻律律動。一首音樂的樂譜上也必定會標記其拍子資訊，樂曲的節奏感覺是音樂詮釋的重要面向。本文提出一套找尋音樂中節奏與拍子之韻律結構的系統方法。音樂韻律結構是階層式的，本文採取三個階層來進行分析：第一個階層稱為泰坦(tatum)是音樂中最小的感知時間，也稱之為”

時間原子”[2]，它構成一首音樂中節拍方面的最小感知刻度；第二個階層稱為拍(beat)，

拍由泰坦的倍數所組成，為樂曲中最易察覺的時間單位，聽者聆聽音樂常跟隨著拍的律動打拍子；第三個階層為樂曲中較大刻度的小節(measure)，小節由拍的倍數所組成，組成音樂旋律的最基本單位。和聲的改變及節奏樣板長度，通常以小節為單位。取出音樂節奏及韻律資訊將會有數個應用：

(1)音樂信號的編輯：音樂的本質存在階層式架構，我們自動的找出各韻律階層架構，

有助於音樂剪和貼的操作和音樂編輯。

(2)賦予同步的能力：同步週邊設備及器材，可應用於燈光效果、視頻或操縱電子工具。

測量音樂節奏資訊可用來建造連續節奏的邊界或同步兩個聲音軌道。如果可判斷一個音

、一個小節或一段樂句的開始位置，將可運用在音樂播放軟體的自動歌詞顯示上。

(8)

2

(3)作為音樂研究的一個基礎時間參考刻度。如：力度研究、和弦判斷，往往都是以小節做分段單位。

(4)多媒體內涵查詢：多媒體不應僅用歌名或作者來搜尋，應利用音樂的特性如節奏或一個旋律來搜尋，本文提供一個方法來取得音樂節奏資訊，作為依節奏查詢之用。

(5)用來重建樂譜：作為音樂分析反向工程技術，可利用韻律結構資訊來重建樂譜資訊。

1.3. 章節概要章節概要章節概要章節概要

本論文之結構說明如下：在第 2 章，我們將針對韻律結構分析之相關技術研究加以說明；在第 3 章我們介紹拍子涵義；第 4 章提出韻律結構分析之整體架構；第 5 章進行實驗的結果分析；最後第 6 章總結並說明未來發展方向。

(9)

3

2. 相關研究相關研究相關研究相關研究

有關音樂的韻律結構分析之相關研究，依照探討所使用的方法與技術，大致上可分為樂理與感知心理學方面的韻律分析以及節拍訊號處理等兩個層面。早期的韻律結構分析，探討的重心集中在了解人類對節奏方面的感知機制[3][5][6][11][17][19][20][21][22]

[23][24][28]，並嘗試歸納出建構節拍的樂理規則[14][18][30][31]。這類研究中，比較系統化的理論為調性音樂的生成理論(GTTM, generative theory of tonal music)[18]。在此書的韻律結構(metrical structure)分析的章節中，Lerdahl 與 Jackendoff 提出四個韻律良構規則(metrical well-formedness rules)，以及 10 個韻律傾向規則(metrical preference rules)，

來規範節拍階層結構的格式與建構法則，為電腦化音樂韻律分析奠定系統化的理論基礎

。在[14]一文中，Hamanaka 等人將 GTTM 法則完成程式的實作，可對 MusicXML 樂譜資料分析其節拍結構。

Temperley 認為節拍分析必須與和諧分析協同進行方能得到較完整的資訊。因此，

在[31]一文中，Temperley 參考 GTTM 的傾向規則的作法，提出了三組韻律傾向法則以及五組和諧傾向規則，可以自動根據輸入一連串音符其起音點與終音點資料，推論出其韻律階級結構。

2.1. 起音點偵測起音點偵測起音點偵測起音點偵測

要進行節奏的分析，必須先由樂曲中找到每個音的起音點(onsets)。Bello 等人歸納以往在起音點的研究中所提出之特徵值，大略可分為頻譜通量(spectral flux)、相位偏移 (phase deviation)、複合領域(complex domain)、權重相位偏移(weighted phase deviation) 及調整式複合領域(rectified complex domain)等五類，也針對五種方法做詳細的分析及比較[1]。

Klapuri 在[15]一文中提出起音點偵測必須根據人耳聽覺，其方法首先對音量做正規化，再使用臨界頻帶過濾器分割成 21 個 1/3 的八度頻帶，從個別臨界頻帶中取出相對音之變化，最後將所有頻帶之相對音量差特徵值合併，取出起音點。

(10)

4

Dixon[9]重新考慮多種起音點特徵值，包含時域特徵值(振幅差、尖峰振幅差、振幅遞增值、尖峰振幅遞增值)及頻域的特徵值(音量、尖峰音量、音量斜率、尖峰音量斜率)，

將這 8 個特徵值使用分類器預測是否為起音點。Bello[1]混合了能量特徵及相位特徵，

實驗結果相位特徵偵測在有音高非打擊樂器的起音點較佳。

2.2. 泰坦分析泰坦分析泰坦分析泰坦分析

Bilmes[2]提到當我們聆聽音樂的時候，通常可以聆聽到高頻的脈動，這個脈動通常為音樂拍的 1/2、1/3 或 1/4，在這篇論文中將這脈動稱之為泰坦(tatum)。Bilmes 進一步定義泰坦為節拍韻律階層裡面最低層的結構，通常泰坦值為一個樂句裡面兩個連續音符之間的最小時間間隔。

Bilmes[2] 在有關電子鼓節奏表現的研究中提出一種節奏表現模型 (rhythmic expressivity model)，將節奏資訊分為節奏結構(metrical structure)、速度變化(tempo rariation)以及速度偏移(tempo deviation)三部分，其中以速度偏移最為重要。在計算速度偏移的過程中，Bilmes 定義了泰坦(tatum)作為節拍階層結構中的最小單位，以及計算泰坦節線(tatum grid)來衡量速度變化與速度偏移的基準。

根據 Bilmes 的定義，Seppänen[25]一文中提出分析音樂泰坦格線(tatum grid)的方法。

首先，音樂訊號經過八個指數分佈的濾波器分頻與平滑化後，計算其振幅差來進行起音點偵測。接著計算在一定時間內所有兩個起音點間距(IOIs)，並統計其直方圖。Seppänen 假設泰坦時間長度為起音點間距的直方統計圖中，各個群集之最小公倍數，因此，利用此規則可求得泰坦時間長度。實驗以各種力度、速度、曲風的 50 段 CD 音樂來評估，

其中有 6 段音樂的每拍子泰坦數與人工標示的個數相同，有 21 段音樂的泰坦分析結果為成功(誤差數小於 0.5 個泰坦)。

在研究爵士音樂中最常見的搖擺(swing)風格的論文中[13]，Gouyon 等人提出一套由滴答(ticks)、八分音符與四分音符等三階層的韻律結構模型。文中將滴答定義為在起音點間隔直方統計圖中，成倍數出現的峯值之最小單位，故可使用和諧梳狀格網樣板

(11)

5

(harmonic comb grid template)進行滴答值的偵測。再由滴答值的一倍、兩倍、三倍與四倍間距點次數最多者估算四分音符的週期長度，據此修改節奏資訊作出搖擺曲風。

2.3. 拍拍子拍拍子子子追蹤追蹤追蹤追蹤

在[11]描述了一個拍子追蹤系統 BTS(Beat tracking system)。此系統能追蹤在各樂器下包含鼓聲的拍子。並且取出低音鼓(bass drum, BD)及小鼓(snare drum, SD)的頻率特徵，

並且利用這些特徵推論拍的位置。

在[7][8]等文中，Dixon 提出一套速度及拍點追蹤(beat tracking)演算法，音樂信號先取出所有起音點，再利用速度推導子系統(tempo induction subsystem)將各個起音點時間間隔(inter-onset Intervals, IOIs)排列成不同長度的群集，找出所有起音點時間間隔的組合

，將這些組合的資訊經由拍點追蹤子系統(beat tracking subsystem)，利用叢集的大小及叢集整數倍的關係，進行加權並得到分數，最高分的群集可視為樂曲的拍子。

Yu Shiu[29]提到，理想上的拍子其脈動非常強烈，而相鄰的兩個拍點能清楚分辨，

此時自動拍子追蹤很容易完成。但是實際上的演奏其拍子並不盡理想，拍子追蹤會遇到數個問題：一、演奏中會遇到休止符及未發聲的拍。二、演奏者的變化性差異很大，有些演奏者會在整首曲子中，保留特定拍的持續時間。三、音樂樂譜中的拍子會隨著時間變化，如古典樂中常見的轉拍。其方法沒有限制應用在特定的音樂類型，如古典音樂和現代有鼓聲的音樂。首先從音樂訊號中取出起音點，經由簡單的自相關作用 (autocorrelation function, ACF)找到訊號中粗糙的週期資訊，再利用卡曼濾波器(Kalman filter)搭配增強型的資料鏈結(Enhanced Probabilistic Data Association)方法，進行拍子追蹤。文中提出了兩個方法：第一個方法(PDA-I)考慮目前拍點及預測拍點之間的距離，

而第二個方法(PDF-II)不僅考慮距離，也加入起音點強度資訊進行權重的選擇。實驗的樣本取用 2006 年音樂資訊的檢索評估交換拍點追蹤比賽(MIREX 2006 beat tracking)的資料集、以及 Billboard Top-10 的歌曲，實驗比較使用 P-score 及最長追蹤音樂分割率 (Longest Tracked Music Segment Ratio, LTMSR)。實驗結果顯示加入起音點重音權重

(12)

6

(PDF-II)的方法效果較好。

2.4. 小節分析小節分析小節分析小節分析

要了解樂理內涵，不僅僅要了解起音點的位置、拍的位置，如果能夠取得小節的邊界資訊，可協助達到樂譜重建與自動分析的功能。Palmer 與 Krumhansl 對各種拍子記號的音樂統計一個小節各個位置出現音符的機率，結果發現在小節開始處出現音符的統計值最高[20]。根據此項特性，Brown 在[3]一文中提出可以使用自相關函數，對使用起音點間距(IOI)加權的 MIDI 旋律線，進行小節位置偵測，且根據峯值的樣型可判斷其拍子記號。

在[27]一文中，Sethares 與 Staley 提出一種尋找音樂訊號中週期性的方法。首先將訊號利用 23 個 1/3 的八度音程濾波器，依照臨界頻帶分割 20KHz 的頻寬，然後利用週期性轉換(periodicity transform)找出各臨界頻帶中最適合的週期函數映射。與傳統傅立葉轉換相較，週期性轉換直接找出訊號的週期，而傅立葉轉換則是找出訊號的組成頻率，

所以週期性轉換對拍子的偵測較為直接。

Uhle 與 Herre[32]提出一種偵測泰坦、拍與小節的方法。首先利用 7 個 IIR 濾波器對 62~8KHz 的音樂訊號進行分類，接著計算各頻帶的波封(envelope)變化的斜率函數。

泰坦數值的決定是由起音點間距的長方圖中最大出現頻率的起音點間距而得；而拍則是將斜率函數作自相關函數運算後取出候選拍，在依照拍長度為泰坦之整數倍條件選出適當的拍。同理小節長度亦是根據拍之整數倍選出後選小節，再計算兩個小節拍子能量之交互相關性來獲得。

在[15]一文中，Klapuri 利用測量重音做為一個時間函數，說明能量的改變不只發生在特定的幾個頻帶，並且也發生在所有頻率帶。其節奏偵測法使用疏狀濾波器(Bank of Comb Filter)，利用樂理的特性導入高斯混合模型(HMM)模型，預測出拍子出現的位置及週期，最後進行相位的評估，計算出正確的節奏位置。

Varewyck 與 Martens[33]提出一套階層式韻律結構模型來評估目前主要的節拍分析

(13)

7

演算法的效能。此模型主要依據 GTTM[18]的韻律良構規則，提出三個假設：第一、拍點間隔時間在 1.5~6 秒範圍；第二、重音的出現方式會在下一等級節拍刻度上形成週期樣型；第三、重音出現在統一的格線上。文中比較了 Klapuri[15]、Dixon[8]、Davies[4]，

以及 Ellis[5]等四種拍追蹤/節拍分析方法，結論是目前的拍追蹤演算法效能大致上都不錯(F 測量值 85%)到達可實際應用的程度，但小節的偵測效能就不理想(F 量測值 45.1%)，

仍有很大改善空間。

(14)

8

3. 拍子涵義拍子涵義拍子涵義拍子涵義

要討論音樂的韻律結構分析方法之前，我們首先說明拍號與拍子在樂理上的涵義，

以及韻律的階層式結構。

3.1. 拍號拍號拍號拍號

拍號(time signatures)是樂譜上標示關於一首樂曲之節奏的基本譜號。通常是由兩個阿拉伯數字記在調號的右邊，其中下方數字表示拍子單位是幾分音符，上方數字表示每小節有幾拍。如圖 1 為一個 3/4 拍號範例，表示此樂曲每拍以四分音符為單位，每小節由三拍所構成，稱做 3/4 拍。

圖 1 拍號範例

3.2. 拍子的強弱拍子的強弱拍子的強弱拍子的強弱

音樂演奏有一定的節奏，強音(accent)與弱音會以特定的樣形週期性呈現，這週期性的樣形將音樂畫分為許多等長的區段，這稱之為小節小節小節小節(measures)。每小節中可分成許多等長的次單位稱為拍拍拍拍(beats 或 tactus)。拍，即拍子的單位，如指揮者的手勢以上下運動的方式，做為實際或暗示拍子的進行，即打拍子拍子拍子拍子。

音樂演奏的強弱音按照週期性的樣形進行，使節奏產生最低限度的秩序，稱之為拍子(meter)。拍子即構成音樂節奏的基本單位。在一定的拍數中，並非每一拍子的內容均相等，欲認識拍子的存在，必須依靠某些重要的知覺因子，譬如強音。演奏的強弱通常皆與小節是一致的，造就節奏活動的骨幹。

拍子依小節內的拍數而區分種類，一個小節內有兩拍稱為二拍子二拍子二拍子；一個小節有三拍二拍子稱為三拍子三拍子三拍子三拍子；一個小節有四拍稱為四拍子四拍子四拍子。一首樂曲中每小節內都有強音弱音的分配，四拍子

(15)

9

出現次序有一定的規則。如下圖例：●為強音，○為弱音，

◐

^為次重音

二拍子：第一拍是強拍，第二拍是弱拍。

圖 2 二拍子範例(佈爾格彌勒 25 首練習曲-阿拉貝斯克) 三拍子：第一拍是強拍，第二、三拍是弱拍。

圖 3 三拍子範例(佈爾格彌勒 25 首練習曲-天真) 四拍子：第一拍是強拍，第三拍為次強拍，二、四拍是弱拍。

圖 4 四拍子範例(佈爾格彌勒 25 首練習曲-順良的心)

無論是何種拍子，小節內的第一拍是強拍，其他拍為弱拍。一般樂曲起始又分為強

(16)

10

起及弱起，強起的樂曲每小節中的拍數均完全相等。弱起的樂曲，起始小節及最末小節的拍子不相等，但這兩小節合計也等於完全的一個小節。利用拍子的強弱特性，可以偵測拍點與小節發生的位置與相位。

表 1 拍號-單拍子

單拍子

拍號拍數拍分強弱應用

2/2 2 2 ● ○ 二二拍：使用於 marches 及快速的管弦樂。

2/4 2 4 ● ○ 使用在 polkas 或 marches。

2/8 2 8 ● ○ 3/2 3 2 ● ○ ○

3/4 3 4 ● ○ ○ 常用在華爾滋舞曲、小步舞曲、詼諧曲和鄉村及西部歌謠。

3/8 3 8 ● ○ ○ 也常使用在上述樂曲，但通常意味著更高的速度或短韻律。

4/2 4 2

● ○

◐

^○ 早期的音樂中較為常見；1600 年後較為罕見，雖然 Brahms 和其他作曲家偶爾使用他。

4/4 4 4

● ○

◐

^○ 常見的普通拍子：廣泛的使用在西方古典音樂和流行樂。最常見的拍子記號在 rock, blues, country, funk, and pop 等。

4/8 4 8

● ○

◐

^○

(17)

11

表 2 拍號-複拍子

複拍子

拍號拍數拍分強弱應用

6/4 2*3 4 ● ○

6/8 2*3 8 ● ○ 雙倍速度的吉格舞曲、波爾卡舞曲、快速的華爾滋舞、marches

和搖滾樂。

6/16 2*3 16 ● ○ 9/4 3*3 4 ● ○ ○

9/8 3*3 8 ● ○ ○ “混合型的三拍子”，使用在三拍子中的吉格舞曲，否則很少

發生(Ride of the Valkyries 和 Tchaikovsky’s 第四交響曲都熟

悉的例子) 9/16 3*3 16 ● ○ ○

12/4 4*3 4

● ○

◐

^○

12/8 4*3 8

● ○

◐

^○ 古典音樂；也常見在緩慢的藍調和 doo-wop；也使用在最近的搖滾樂。

12/16 4*3 16

● ○

◐

^○

3.3. 音樂韻律的階層架構音樂韻律的階層架構音樂韻律的階層架構音樂韻律的階層架構

一首音樂的韻律是由泰坦(tatums)、拍(beats)、小節(measures)所構成的階層式架構。

泰坦、拍與小節在階層式架構的涵義如下：

泰坦：Bilmes 在[2]一文中提到當我們聆聽或是演奏音樂的時候，通常可以感受到一種高頻的脈動。這個脈動之長度通常為一個拍的 1/2、1/3 或 1/4， Bilmes 將這脈動稱之為泰坦。泰坦為音樂中最小的時間間隔(interval)，也是音樂韻律階層結構的最小單位。

(18)

12

拍：拍為構成拍子或打拍子(tapping)的單位，為樂曲節奏中最普遍感知的時間間隔。

樂譜上節奏通常以拍為單位，由指定的音符來代表，也就是用各種不同的音符，比如二分音符、四分音符、八分音符等等，做為一拍的譜號表示單位。

小節：小節為樂譜中用縱線區分的部份。小節為拍子的單位，一小節所包含的拍數，

由拍子所決定。音樂的起伏及強弱交替並不是雜亂無章的，必須按照旋律的結構，

組織規律的最小組織，這個最小的組織就是小節。小節的規律是強拍和弱拍交替進行，當強拍出來，不管後面跟著一個弱拍或是數幾個弱拍，在第二個強拍出現之前即構成了一個小節，而第二個強拍又形成第二個小節，這樣反覆循環。

韻律的階層架構如圖 5 所示，為佈爾格彌勒-阿拉貝斯克練習曲實際樂譜及聲音波形檔之對照以及韻律階層架構示意圖，包含 6 個小節，每個小節包含 2 拍，最小的時間間隔為十六分音符，故每拍包含 4 個泰坦。

圖 5 樂譜及聲音波形檔之對照以及拍子階層架構示意圖

(19)

13

4. 自動韻律分析自動韻律分析自動韻律分析自動韻律分析系統架構系統架構系統架構系統架構

本文提出拍子分析之整體架構如圖 6 所示，由於音樂節奏是以泰坦、拍、小節架構組成階層架構，首先我們從音樂訊號中使用起音點偵測技術找出每個音符的起音點，接著計算與統計起音點時間間隔分佈的直方圖。我們認為真實演奏不可能如同機器一樣精確，故起音點間隔分佈、泰坦值分佈、拍值分佈均為高斯分佈。所以可假設起音點間隔分佈為一個高斯混合模型，利用赤池資訊量準則來評估高斯混合模型的擬合程度，可找到最佳擬合高斯混合模型。然後取出各高斯分佈之平均值及加權係數。在泰坦及拍點估算單元，利用各個高斯分佈平均值之間的倍數關係，進行泰坦及拍點之追蹤。最後小節估算部分則是透過重音樣板加權的方式，可以找到每個小節的邊界與相位。

圖 6 拍子分析之整體架構起音點偵測

起音點間隔計算及統計

泰坦及拍時值估算

小節時值與相位估算

小節泰坦拍

音樂信號

(20)

14

4.1. 起音點偵測起音點偵測起音點偵測起音點偵測

本文所使用之起音點偵測方法基本上結合 Dixon[7][8]及 Goto[12]兩種起音點偵測法。方法說明如下：我們根據八度音程切割頻帶，個別偵測每個八度音程的可能起音點。

然後將時域方面與頻域方面特徵結合，計算出兩類八種起音點特徵值。在時域方面，包括振幅差、尖峰振幅差、振幅遞增值、尖峰振幅遞增值等；在頻域方面包括音量、尖峰音量、音量斜率、尖峰音量斜率等。然後使用峰值挑選函數(peak-picking function)來找出可能起音點位置，最後合併各個八度音程的可能起音點位置，以及過於接近的鄰近起音點。本文採用之起音點偵測法進行步驟說明如下：

步驟一步驟一

步驟一步驟一：：：：前置處理

首先計算波形訊號之波封(envelope)，將左右聲道取平均，再進行半波整流，將負波形方面轉換成正波形，並且每 10ms 為間隔，以 100ms 為音框大小，求出每個音框的振幅平均值後進行平滑化處理。

步驟二步驟二

步驟二步驟二：：：：起音點特徵值

在起音點特徵值計算的先前研究中，多數的研究都只單單以時域或是以頻域進行研究，而 Dixon 的方法則是將時域方面與頻域方面特徵結合，計算出兩類八種特徵值。在時域方面，包括振幅差、尖峰振幅差、振幅遞增值、尖峰振幅遞增值等；在頻域方面包括音量、尖峰音量、音量斜率、尖峰音量斜率等。八種起音點偵測特徵值的計算方法如下：

(A)時域特徵值

振幅差特徵值計算方式如下：

1

其中代表第個音框之振幅差、代表在時間時的訊號振幅、r 代表取樣頻率、w

= 0.1 秒代表視窗大小(window size)、h = 0.01 秒代表前移值(hop size)。

尖峰振幅差特徵值計算方式如下：

(21)

15

, , 5, !"!#$ 2

其中代表在正負 5 個音框內的最高振幅差、Peaks 代表在指定範圍(例如正負 5 個音 框)內的最大波峰值、 !"!#&$代表振幅變化選取的門檻值。

振幅遞增特徵值_'計算方式如下：

_' 0.2 & & 0.3 & 3

' +, '

+,

其中_'代表振幅持續增加的程度。

尖峰振幅遞增特徵值_-計算方式如下：

_- _', , 5, !"!#$ 4

其中_-表在正負 5 個音框內的最高振幅遞增值。

(B)頻域特徵值：

音量特徵值_/計算方式如下：

_/ ⁰, !"⁰, 512&, , 5,0 1 ⁰, !"⁰, 512&

//

+,

5

其中S⁰代表 S的訊號變化量

尖峰音量特徵值₃計算方式如下：

₃ _/, , 5,0 6

音量斜率特徵值₅計算方式如下：

₅ 6"7&#8&, , 5, !"!#&$₉ : 1 "7&#8S⁰, !"⁰, 512&

//

+,

7

尖峰音量斜率特徵值_<計算方式如下：

_< ₅, , 5,0 8

步驟三步驟三

步驟三步驟三：：：：起音點判斷

Dixon 利用這八種特徵進行起音點分類。一般研究都是使用特徵值進行起音點比對偵測，但 Dixon 的方法則是利用分類器進行起音點分類與比較，藉由基因演算法來偵測

(22)

16

出起音點。本文則改用 kNN 分類器，使用八種特徵值預先訓練起音點判別程式來進行起音點偵測，圖 7 為 Dixon 拍點追蹤程式“Beatroot”，黑線為拍點追蹤結果，利用 Dixon 拍點追蹤程式程式擷取出聲音訊號起音點。

圖 7 Dixon 拍點追蹤程式“Beatroot”起音點偵測範例

4.2. 起音點間隔計算及統計起音點間隔計算及統計起音點間隔計算及統計起音點間隔計算及統計

如前所述，泰坦是一首樂曲中的韻律階層結構中的最小時間單位。根據此定義以及音樂理論，泰坦具有以下數個特性：

刻度性：起音點的位置必須出現在泰坦格線上。

最小性：泰坦是韻律結構的最小時間單位。

均一性：每個泰坦時值在理論上是相同的。

單位性：根據定義，拍與小節等上層韻律結構單位，其時值必須是泰坦時值的整數倍。

(23)

17

我們取出聲音訊號起音點，計算兩個起音點時間間隔(IOI)資訊，如圖 8 所示。接著統計起音點時間間隔直方圖，圖 9 所示。再利用赤池資訊量準則求出高斯混合模型分佈，

本文挑選最大 4 組赤池資訊量準則模型，取出最匹配之模型做為參考值，再取出各起音點群之高斯分佈加權係數及平均值。

圖 8 起音點時間間隔示意圖

(24)

18

圖 9 根據圖 8 所計算的起音點時間間隔長方圖

4.3. 赤池資訊量準則赤池資訊量準則赤池資訊量準則赤池資訊量準則

赤池資訊量(Akaike Information Criterion, AIC)準則是統計上常用的技術，用來評估一個模式的匹配度，赤池資訊量準則數值越小表示產生之模型與原始資料越匹配。本文利用最大似估計(maximum likelihood estimation)及貝式最大後驗法(Bayesian maximum a posteriori)做為隱藏參數，透過 EM 演算法的訓練，逼近起音點直方圖的資料量，藉以取出直方圖之資訊。

本文使用有限的混合模型(Finite Mixture models) [10]，首先 Y=[Y₁,…,Y_d]^T為 d 個起音點間距樣本形成的隨機變數，y=[y1,…,yd]^T代表 Y 的一個結果。其中 Y 為 k 個有限混合模型的組成機率分佈密度函數，可寫成

py|@ α_B py|θ_B

D B

9

(25)

19

其中α₁,…,α_k是各個成員高斯分佈函數混合的權重，每個 θ_m是第F個高斯分佈函數，

θ≡{θ1,…, θk,α1,…,αk}是

k

個成員高斯分佈函數所構成的高斯混合模型。目前的可能性，α_k必須滿足

α_G H 0, F 1, … , and α_G M

N GM

10

給定 n 個獨立且均勻分佈的樣本 y={y⁽¹⁾,…,y⁽ⁿ⁾}，指數可能符合 k 個組成的混合分佈機率為

log py|Θ log S pTy^UVθW log α_X

D B

Y U

pTy^UVθW 11

我們使用最大概似估計(maximum likelihood, ML)來求解

θZ_[\ arg max_` alog py|θb 12

搭配貝式最大後驗(Bayesian maximum a posteriori, MAP)之參數pθ。

θZ_[\ arg max_` alog py|θ log pθb 13

我們利用 EM 演算法來求 ML 或 MAP 的混合模型參數。EM 演算法是一個反覆的步驟來找尋最大的 log p(y|θ)或[log p(y|θ)+log p(θ)]。最近研究顯示 EM 演算法適合運用於反覆分類，這方法又稱為最接近點演算法(proximal point algorithms, PPA)[10]。

EM 演算法用來說明 y 是不完全的資料。利用有限的混合，對不足的部分放置 n 個標記 Z={z⁽¹⁾,…,z⁽ⁿ⁾}組合成 n 個樣本。每個標記過的二元向量 z⁽ⁱ⁾=[z1(i)

,…, zk(i)

]，這裡 zm(i)

= 1 及 z_p⁽ⁱ⁾= 0，p≠m，也是就是說樣本 y⁽ⁱ⁾由 m 個所組成。這完整的對數概似期望值寫成

log py, z|θ z_B^Ulogdα_BpTy^UWVθ_Be 14

D B

Y

U,

EM 演算法運用兩個跨部產生一連串的評估：

E-跨步：從整個的對數概似中找尋期望值，給定 y 來對θZ進行評估。因為 log p(y|θ)是線

性的所以參數 Z 也要符合這規則，簡單的給個估算條件期望值 W≡E[Z|y,θ(t)]及 log p(y,Z|θ)

(26)

20

。在這理稱為 Q-函數：

Q gθ, θZti j Edlog py, Z|θ|y, θZte log py, W|θ 15

因為 Z 是二元數，所以條件期望值寫成

w_BÛ j Eoz_BÛpy, θZtq Proz_BÛ 1pyÛ, θZtq αs_Btp gyÛpθZ_Bti

∑ αs^D_u _utp gy^UpθZ_uti 16

這裡最後相等於貝氏規則。

M-跨步：更新參數的評估根據 MAP 的判斷

θZt 1 arg max_` aQ gθ, θZti log pθb 17

或根據 ML 準則，兩個需符合公式(2)的規定

θZv 1 arg max_w x gθ, θZvi 18

雖然理論上泰坦的時值在全樂曲中是均勻恆定，但人類不是機器，即使曲譜中沒有漸快與漸慢等速度變化記號，真實演奏中的泰坦時值不是單一值而是呈現常態分佈。同理，拍的時值統計亦呈現常態分佈。故一首樂曲，其真實演奏的起音點間距之統計分佈為數個常態分佈所形成的高斯混合模型，其中各個組成高斯分佈的平均時值為泰坦高斯分佈的平均時值之整數倍。舉例來說，圖 8 為佈爾格彌勒的“阿拉貝斯克”的前六個小節的起音點，我們統計其全曲起音點間距分佈，結果如圖 10 所示，佈爾格彌勒-阿拉貝斯克直方圖由三個高斯分佈所構成：第一個最短的高斯分佈，平均時值為 0.11 秒；第二長的高斯分佈，平均時值為 0.22 秒；第三個為最長的高斯分佈，平均時值為 0.44 秒。

平均時值的比例為 1:2:4。

(27)

21

圖 10 使用赤池資訊量準則來逼近起音點時間間隔直方圖之高斯混合模型

4.4. 泰坦分析泰坦分析泰坦分析泰坦分析

首先對起音點加權係數低於 0.1 之組成高斯模型，由於不太可能為泰坦或拍點之統計分佈，故予以捨棄。

圖 11 為佈爾格彌勒-小小的嘆息練習曲，統計起音點時間間隔直方圖，紅線為利用赤池資訊量準則擬合(fit)統計直方圖之高斯模型，圖中可以看到每個高斯分佈之平均值及加權係數，在這裡可以發現平均值為 0.324 秒之高斯分佈由於資訊量低於 0.1，不太可能包含泰坦及拍點資訊，故予以捨棄。

(28)

22

圖 11 使用赤池資訊量準則求得之高斯混合分佈圖

根據前文所述泰坦的性質，我們可以利用高斯混合模型來擬合一首樂曲的起音點間距的統計分佈。找出最適合之高斯混合模型後，再根據泰坦的最小性與單位性，提出三種不同的泰坦時值估算方法：

A.

方法一方法一方法一方法一：：：：最短高斯最短高斯最短高斯(Gauss)分佈最短高斯分佈分佈法分佈法法法

根據 Bilmes 的定義，泰坦為韻律階層結構中的最小時間單位，故可假設在高斯混合模型中平均起音點間距時值最短的高斯分佈為泰坦時值的高斯分佈。據此估算泰坦時值y_z{z|G為

y_z{z|G }_G~ 19

其中 µmin為最短起音點間距高斯分佈的平均值。

B.

方法二方法二方法二方法二：：：：整數倍高斯整數倍高斯整數倍高斯分佈整數倍高斯分佈分佈法分佈法法法

根據泰坦的單位性，所有起音點間距為泰坦時值之整數倍。我們利用此特性，

選取最能滿足此項規則的高斯分佈為泰坦分佈。假設高斯混合模型中有 N 個高斯

(29)

23

分佈，則整數倍高斯分佈法估算誤差為

|} }_z{z|G|

20

其中}為第個高斯分佈之起音點間隔之平均值；= 1, 2, 3, 4, 6, 8，為起音點間隔高斯分佈平均值與泰坦時值分佈平均值的可能出現的整數倍關係；使(10)式估算誤

差最小的}_z{z|G之高斯分佈即為泰坦時值分佈。

C.

方法三方法三方法三方法三：：：：最頻繁高斯最頻繁高斯最頻繁高斯分佈最頻繁高斯分佈分佈法分佈法法法

此方法假定泰坦出現的頻率在所有起音點間隔統計中為最高，故可自擬合的高斯混合模型中，挑選最大權重的高斯分佈作為泰坦時值的高斯分佈。此方法的優點在於若音樂訊號中有雜訊，導致起音點偵測準確率下降時，使用最短高斯分佈法會出現假陽性(false positive)泰坦時值判斷，而最頻繁高斯分佈法往往可避免此狀況。

y_z{z|G } 21

其中}為最頻繁起音點間距高斯分佈的平均值。

4.5. 拍點偵測拍點偵測拍點偵測拍點偵測

根據泰坦定義，一首音樂的每個拍點出現位置必須對齊泰坦格線，且拍的時值為泰坦時值之整數倍。我們可依照此規則來尋找拍之時值。我們定義泰坦起音點擊中率 (Tatum OHR, onset hit rate)作為衡量起音點對齊泰坦格線的比率：

Tatum OHR 起音點對齊泰坦網格個數

總泰坦網格個數 22

至於衡量起音點是否有對齊泰坦格線的判斷準則，我們依照[16]一文設定的標準，

以平均泰坦時值的 13%作為對齊誤差允許範圍。

同理，我們可定義拍點起音點擊中率(Beat OHR)：

Beat OHR 起音點對齊拍點各數

總拍點個數 23

同樣地，我們以整首樂曲拍時值之平均值的 13%作為對齊拍點誤差允許範圍。

(30)

24

由於拍點起音點擊中率在泰坦整數倍時值正好為拍時值時會快速增加，故我們計算泰坦整數倍與拍點起音點擊中率的斜率變化超過臨界值的方式，可求得拍時值。

4.6. 小節時值與相位估算小節時值與相位估算小節時值與相位估算小節時值與相位估算

小節是形成強弱節奏的韻律構成單位。根據樂理，強拍會依小節週期性出現，以形成樂曲的節奏感，且強拍傾向出現在小節的第一拍。我們提出之估算小節時值的判斷規則樹如圖 12 所示。

圖 12 小節時值判斷規則樹

(a) 2 拍子系統樣板 (b) 3 拍子系統樣板圖 13 2 拍子與 3 拍子系統樣板

(31)

25

由前一小節的拍時值估算結果，我們可將一首樂曲的拍點偵測出來後，可計算每一個拍子的平均力度。假設一首樂曲有 N 個拍點 B1, B2, ….BN，其三值化(1, 0, -1)拍子強度為 D₁, D₂, …..D_N。我們使用如圖 13 之 2 拍子與 3 拍子系統樣板來偵測樂曲是 2 拍子或是 3 拍子系統，並求其小節開始位置

3

/

24

3

/

25

_' 4_' _'

/'

_' 26

_' 4_' _'

/'

_' 27

_'' 4_' _'

/'

_' 28

T_,, _', _', _''W 29

則此樂曲為 x 拍子系統，且小節相位為自第 y 拍開始。

有無次強拍的決定方法類似 2 拍子系統的判斷。若為 x 拍子系統，可將 x 個拍子強度相加，再使用 2 拍子系統樣板，檢查是否有次強拍來決定是否是 4 拍子或 6 拍子。圖 14 我們以利用上述公式計算出這例子為二拍子系統，接著將每兩個拍點三值化力度做加總，前兩個拍點力度加總後其值為 0，而第二組拍點力度相加後其值為-1，接著搭配最上層的二拍子樣板進行強弱音的權重判斷，運算結果每組最上層的樣板加權值為 1；

如果這例子為二拍子範例其值三值化後為 1, -1, 1, -1 同理我們運用 2 拍子加總前兩個拍點後其值為 0，後兩個拍點做加總其值也為 0，再代入最上層的二拍子樣板運算結果也為 0，故強弱音的判斷，利用二拍子樣板運算值的高低，作為 x 拍子是否有強弱音的依據。

(32)

26

圖 14 強弱音的判斷

(33)

27

5. 實驗實驗實驗實驗

我們使用佈爾格彌勒作品 100 的 25 首練習曲作為實驗資料集，原因是這些作品為基本鋼琴練習曲，涵蓋了各種速度與常見拍號(2/4, 4/4, 6/8)。演奏版本為 Diane Hidy 彈奏，Neil A. Kjos 出版的示範樂譜與 CD 錄音。實驗的對照組使用佈爾格彌勒 25 首練習曲，手動去除音樂前無聲音之部分及音樂最後一個音(避免延長終止音的干擾)，保留完整音樂聲波長度，利用實際樂譜以人工方式計算音樂小節、泰坦及拍點之時間長度。

圖 15 人工起音點間距標記結果之拍時值分佈統計

第一個實驗檢驗本文所提出基本假定，即實際泰坦時值與拍時值統計是否為高斯分佈。我們首先以人工方式，在 5ms 誤差水準要求下，標示每首曲子前 4 小節每個音符之起音點，接著統計其拍時值分佈，結果如圖 15 所示，拍時值分佈圖形非常近似於高斯分佈。我們進一步使用卡方檢定(Chi-square test)來驗證是否符合高斯分佈的適合度 (goodness of fit)，結果在 0.05 顯著水準，自由度為 3 的條件下= 5.8708 < _',,.,/ = 7.8147，卡方檢定結果顯示無證據判定拍時值分佈不是常態分佈。

圖 16 為程式起音點間距偵測結果之泰坦時值分佈統計，由於受到程式起音點自動偵測誤差的影響，值增加，但仍可觀察到其形狀呈現高斯分佈特性。

(34)

28

圖 16 程式起音點間距偵測結果之泰坦時值分佈統計

5.1. 泰坦時值估算泰坦時值估算泰坦時值估算泰坦時值估算

第二個實驗為三種泰坦時值估算結果比較，如表 3 所示，在 13%的容許誤差範圍下，

使用最頻繁高斯分佈法的泰坦時值估算準確率達到 96%，而最短高斯分佈法的準確率亦不錯達到 92%，且與人工標記的泰坦值誤差平均值只有 4.59%。相對來說使用整數倍的高斯分佈法準確率表現較不理想。

5.2. 拍時值估算拍時值估算拍時值估算拍時值估算

第三個實驗為拍時值估算實驗，如表 4 所示，25 首歌曲在 k=1, 2, 4, 8, 3, 6 等不同的泰坦整數倍估算條件下的拍點起音點擊中率如表 4 所示。在 92%的拍點起音點擊中率門限值條件下

，拍值估算的準確率為 44%。錯誤估算的歌曲中，有 20%是估算成實際拍值長度的二分之一。此外三倍泰坦所構成一拍的樂曲，系統往往會誤判，故三倍系統之樂曲的處理方法仍有很大改善的空間。

(35)

29

5.3. 小節小節時值估算小節小節時值估算時值估算時值估算

最後第四個實驗評估小節時值估算結果。在 25 首歌曲中，拍子系統估算正確者有 15 首，準確率 60%。在小節相位方面，估算正確者有 13 首，準確率 52%。

(36)

30

表 3 三種泰坦時值估算方法之誤差值比較

編號編號

編號編號歌曲歌曲歌曲歌曲人工泰坦值人工泰坦值(^{人工泰坦值}人工泰坦值(((秒秒秒)秒))) 最短最短最短最短整數倍整數倍整數倍整數倍最頻繁最頻繁最頻繁最頻繁誤差

誤差誤差

誤差%%%% 誤差誤差%誤差誤差%%% 誤差誤差誤差誤差%%%%

1 Sincerity 0.185 6.07% 2.29% 2.29%

2 Arabesque 0.118 9.03% 289.81% 9.03%

3 Pastorale 0.154 12.51% 87.74% 12.51%

4 The Little Party 0.246 1.19% 97.71% 1.19%

5 Innocence 0.140 10.41% 113.99% 10.41%

6 Progress 0.125 5.64% 103.13% 5.64%

7 The Limpid 0.150 0.76% 0.76% 0.76%

8 Grace 0.104 5.84% 301.04% 5.84%

9 The Chase 0.179 1.29% 102.20% 1.29%

10 Tender Blossom 0.255 2.26% 2.26% 2.26%

11 The Wagtail 0.120 8.42% 110.30% 8.42%

12 The Farewell 0.135 5.09% 91.70% 5.09%

13 Consolation 0.203 1.83% 1.54% 1.83%

14 Austrian Dance 0.167 10.29% 95.43% 10.29%

15 Ballade 0.124 5.05% 391.06% 5.05%

16 Sorrow 0.125 0.52% 100.04% 0.52%

17 The Chatterbox 0.156 3.25% 110.28% 3.25%

18 Inquietude 0.123 1.11% 1.11% 1.11%

19 Ave Maria 0.372 51.56% 93.55% 10.81%

20 Tarantelle 0.128 0.56% 213.39% 8.42%

21 Harmony of the Angels 0.139 4.23% 4.23% 4.23%

22 Barcarolle 0.294 6.98% 242.48% 6.98%

23 The Return 0.194 1.98% 3.65% 1.98%

24 The Swallow 0.129 1.22% 1.22% 1.22%

25 The Knight Errant 0.101 6.07% 2.29% 2.29%

總泰坦時值估算準確率

92.00% 32.00% 96.00%

正確偵測泰坦時值平均誤差

4.59% 2.13% 5.02%

(37)

31

表 4 拍點起音點擊中率

歌曲編號歌曲編號歌曲編號

歌曲編號拍拍拍拍////泰坦泰坦泰坦泰坦拍點起音點擊中率拍點起音點擊中率拍點起音點擊中率拍點起音點擊中率(τ_beat = kτ_tatum)

kkkk =1=1=1=1 kkkk =2=2=2 =2 kkkk =4=4=4=4 kkkk =8=8=8 =8 kkkk =3=3=3=3 kkkk =6=6=6 =6 1 2 89.8% 94.1% 100.0% 100.0% 91.8% 90.8%

2 4 54.6% 83.6% 99.1% 100.0% 55.2% 88.6%

3 1 98.0% 98.2% 97.3% 99.1% 99.3% 100.0%

4 2 74.8% 96.3% 100.0% 100.0% 74.3% 97.2%

5 4 68.2% 90.6% 97.9% 100.0% 69.5% 90.6%

6 4 54.7% 97.7% 98.4% 100.0% 41.6% 72.7%

7 3 71.1% 72.9% 96.9% 100.0% 72.7% 75.0%

8 8 21.4% 30.5% 50.5% 50.0% 37.1% 46.1%

9 1 88.5% 90.6% 88.5% 70.8% 93.8% 90.6%

10 2 96.9% 97.9% 100.0% 100.0% 96.1% 96.9%

11 4 60.3% 50.0% 96.7% 100.0% 78.3% 90.0%

12 3 15.2% 6.9% 6.5% 8.1% 34.8% 7.3%

13 2 94.9% 96.4% 98.8% 100.0% 94.6% 94.6%

14 2 71.7% 95.7% 93.5% 98.6% 77.7% 100.0%

15 2 49.0% 87.2% 88.7% 76.2% 55.4% 100.0%

16 4 64.3% 98.8% 99.2% 100.0% 49.8% 72.7%

17 2 82.8% 97.7% 97.7% 96.6% 92.2% 100.0%

18 4 94.4% 95.4% 97.2% 100.0% 94.4% 94.4%

19 2 57.0% 84.2% 84.2% 65.8% 65.8% 100.0%

20 1 69.3% 68.7% 67.3% 57.3% 97.8% 100.0%

21 3 91.8% 92.9% 93.5% 100.0% 95.1% 99.1%

22 1 75.9% 77.3% 66.67% 82.3% 96.8% 100.0%

23 1 97.0% 97.3% 97.9% 98.9% 99.2% 100.0%

24 4 96.0% 96.3% 96.7% 98.3% 77.5% 83.8%

25 4 33.0% 50.5% 95.4% 99.3% 31.6% 52.5%

(38)

32

6. 結論與未來研究結論與未來研究結論與未來研究結論與未來研究

拍子與小節等韻律結構是樂曲的重要構成單元。本文提出一種自動辨識一首樂曲的泰坦時值、拍時值、以及小節時值的估算方法，可以自動產生一首樂曲的韻律階層結構。

韻律階層結構可作為依照節奏查詢音樂資料庫、演奏表現分析、曲風分類等音樂應用。

本文為韻律結構分析的初步成果，在小節估算方面仍有許多需要改進之處。由於節奏是演奏表現的重要成份，不同的詮釋角度會產生韻律結構上的巨大變化，我們未來將探討不同演奏者與不同曲風，對韻律結構分析所產生的影響。

(39)

33

7. 參考文獻參考文獻參考文獻參考文獻

[1] Bello, J.P., et al. “A Tutorial on Onset Detection in Music Signals,” IEEE Transactions

on Speech and Audio Processing, Vol.13, No. 5, 2005.

[2] Bilmes, J.A., “Techniques to Foster Drum Machine Expressivity,” in Proc. Int. Comp.

Music Conf., pp.276-283. 1993.

[3] Brown, J.C., “Determination of the Meter of Musical Scores by Autocorrelation,”

Journal Acoust. Soc. Amer., Vol. 94, No. 4, pp. 1953–1957, 1993.

[4] Davies, M. E. P. and M. D. Plumbley, “Beat Tracking with a Two State Model,” IEEE

International Conference on Acoustics, Speech and Signal Processing (ICASSP 2005),

vol. 3, pp. 241-244, 2005.

[5] Desain, P. and H. Honing, “Computational Models of Beat Induction: The Rule-based Approach,” Journal of New Music Res., Vol. 28, No. 1, pp. 29–42, 1999.

[6] Desain, P., “A (De)Composable Theory of Rhythm Perception,” Music Perception, Vol.9, No.4, pp.439-454, 1992.

[7] Dixon, S., “Automatic Extraction of Tempo and Beat form Expressive Performances,”

Journal of New Music Research, Vol. 30, No. 1, pp. 39-58, 2001.

[8] Dixon, S., “Onset Detection Revisited,” Conference on Digital Audio Effects, Montreal, pp. 18-20, 2006.

[9] Ellis, D. P. W. and G. E. Poliner, “Identifying ‘Cover Songs’ with Beat-Synchronous Chroma Features,” MIREX audio cover song evaluation, 2006.

[10] Figueiredo, M. A. T. and A. K. Jain, “Unsupervised learning of finite mixture models,”

IEEE Transactions on pattern analysis and machine, Vol. 24, No. 3, pp. 381-396, 2002

[11] Goto, M. and Muraoka, Y., “Music understanding at the beat level — Real-time beat

tracking for audio signals,” in Proc. IJCAI-95 Workshopon Computational Auditory

Scene Analysis, pp. 68–75 , 1995.

[12] Goto, M., “An Audio-based Real-time Beat Tracking System for Music With or Without Drum-sounds, Journal of New Music Research, Vol.30, No.2, pp.159-171, June 2001.

[13] Gouyon, F. and P. Herrera, “Determination of the Meter of Musical Audio Signals:

Seeking Recurrences in Beat Segment Descriptors,” in Proceedings of the 114th

Convention of Audio Engineering Society (AES ’03), Amsterdam, The Netherlands,

March 2003.

[14] Hamanaka, M., Hirata, K. and Tojo, S., “Automatic Generation of Metrical Structure based on the GTTM,” in Proceedings of ICMC, pp.53-56, 2005.

[15] Klapuri, A. P., “Sound Onset Detection by Applying Psychoacoustic Knowledge,” in

Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing (ICASSP-99) Phoenix,

AZ, pp. 115-118, 1999.

[16] Klapuri, A. P., et al., “Analysis of the Meter of Acoustic Musical Signals,” IEEE

Transactions on Audio, Speech, and Language Processing, Vol. 14, No. 1, pp. 342-355,

January 2006.

[17] Large, E.W., and J.F. Kolen, “Resonance and the Perception of Musical Meter,”

Connection Science, Vol.6, No.2, pp.177-208, 1994.

[18] Lerdahl, F. and R. Jackendoff, A Generative Theory of Tonal Music, MIT Press, Cambridge, MA, 1983.

(40)

34

[19] Longuet-Higgins, H. C. and C. Lee, “The Perception of Musical Rhythms,” Perception, Vol.11, No.2, pp.115-128, 1982.

[20] Palmer, C. and C.L. Krumhansl, “Mental Representation for Musical Meter,” J. of

Experimental Psychology, Vol.16, No.4, pp.728-741, 1990.

[21] Parncutt, R., “A Perceptual Model of Pulse Salience and Metrical Accent in Musical Rhythms,” Music Perception, Vol.11, No.4, pp.409-464, 1994.

[22] Povel, D. J., “Internal Representation of Simple Temporal Patterns,” J. of Experimental

Psychology, Vol.7, No.1, pp.3-18, 1981.

[23] Rosenthal, D. F., Machine Rhythm: Computer Emulation of Human Rhythm Perception, Ph.D Dissertation, MIT Media Lab., 1992.

[24] Scheirer, E. D., “Tempo and Beat Analysis of Acoustic Musical Signals,” Journal of the

Acoustical Society of America, Vol. 103, No. 1, pp. 588–601, 1998.

[25] Seppänen, J., “Tatum Grid Analysis of Musical Signals,” IEEE Workshop on

Applications of Signal Processing to Audio and Acoustics, pp. 131-134, 2001.

[26] Seppänen, J., Computational Models of Musical Meter Recognition, Master’s thesis, Dept. Inf. Technol., Tampere Univ. Technol., Tampere, Finland, 2001.

[27] Sethares, W.A. and T. W. Staley, “Meter and Periodicity in Musical Performance,”

Journal New Music Res., Vol. 22, No. 2, June 2001.

[28] Steedman, M., “The Perception of Musical Rhythm and Metre,” Perception, Vol.6, No.5, pp.555-570, 1977.

[29] Shiu, Y., et al., “Robust On-line Beat Tracking with Kalman Filtering and Probabilistic Data Association (KF-PDA),” IEEE Transactions on Consumer Electronics, Vol. 54, No.

3, pp. 1369-1377, 2008.

[30] Temperley, D., The Cognition of Basic Musical Structures, MIT Press, Cambridge, MA, 2001.

[31] Temperley, D., and D. Sleator, “Modeling Meter and Harmony: A Preference-Rule Approach,” Computer Music Journal, Vol. 23, No. 1, pp. 10-27, 1999.

[32] Uhle, C. and J. Herre, “Estimation of Tempo, Micro Time and Time Signature from Percussive Music,” in Proceedings of the 6th International Conference on Digital Audio

Effects (DAFx ’03), pp. 84–89, London, UK, September 2003.

[33] Varewyck, M. and J. P. Martens, “Assessment of State of the Art Meter Analysis Systems with an Extended Meter Description Model,” in Proceedings of the 8th

International Conference on Music Information Retrieval, pp. 311-314, 2007.

[34] 新訂標準音樂辭典,第二冊,音樂之友社編輯,美樂出版社,1999.

(41)

35

附錄附錄附錄附錄 A.

韻律相關樂理專有名詞(依據[34])

Tatum：Jeff A. Bilmes, 在[2]一文中定義，tactus 為替音樂打拍子或指揮家揮動指揮棒的單位時間，而 tatum 為感知的最小時間單位，經常為 tactus 的 1/2 、1/3 或 1/4 時間長度。

Tactus：拍。15-16 世紀中，以手的上下運動表示出來的基準音值。15-16 世紀中的

基準音符是 semibrevis，一般認為這接近人類的脈拍，大約是 M.M.=60-80。13-14 世紀使用的基準音值名詞是 tempus，其長度後來逐漸變短，不久即由 tactus 所取代。

此外，表示基準拍的音符，亦隨著時代有逐漸變小的傾向。13-14 世紀的 tempus 是以長音符 longa 為基準，其次是倍全音符 brevis 是以長音符 longa 為基準，其次是倍全音符 brevis，15-16 世紀以全音符 semibrevis，16 世紀中葉以二分音符 minima，

17 世紀則以四分音符 semiminima 為基準音符。現在德文的 Takt(拍)就是由來自 tactus。

Beat：(1)拍。即拍子的單位。如指揮者的手等，以上下運動的方式做實際或暗示性

的表示。其他各國相等的名詞為 Taktteil, Takt, Zählzeit [德]；temps, battement de mesure [法]；battuta [義]等。(2)17-18 世紀英國所使用的一種<漣音 Mordent>。(3) 拍音。→bests。

Meter：拍子，構成音樂時間的基本單位。即固定的幾個時間單位謂之拍子(樂曲的

節度)。在一定的拍數中，並非每一拍子的內容均相等，欲認識拍子的存在，必須依靠某些重要的知覺因子，譬如強音(accent)就是最平常的一種。拍子通常皆與小節一致，可以說是造就節奏活動的骨幹。

拍子雖然能給予樂曲一種性格，但所寫的拍子與實際聽起來的拍子未必全然一致。如果只是單一的旋律，通常都可以聽出拍子來，但若只是複調的音樂，即使各聲部的量一致，實際上也會有強拍的落差。在現代裏。縱使要遵守一定的拍子，充其量也僅是為了視覺上的方便而已，若非如此，那恐怕會出現許許多多沒有小節線

(42)

36

、沒有拍子記號，抑或拍子頻繁變化的樂譜。

拍子的種類，依其單位音符與拍數的組合，可以造出無數的種類，但普通使用的大致皆已被歸類成型。其分類的方法很多，這裏僅遵照一般樂理書籍的方法來介紹：

單拍子(simple meter) 亦稱單純拍子。是一切拍子的基礎，包括有二拍子、三拍子、四拍子等。其中的四拍子，亦被分類為複拍子，但實際上甚為單純，現在為分類上的方便通常都將之歸類為單拍子。

複拍子(compound meter) 亦稱複合拍子。一般的定義是兩個二拍子或三拍子複合而成的拍子，但也可以認為原為單拍子的各拍各分為三個小單位的拍子。

最常出現的有六拍子、九拍子與十二拍子等。

混合拍子(mixed meter) 由不同的單拍子混合而成的拍子。通常出現的有五拍子(2+3 或 3+2)與七拍子(3+4 或 4+3)等。除此之外還有更複雜的複合拍子出現，

實際上都可以使用。

[例]七拍子(2+2+3)，八拍子(3+2+3)，九拍子(5+4，3+2+2+2)，十拍子(3+3+4)，

十一拍子(4+4+3)等。

各拍子通常用被當做拍子記號使用的分數來讀。譬如 4/4 讀成四分之四拍子，

6/8 讀成八分之六拍子等。此外也有使用記號代替分數者，最普遍的就是把 4/4 拍子寫成 C，把 2/2 拍子寫成￠，後者的二分之二拍子，通常又獨立稱為<二二拍子>。

Measure：(1)小節：五線譜中用縱線區分的小部分。小節即拍的一個單位，一小節

所包含的拍數，由拍子所決定。此外，弱起的小節加上最後一小節，即成為完整的拍數。除 measure 一詞外，表示小節的各國術語還有英文的 bar，德文的 Takt，法文的 mesure 與義大利文的 misura 等。(2)拉丁文<mensura>的英文譯詞。譬如 measured music，即指<有量音樂 mensural music>而言。

Bar：(1)<小節>之意。樂譜中用縱線區分的小部分。(2)<縱線><小節線>之意。(3) 指<巴爾曲式 Barform>而言。→Barform。

(43)

37

附錄附錄附錄附錄 B.

佈爾格彌勒作品 100 的 25 首練習曲之拍號

Burgmuller 鋼琴練習曲

目錄拍號

LA CANDEUR 4/4

L’ ARABESQUE 2/4

LA PASTORALE 6/8

LA PETITE REUNION 4/4

IINNOCENCE 3/4

PROGRESS 4/4

LE COURANT LIMPIDE 4/4

LA GRACIEUSE 3/4

LA CHASSE 6/8

TENDRE FLEUR 4/4

LA BERGERONNETTE 2/4

L’ ADIEU 4/4

CONSOLATION 4/4

LA STYRIENNE 3/4

BALLADE 3/8

DOUCE PLAINTE 4/4 LA BABILLARDE 3/8

INQUIETUDE 2/4

AVE MARIA 3/4

LA TARENTELLE 6/8 L’ HARMONIE DES ANGES 4/4

BARCAROLLE 6/8

LE RETOUR 6/8

L’ HIRONDELLE 4/4 LA CHEVALERESQUE 4/4

中 華 大 學 碩 士 論 文