• 沒有找到結果。

摘要

N/A
N/A
Protected

Academic year: 2022

Share "摘要"

Copied!
41
0
0

加載中.... (立即查看全文)

全文

(1)

 

 

摘要

隨著網路的快速發展以及多媒體壓縮技術的進步,目前有大量的多媒體資料 在網際網路上快速的傳播,所以多媒體資料的分類與查詢之技術,就顯得日益重 要。因此,有關多媒體資料內涵式分析的相關研究,越來越受到學術界的重視。

其中數位音樂壓縮資料以 MP3 格式最受到大眾的歡迎,但是對於 MP3 音樂的內 涵式分析的研究並不常見。

和弦是一種極為重要的高階音樂內涵。因此,不同的和弦的組成,會影響音 樂曲風的變化以及音樂的結構,所以我們希望能利用和弦這種富含音樂性的特性,

來代表音樂的主要內涵。

因此本篇論文提出一種針對 MP3 數位音樂的和弦特徵分析技術,首先我們 由 MP3 解壓縮過程中擷取 MDCT 特徵係數進行起音點(onset)偵測,根據起音點 分段結果,將樂音基頻以及其泛音結構所對應的 MDCT 子頻帶進行能量的運算 來判斷所屬的樂音種類,最後利用未知和弦的樂音組成與和弦組成規則來比較決 定所歸屬的和弦家族。根據實驗結果在回復率 75%時,我們提出的方法準確率可 以達到 60%。

關鍵字: MP3 音樂、內涵式分析、和弦、MDCT 特徵、起音點(onset)、基頻、泛 音結構、和弦組成規則

(2)

 

 

Abstract

With the fast development of the Internet technology and the advancement in the compression techniques of multimedia data, large amounts of multimedia data have been rapidly spread on the Internet, which manifesting the increasing importance of the classification of inquiry in multimedia data. As a result, related research on content-based analysis of multimedia data is gaining emphasis in academic community. While MP3 has become one of the major file formats for the digital music, little work has been done for automatic analysis of the content in MP3 music data.

As chord is essential to music data, the appearance of different chords can dominate the genres and the structure of MP3 songs. Therefore, we utilizing chord as the major music property to represent the content of music. In this thesis, we propose an approach to automatically detect chords in MP3 music data. In this approach, the MDCT coefficients which are extracted from the MP3 decoding process are used for computing the features to detect the onsets in an MP3 music file. Based on the resonance property, the energy of the subbands which are corresponding to the fundamental frequency of a note and its harmonic series is computed for deciding its tone. Then the composition of the tones of an unknown chord is compared with the chord profiles to decide which chord family it will belong to. According to our experiments, 75% recall rate is achieved while the precision rate is 60%.

Keyword: MP3、content-based analysis 、 chord、 MDCT coefficients、 onsets、

fundamental frequency、harmonic series、chord profiles

(3)

1

目錄 

1.  序論... 1 

1.1.  音樂內涵分析研究發展... 1 

1.2.  研究動機... 2 

1.3.  章節概要... 2 

2.  相關研究... 3 

2.1.  Onset Detection 相關研究 ... 3 

2.2.  F0 Estimate 相關研究 ... 4 

2.3.  Chord Decision 相關研究 ... 5 

2.4.  Key Determination 相關研究 ... 6 

2.5.  其他相關研究... 6 

3.  和弦簡介... 8 

3.1.  和弦的種類... 8 

3.2.  和弦進行式... 9 

4.  MP3 簡介 ... 12 

4.1.  MP3 數位音樂 ... 12 

4.2.  MP3 解碼程序與特徵擷取 ... 12 

5.  MP3 音樂的和弦自動分析技術 ... 14 

5.1.  Onset 偵測與自動斷音 ... 14 

5.2.  ADSR 結構分析 ... 16 

5.3.  樂音組成分析... 17 

5.4.  和弦分析... 19 

5.5.  和弦進行式與調性對和弦判斷的考量... 23 

6.  實驗... 24 

(4)

2

6.1.  起音點偵測實驗... 24 

6.2.  樂音組成分析實驗... 25 

6.3.  和弦分析實驗... 26 

6.4.  協和度誤差分析實驗... 27 

7.  結論與未來研究... 30 

8.  參考文獻... 31 

(5)

3

圖目錄

圖 1 音樂感知分析發展圖... 2 

圖 2 和弦識別技術關係圖... 3 

圖 3 三度疊置和弦 a(1)跟非三度疊置和弦 a(2) ... 8 

圖 4 和弦組成樂音名稱... 8 

圖 5 三和弦轉位音... 9 

圖 6 七和弦轉位音... 9 

圖 7 大調和弦進行的狀態圖(http://hometown.aol.com/chordmaps/) ... 10 

圖 8 MP3 編碼流程圖 ... 12 

圖 9 MP3 解碼流程 ... 13 

圖 10 和弦分析系統架構圖... 14 

圖 11 框架能量與 MP3 音樂樂音斷點對照 ... 15 

圖 12 樂音的 ADSR 結構示意圖 ... 16 

圖 13 樂音 C4 的 ADSR 結構對應 MDCT 係數能量分佈圖 ... 17 

圖 14 連續四個樂音 ADSR 結構能量圖 ... 17 

圖 15 樂音分析流程... 17 

圖 16 MDCT 係數線性關係示意圖 ... 19 

圖 17 C4 和弦及其構成音{C4,E4,G4}的 MDCT 係數能量分佈 ... 20 

圖 18 12 組樂音家族的能量分佈統計... 20 

圖 19 C4 和弦構成音-12 家族能量... 21 

圖 20 合併示意圖(a)(b) ... 22 

圖 21 合併錯誤示意圖... 23 

圖 22 流行樂曲起音點偵測實驗之平均回覆率、準確率與 F_Measure ... 24 

圖 23 古典樂曲起音點偵測實驗之平均回覆率、準確率與 F_Measure ... 25 

圖 24 音高判斷正確率... 25 

(6)

4

圖 25 樂音辨識正確率... 26 

圖 26 和弦辨識正確率... 27 

圖 27 以樂音 C4 與其他樂音的協和程度 ... 27 

圖 28 音分與頻率對照圖... 28 

圖 29 誤差感受敏銳程度圖... 28 

圖 30 和弦組成音之協和度誤差容忍範圍... 29 

(7)

5

表目錄

表 1 常見基頻偵測方法... 5 

表 2 不同主調調性和弦的變化進行... 10 

表 3 前 30 維 MDCT 係數頻帶對照表 ... 13 

表 4 樂音頻率對照表... 18 

表 5 樂音頻率對應 MDCT 係數對照表 ... 19 

表 6 音程與 MDCT 頻帶對應 ... 21 

表 7 三和弦組成規則... 21 

(8)

1

1. 序論

隨著網路的快速發展以及多媒體壓縮技術的進步,目前有大量的多媒體資料在網際 網路上快速的傳播,所以對於多媒體資料的分類與查詢,顯得日益重要。因此,有關多 媒體資料內涵式分析的相關研究,越來越受到學術界的重視。其中數位音樂壓縮資料以 MP3 格式[4]最受到大眾的歡迎,因此,以 MP3 格式為主的音樂資料庫在網際網路上以 及硬體 MP3 播放器中變得越來越普遍。目前使用者對 MP3 音樂資料庫的查詢,一般都 是以文字資料(如:歌名、歌手…等)關鍵字作為查詢的依據。由於這些關鍵字是以人工 方式建立索引,容易因為人為的疏忽而導致錯誤,並且浪費大量的資料輸入時間。因此,

我們希望能透過 MP3 音樂內涵特徵來做為查詢的依據,在現有許多音樂分類(music classification)相關研究的方法,大部分都是利用語音辨識的特徵值作為分類的依據,但 是卻忽略了音樂本身樂理的特性,透過音樂感知特徵研究(music sense description),可 以將這些富含音樂性的特徵加以利用,提供更正確的分類以及查詢的結果。

1.1. 音樂內涵分析研究發展

音樂內涵特徵研究的發展,最早的目的在於,如何將不同聲音的來源加以分離,其 後衍伸出了節奏偵測以及識別聲音類型的研究,隨著時代演進,到了現在音樂感知特徵 的研究,著重於音樂語意的了解,透過分析音樂中和弦的組成,音樂的調性、音樂結構 等高階音樂描述的特徵,來輔助音樂分類以及音樂內含特徵分析的相關研究。

(9)

2

圖 1 音樂感知分析發展圖

1.2. 研究動機

如同說話的抑揚頓挫可以使人有不同的感覺,和弦在音樂中也扮演著相同的角色,

因此,不同的和弦的組成,會影響音樂曲風的變化以及音樂的結構,所以我們希望能利 用和弦這種富含音樂性的特性,藉由音樂內涵式特徵分析,搭配其他高階音樂特徵,達 成自動判斷 MP3 數位音樂每一個樂音的和弦種類。

1.3. 章節概要

第 2 章我們針對和弦所需要的技術相關研究加以介紹說明,第 3 章簡單介紹何謂和 弦,第 4 章我們針對 MP3 編解碼流程加以說明,第 5 章我們針對 MP3 和弦分析系統加 以說明,第 6 章為實驗以及實驗結果的討論,第 7 章結論及未來發展,第 8 章為參考文 獻

(10)

3

2. 相關研究

在許多音樂和弦分類的研究與應用中通常都會利用到節奏、旋律、調性或是歌曲結 構等資訊[1][12][33][34][45],以往的研究大都是針對 MIDI 格式的數位音樂,利用 MIDI 所包含的節奏,音高資訊來輔助分析。但是在真實音樂訊號中沒有這樣的資訊儲存,因 此,必須先針對真實音樂訊號進行節奏分析,此外為了分析真實音樂訊號中,所夾帶的 音高資訊,必須藉由基頻偵測(F0 estimate)的技術,來分離音樂訊號中不同樂音的基頻,

提供和弦識別所需要的音高特徵,我們整理和弦識別所需要的前處理技術及應用的相關 研究如圖 2 所示

圖 2 和弦識別技術關係圖

2.1. Onset Detection 相關研究

最早在 1996 年由 Goto[11][12]提出一種架構在實體音樂訊號的即時節奏辨識方法,

藉由建立節奏偵測模型,利用節奏在樂理上的特性,可以有效分析出音樂的節奏資訊,

1998 年由 Scheirer[40]提出一套利用 Bandpass Filters 和 Comb Filters 的節奏偵測方法,

並且可以有效預測節奏出現的位置,根據實驗結果顯示,在各種不同的音樂情況中,都 有很好的正確率。

Dixon[6]將 3 種現有的 Onset 偵測方法(頻普通量(Spectral Flux),相位偏移(Phase Deviation),Complex Domain)加以改良,在加上判定參數的調整,經由實驗結果顯示,利

(11)

4

用頻譜通量,不僅計算方式簡單,正確率也是最高。

Klapuri[25][27]將音樂訊號經由 Comb Filter 轉換,並將節奏在樂理上的特性帶入 觀測機率模型並且利用 HMM 來預測節奏出現位置的週期,最後帶入相位量測,計算出 真正節奏出現的地方。

Gouyon[19]整理 Dixon,Klapuri,等人 Onset Detection 的方法,在相同的 4 種資料樣 本集中加以實驗比較,並嘗試結合不同的方法,來提高偵測的正確率,其中又以 Klapuri 的方法最為突出。

2.2. F0 Estimate 相關研究

音樂往往是由一種或數種不同的樂器組合演奏而成,不同的樂器在演奏相同音符時,

雖然基音的頻率是相同的,但是在泛音部分的構成卻不相同,透過基頻分析的研究,來 量測和弦識別所需要音高特徵,以往在基頻偵測有許多中不同的方法如表 1 所示,其中 Goto[13][14][15][16]最早提出在真實音樂訊號中分析基頻的技術,並認為音樂感知描述 (music-scene-description),必須包含來至原始音樂訊號中所夾帶的旋律(melody)、音符 (musical tone)等資訊,又認為流行音樂中 Bass 最能夠代表音樂訊號中音符的組成,因 此提出一種 predominant-F0 estimation algorithm 來偵測音樂訊號中,旋律和 Bass 的基 頻,實驗以 10 首不同曲風(popular,jazz,classical)20 秒長的歌曲,在旋律線平均偵測正確 率 88.4%,Bass 線平均偵測正確率 79.9%。

Klapuri[26]認為真實訊號中泛音的組成不一定是簡單整數比,因此提出一種泛音結 構分析方法來計算權重,但也因為泛音的特性導致不同混和音(mixture sound)頻率依不 同比率疊合,所以提出利用 Spectral Smoothness 的技術,來重新計算權重,用來分離混 合音的基頻,實驗以 30 個不同的音樂片段,隨機取 1 到 6 個不同片段組合,偵測錯誤 率分別為 1.8%,3.9%,6.3%,9.9%,14%

(12)

5

表 1 常見基頻偵測方法

2.3. Chord Decision 相關研究

以往有關和弦偵測(chord detection)的相關研究,其方法大致上可以從音樂訊號前處 理的不同分為二種,第一種是將真實音樂訊號轉換到頻率域,來識別和弦,由於和弦為 3 個以上不同樂音組成,Nawab[36]利用 Constant-Q spectra(CQ),經由 Constant -Q Transform,轉換到頻譜域,找出所有可能基頻的 peak 出現的位置,配合和弦泛音特性,

比對和弦 peak 出現的位子,來判斷屬於哪種和弦。

Borching[43]將訊號利用小波轉換(Wavelet Transform),轉換到頻譜域,利用 SOM(Self Organized Map)Neural Networks,來分類識別和弦,實驗以 48 個不同的和弦種類共計 480 個聲音樣本來訓練,以貝多芬第 5 號交響曲當作實驗樣本,識別正確率高達 100%。

Fukayama[10]提出一種利用 Wavelet Packet 和 Extended Kalman Filter 來偵測單一樂音以 及和弦的演算法,實驗結果顯示,這套演算法就算有 Noise 的干擾下再和弦以及樂音偵 測上也有很好的表現。

第二種是將真實音樂訊號轉換到 Frequency Domain 後,對應到 12 個半音分類 (semitone class & Chroma vector),最早由 Fujishima[9]在 1999 年提出,又稱為 pitch class profile(PCP),其後 Sheh[44]在 2003 年,以 PCP 為基礎加以改良的一種稱為加權平均旋 轉 PCP 向量(Weighted Averaging of Rotated PCP Vectors, PCP_ROT)作為和弦特徵值,利

(13)

6

用Expectation Maximization (EM)計算出平均值(mean)、變異量(variance)的向量以及和 弦模型在 HMM 的狀態轉換機率,配合維特比演算法(Viterbi Alignment)求出最佳的和弦 序列。Gomez[17][18]在 2004 年,也以 PCP 為基礎發展出 harmonic pitch class profile(HPCP) 作為特徵值,認為泛音特性有助於分析和弦(chord),利用 Sheh[43]的方法,並且比較不 同訓練模型,實驗結果顯示,使用 SVM(Support vector machine)計算的和弦序列正確率 比較好。Kyogu[29]在 2006 年,提出 Enhanced Pitch Class Profile(EPCP),利用 CQ Transform,對應到 Harmonic product spectrum(HPS),再來計算所對應的半音分類,可 以避免泛音特性相近的和弦同時出現所造成的問題,並且利用Sheh[44]提出的方法,來 計算和弦序列。

Yoshioka[48]利用前處理後的特徵值,搭配[11]所提出的方法來做節奏分析,因為 和弦的改變會根據一定的規則,這些規則稱為和弦進行式(Chord progression)。利用這些 規則,該文提出一套假說搜尋法(hypothesis search algorithm)來計算可能的和弦序列權重,

以這樣的方式和弦辨識的正確率雖然只達到 77%,但在自動分析的效能上大幅提高。

2.4. Key Determination 相關研究

最早在 1990 年由 Krumhansl[24]提出 Krumhansl –schmuckler key finding algortithm,

其後 Temperley[46]提出以[24]加以改良的 Key profile model,奠定了一套基本的調性判 斷演算法,Pauws[39]以[24]為基礎發展 Maximum Key Profile correlation method 來識別 調性,經由實驗結果顯示,其識別正確率為 85%,Purwins 也以[24]為基礎提出 CQ-profile 特徵,利用 CQT 來分析訊號,配合 SOM 來分析調性。

Zhu[49]利用 CQT 來分析訊號特徵,產生對應的 pitch profile ,透過 Scale Root 量 測以及調性型態的判別兩個步驟,偵測調性,根據實驗,其識別正確率為 83%

2.5. 其他相關研究

Sakuraba[45]認為在不同的樂器在不同時間演奏相同單一樂音時,樂器的音色 (Timbre)是一項有利的辨識特徵。但是在多個樂器同時演奏時,因為頻率相互疊合,導

(14)

7

致音色特徵變的模糊。因此,藉由比較 4 種不同的特徵 Timbre Similarity 、Direction Proximity 、Pitch Transition 和 Pitch Relation Consistency 可以有效的辨識多個樂器的和 弦。根據實驗的結果顯示,先加入 Direction Proximity 來辨識可以大幅改進識別率,其 次是加入 Pitch Transition。

Maddage[33][34]以樂理對於歌曲結構的定義來實現音樂內涵分析。藉由旋律的擷取、

和弦偵測、人聲偵測等技術,並利用 OSCC(Octave Scale Cepstral Coefficients)取代 MFCC(Mel Frequency Cepstral Coefficients)特徵,來分析音樂的結構,如主歌、副歌、

間奏等。正確率可以達到 80%以上。

(15)

8

3. 和弦簡介

3.1. 和弦的種類

所謂和弦,即是三個及三個以上不同音高的樂音,根據一定的關係組合而成[2]。

而和弦根據不同組合方式又可分為三度疊置(a1)跟非三度疊置(a2),如圖 3 所示。

圖 3 三度疊置和弦 a(1)跟非三度疊置和弦 a(2)

而根據其疊置的順序,和弦組成樂音可依次稱為根音、三音、五音、七音,如圖 4 所示。

圖 4 和弦組成樂音名稱

和弦根據不同數目音高組成又可以分為三和弦,七和弦兩類[2]。所謂三和弦,即是由 三個樂音按照三度疊置組合而成,其中又可以細分 4 種:

y 大三和弦(major(M)) : 由根音~三音(大三度)+三音~五音(小三度) 。

„ 例如: Cmajor ={C,E,G}。

y 小三和弦(minor(m)): 由根音~三音(小三度)+三音~五音(大三度)。

„ 例如:Cminor ={C,Eb,G}。

y 減三和弦(augmented(A)) : 由根音~三音(小三度)+三音~五音(小三度) 。

„ 例如:Caugmented={C,Eb,Gb}。

y 增三和弦(diminished(d)) : 由根音~三音(大三度)+三音~五音(大三度) 。

„ 例如:Cdiminished={C,E,G#}。

在三和弦中又可以依照其疊置順序的不同,而產生其轉位音,如圖 5 所示。

(16)

9

本位音 第 1 轉位音 第 2 轉位音

圖 5 三和弦轉位音

本位音 第 1 轉位音 第 2 轉位音 第 3 轉位音

圖 6 七和弦轉位音

所謂七和弦,即是由四個樂音按照三度疊置組合而成,其中可細分為 5 種:

y 大小七和弦(Mm) : 由根音~五音(大三和弦)+根音~七音(小七度)。

„ 例如:CMm={C,E,G,Bb}

y 大大七和弦(MM) : 由根音~五音(大三和弦)+根音~七音(大七度)。

„ 例如:CMM={C,E,G,B}

y 小小七和弦(mm) : 由根音~五音(小三和弦)+根音~七音(小七度) 。

„ 例如:Cmm={C,Eb,G,Bb}

y 減小七和弦(dm) : 由根音~五音(減三和弦)+根音~七音(小七度) 。

„ 例如:Cdm={C,Eb,Gb,Bb}

y 減減七和弦(dd) : 由根音~五音(減三和弦)+根音~七音(減七度)。

„ 例如:Cdd={C,Eb,Gb,A}

在七和弦中又可以依照其疊置順序的不同,而產生其轉位音。

3.2. 和弦進行式

和弦進行式簡單來說,就是和弦在音樂中進行的過程,不同和弦進行的過程會影響 音樂的曲風,而這樣的過程會根據一定的規則,也就是和弦的進行必定是由根音(root) I

(17)

10

開始,舉例來說 I -> ii -> iii -> IV -> I,是一組正確的和弦序列。Mugglin 分析實際音樂 作品中常用的和弦進行式,繪出如圖 7 之 major 和弦進行的狀態圖[50]。

z 藍色方形表示自然和弦,也是一般歌曲最常用的和弦進行式。

z 其餘藍色多邊形,可以使得自然和弦更豐富,I/5 表示使用五音為根音轉位和弦,

VI/I 表示鋼琴演奏時的雙手開放和弦。

z 綠色背景的多邊形,是為了讓自然和弦,有更多變化的轉調和弦。

z 不論混用何種進行方式,和弦進行都必須滿足由根音 I 開始的條件。

表 2 表示不同 major 調性和弦的變化常見進行方式

圖 7 大調和弦進行的狀態圖(http://hometown.aol.com/chordmaps/)

表 2 不同主調調性和弦的變化進行

(18)

11

(19)

12

4. MP3 簡介

4.1. MP3 數位音樂

MP3(MPEG-1 Layer 3),是當今流行的一種多媒體壓縮格式,全名是 Moving Picture ExpertsGroup-1 AudioLayer-3[22]。目的是希望透過壓縮技術來傳送聲音,使得資料量減 少而卻能使人類聽不出聲音的內容有所偏差。由於 MP3 壓縮技術裡採用了心理音響模 型(Psychoacoustics Model)來模擬人耳的聽覺,利用人耳聽覺感知上的遮蔽效應(Masking Effect),來達到聽起來不失真的效果。在基本上保持 CD 音質的前提下,MP3 能將音頻 數據壓縮到原有的 1/10 甚至更多。

4.2. MP3 解碼程序與特徵擷取

MPEG-1 Layer III 的編碼架構如圖 8 所示,其主要透過混合式濾波器組(Hybrid Filterbank)、心理音響模型(Psychoacoustics Model)以及量化(Scalar and Quantizer)和無 失真編碼(Lossless Coding / Huffman Coding),其中量化及無失真編碼在 MP3 的架構中 主要用來做位元率及誤差的控制(Rate and Distortion Control Loop),由於是以迴圈的方 式進行微調控制,所以又稱為疊代迴圈(Iteration Loop)。

圖 8 MP3 編碼流程圖

(20)

13

音樂訊號在混合式濾波器組編碼過程中經由 32 個等寬(Overlap 1/2)子頻帶濾波器,

以取樣頻率 44100 而言,每一個子頻帶頻寬約為 689.0625Hz,每一個子頻帶在經由 MDCT 細分為 18 個頻線訊號,因此,每一個 MDCT 係數的頻寬 689.0625/18=38.28125Hz 如表 3 所示。

表 3 前 30 維 MDCT 係數頻帶對照表

由於 MP3 的資料經過了編碼,所以無法直接對 MP3 資料作內涵式特徵值的分析。

因此,我們必須擷取在 MP3 解碼過程中圖 9,所得到的 MDCT 係數,來做為分析的依 據。MP3 串流的最小單位是框架(frame),每一個框架包含 1152 個資料樣本,當取樣頻 率為 44100 時,每一秒的 MP3 資料就包含了 44100/1152=38.28125 個框架,而每一個框 架的 MP3 資料經過解碼會得到 576 維 MDCT 係數,因此。在經過逆修正式離散餘弦轉 換(IMDCT)會還原成 32 維子頻帶係數,最後經過多相位合成濾波器(polyphase filter) 會還原成為原始的音樂訊號。

圖 9 MP3 解碼流程

(21)

14

5. MP3 音樂的和弦自動分析技術

我們所提出之 MP3 音樂和弦分析系統架構如圖 10 所示。首先,我們利用 Amp11 音訊解碼程式從 MP3 解碼過程擷取 MDCT 係數,作為分析的主要資料來源。如此可以 避免完全解碼所產生的大量計算,再來我們計算每一個 MP3 框架的能量,利用能量特 徵進行節奏分段分析,並針對樂音 ADSR 結構來分析,然後根據分段後的結果進行樂 音識別,最後進行和弦判斷分析。

圖 10 和弦分析系統架構圖

5.1. Onset 偵測與自動斷音

在進行和弦辨識前,我們必須先解決如何對音樂訊號作正確的分離與分段問題,因 為不正確的分段方式會大幅降低和弦辨識的正確率。

一般在樂曲中和弦的改變會發生在二種情況之下:

„ Case1. 和弦的改變會落在一個小節結束的時候。

„ Case2. 和弦的改變會落在拍子(meter)上。

而這二種和弦改變的發生的機率以 Case1 > Case2 。

由於和弦通常會跟隨節奏來做改變,因此我們必須對音樂進行節奏分段的動作。我 們根據在[22]一文所提出的 MP3 樂音切割方法,利用相鄰兩框架的能量斷點來對音樂

(22)

15

訊號作切割,找出樂音起點,如圖 11 所示。第 k 個框架的相對能量 MDCTenergy[k]計算 方式如(1)所示。其中 MDCT[k][i]代表第 k 個框架中第 i 個頻帶之修正是餘弦轉換係數。

MDCT k ∑ |MDCT k i | (1)

圖 11 框架能量與 MP3 音樂樂音斷點對照

由於一首樂曲在節奏很快,亦即樂音快速變換或是雜訊干擾強烈的時候,常會導致 樂音能量的結構被破壞,造成不容易判斷出斷點的位置。因此,在[22]一文中提到以連 續多個框架的能量和來取代原來的能量,進行平滑化處理,可以降低雜訊干擾的影響。

但是我們進一步進行實驗分析,發現只有在節奏快速變化的時候才需要重新取代。因此 在本文中,假設 N 為一首樂曲中的分段總個數、ni為第 i 個分段的框架個數亦即第 i 個 分段長度。若第 i 個分段之分段長度 ni大於平均分段長度∑ nN /N,則我們認為該分段 屬於節奏變化較快的地方,便以平滑化處理後的能量取代原來的能量進行斷點偵測。

n NN (2) 在[22]一文中提到當平滑化處理框架數 M=4 時分段的效果最好,在本文我們認為 M 的大小應該藉由節奏時間(beat time)來決定。所謂的節奏時間是指前一個樂音到下一 個樂音出現的時間。舉例來說,一首音樂在速度(tempo)=120、4 分音符為一拍的情況下,

則一拍的演奏時間為 0.5 秒,換算成 MDCT 框架數則 M = 0.5*38.28125。但實際上我們 無法預先知道一首音樂節奏的資訊。因此,我們必須利用最小分段長度 Min(ni),1≦i

≦N 的值來反推節奏時間。因為 Min(ni)之值為最小分段之時間長度,所以平滑化處理 框架數 M 必定要小於或等於最小分斷長度 Min(ni)的值,又因為一首歌曲之節奏時間通

(23)

16

常為單位節奏時間之 2 的冪次方 2X,表示為公式(3)。我們針對分段長度大於平均分段 長度的分段進行平滑化處理,藉由變動 x 的值,來尋找最適合該分段平滑框架個數 M,

最後進行平滑化處理如公式(4)所示,其中 MDCTnew[k]表示由第 k 的框架連續進行 M 個 框架能量平滑化處理。

M Min n 2 (3) MDCT k ∑ MDCT

M

M (4) 5.2. ADSR 結構分析

在判斷和弦之前我們還必須先分析樂音聲音波形的四個結構,也就是起奏(attack)、

衰退(decay)、延續(sustain)、釋放(release),一般也稱為樂音的 ADSR 結構,如圖 12 所 示。

圖 12 樂音的 ADSR 結構示意圖

從圖 13 的一個樂音之能量分佈我們可以看出,樂音在衰退期的能量較大且明顯,

且其和弦組成頻率較不易受雜訊影響(和弦組成頻率 SNR 比較高)。因此,我們認為在 計算 MDCT 係數時只計算樂音之衰退的部分會得到較準確的結果。根據實驗結果統計 我們可以設定在起音點之後至能量達到最高峰前的框架屬於起奏的部分;在能量最高峰 往下算 2 倍起奏框架長度部分屬於樂音衰退的部分。

(24)

17

圖 13 樂音 C4 的 ADSR 結構對應 MDCT 係數能量分佈圖

圖 14 連續四個樂音 ADSR 結構能量圖

5.3. 樂音組成分析

完成樂音分段之後,下一步驟是進行樂音分析。此步驟可分成組成音分析、12 樂 音家族分析,以及音高判斷三個部份,如圖 15 所示。

圖 15 樂音分析流程

(25)

18

由於和弦是由三個或三個以上不同樂音組合而成,因此,我們先針對和弦基本構成 的樂音進行 MDCT 係數的分析。我們由公式(5)來計算樂音的頻率 frequency,其中 frequencyref表示參考的樂音頻率、diff 表示所要計算的樂音與參考樂音差異多少的半音,

且將計算出樂音的頻率帶入公式(6)換算出該樂音頻率所對應的音分(cent)。利用公式 (5)(6)計算出每一個音程中樂音所對應的頻率及音分,如表 4 所示,我們利用 amp11 音 訊解碼程式,從 MP3 解碼過程中擷取出 MDCT 係數,針對 MDCT 係數所對應的頻帶,

可以求得樂音頻率頻帶之能量。由表 5 我們可以看出在頻率較低的樂音(如 C3, Db3, D3),

其樂音基頻頻率幾乎都落在相同的 MDCT 頻帶係數上,因此無法僅由單一的 MDCT 係 數來進行樂音的區分。因此,我們提出利用樂音的和弦結構特性,以及其泛音頻率來輔 助辨識出正確的樂音。

frequency frequency √2 (5) cent 1200 log (6)

表 4 樂音頻率對照表

(26)

19

表 5 樂音頻率對應 MDCT 係數對照表

5.4. 和弦分析

根據[30]一文的分析結果我們知道 MDCT 係數具有線性疊加的特性如(7)式。我們 利用工具產生正弦波 A4(440hz)及 A5(880hz)兩個樂音,在以 0.5*A4+0.25*A5 的比例合 成第三個音,其 MDCT 各子頻帶的能量分佈結果如圖 16 所示,確實符合線性特性(7)。

MDCT ax by aMDCT x bMDCT y (7)

圖 16 MDCT 係數線性關係示意圖

因此,我們知道和弦的 MDCT 係數必定和其構成音的 MDCT 係數有線性的關係。

我們可以將此線性關係寫成(8)式,其中 Xi表示第 i 個構成音的 MDCT 係數向量、Ci示第 i 個構成音的加權係數,即可得到混合後的和弦 MDCT 特徵 MDCTmix

MDCT ∑N C X (8)

根據 MDCT 的線性關係,我們以 C4 和弦為例,統計其 MDCT 係數能量分佈,結 果如圖 17 所示。我們可以看出 C4 和弦能量幾乎等於{C4+E4+G4}三個組成音的能量總

(27)

20

和。

圖 17 C4 和弦及其構成音{C4,E4,G4}的 MDCT 係數能量分佈

由於 MDCT 在低頻解析度的不足,當樂音落在低頻音程的時候,能量幾乎都落在 相同的 MDCT 頻帶上,導致我們無法辨識出低頻的樂音訊號,因此,我們必須藉由樂 音的泛音結構,來改善低頻辨識率不足的問題,所以在進行 12 樂音家族分析時,我們 分為 2 個部分,首先來處理:利用公式(9)以及表 5 將每一和弦家族對應到的 MDCTmix頻 帶係數能量相加,其中 Tone[k]表示第 k 個樂音家族能量,Hi表示第 i 族樂音泛音結構 加權係數矩陣。然後比較在 12 組樂音家族中哪一個樂音家族的能量最高,能量最高的 即是該樂音所屬的家族,如圖 18 所示。

圖 18 12 組樂音家族的能量分佈統計

Tone k ∑ MDCT H k 1,2 … .12 (9)

(28)

21

另一部分是樂音音程判斷。我們根據表 6 疊加不同音程所屬 MDCT 頻帶的能量,

根據不同音程頻帶所佔能量的比例,來判斷樂音所屬的音程。

表 6 音程與 MDCT 頻帶對應

在和弦分析,我們利用先前提到的樂音判斷方式中 12 家族樂音能量,並且利用和 弦組成規則(如表 7 所示),將先前所運算的 12 樂音家族能量 Tonei與和弦組成規則矩 陣 Chordprofile透過互相關(cross-correlation)函數運算,就可以計算出該音樂片段最有可 能所屬的和弦種類。

Chord Max Tone Chord i f , 1 i 12 (10) 表 7 三和弦組成規則

圖 19 C4 和弦構成音-12 家族能量

(29)

22

由於和弦會跟隨著小節來改變,但是不一定在每一個小節上都會有所變化。因此,

我們把每一個音樂片段可能的和弦判斷出來,進行以小節為單位的合併動作,將一小節 內連續相同的和弦加以合併,本文提出 3 種不同的合併情況:

1. 若連續音樂片段為相同和弦時。

2. 若相鄰的兩個相同和弦的音樂片段中,有未知和弦的音樂片段時。

3. 若未知和弦的音樂片段,前後的音樂片段為不同和弦時。

如圖 20(a)(b)所示。

(a)

(b)

圖 20 合併示意圖(a)(b)

由於我們無法預先得知小節真正的位置,因此,在連續出現相同和弦的情況下如圖 21,進行合併動作時,會導致合併上的錯誤,造成辨識正確率的下降。

(30)

23

圖 21 合併錯誤示意圖

5.5. 和弦進行式與調性對和弦判斷的考量

由於在音樂中和弦的出現的種類會根據和弦進行式以及調性的不同而有所限制。因 此,為了提高和弦辨識的正確率,我們可以把識別出來的和弦,帶入和弦進行式模型計 算其出現之可能性,並且加入調性的考量,來修正辨識錯誤的和弦。

配合圖 7 和弦進行狀態圖以及表 2 不同主調調性和弦的變化進行,我們可以知道,

在特定調性下,可能會出現的和弦種類。因此我們計劃在未來收集不同調性、曲風的歌 曲紀錄其和弦變化的過程,當作訓練樣本,利用隱藏式馬可夫模型(HMM)加以訓練,

得到和弦轉移機率,當成我們調整錯誤和弦的依據。

(31)

24

6. 實驗

6.1. 起音點偵測實驗

在起音點偵測實驗部分,我們以 5 首流行音樂以及 5 首古典樂為實驗樣本,測試起 音點偵測方法的正確率,由於 MDCT 特徵在時間軸上的解析度(Tr)只有 1/38.28125 秒,

因此我們允許系統偵測出的起音點位置(Tonset)與真實的起音點位置(Treal)的誤差以 Tr 為 單位(11)。此外,我們根據 MIREX 2005 提出的起音點正確率的計算公式(12)(13)(14),

來做為計算正確率的依據。其中 Ocd表示系統在誤差容許範圍內判斷出而且是正確起音

點的個數;Ofn表示系統判斷出來但實際不存在的起音點個數;Ofp表示不在系統誤差容 許範圍內起音點的個數。實驗結果如圖 22 圖 23 所示,其中 X 軸表示時間軸上的誤差(Tr) 的倍率 a。

T aT T T aT (11)

Recall O O O (12)

Precision O O O (13)

F_Measure R P

R P (14)

圖 22 流行樂曲起音點偵測實驗之平均回覆率、準確率與 F_Measure

(32)

25

圖 23 古典樂曲起音點偵測實驗之平均回覆率、準確率與 F_Measure

6.2. 樂音組成分析實驗

我們利用 Yamaha XG-50 數位合成器產生鋼琴、小提琴、長笛、小號等 4 種不同樂 器 6 個 8 度共 288 個樂音樣本,來進行 12 樂音家族分析實驗,針對是否有使用泛音結 構輔助,分別衡量其對樂音識別正確率的影響,結果如圖 24 所示,我們發現在使用泛 音結構來輔助進行樂音識別的確可以提高低頻樂音的辨識率。

圖 24 音高判斷正確率

根據以上的泛音結構實驗結果,我們以流行樂曲 5 首以及古典樂曲 5 首作為測試樣 本,將其轉成 128Kbps、joint-stereo,MP3 格式進行誤差容忍度實驗。由於誤差容許範

(33)

26

圍越小,節奏分段的結果越差,導致樂音偵測正確率下降到 4 成左右。如圖 25 所示,

其中 X 軸表示時間軸上的解析度(Tr)的倍率 a。

圖 25 樂音辨識正確率

6.3. 和弦分析實驗

我們同樣以流行樂曲 5 首以及古典樂曲 5 首作為測試樣本進行和弦分析實驗,以回 復率(15)以及準確率(16)作為評估實驗結構的依據。結果如圖 26 所示,我們發覺和弦識 別平均準確率約在 6 成左右。

Recall 系統偵測正確的和弦個數

人工判斷和弦總數 (15) Precision 系統偵測正確的和弦個數

系統判斷和弦總數 (16) 根據實驗結果,我們推論造成辨識準確率不高的原因有以下幾點

y 起音點偵測演算法在偵測斷音點有所誤差,導致在能量計算上有所錯誤。

y MDCT 在低頻解析度的不足,導致樂音判斷失準。

y 連續出現相同和弦時,造成合併上的錯誤。

(34)

27

圖 26 和弦辨識正確率

6.4. 協和度誤差分析實驗

根據「新葛羅夫音樂辭典」中的定義,在純律中兩兩樂音之間存在一個簡單的整數 比例。不同的比例影響人們聆聽樂音感受到的協和程度,當兩樂音的最小公倍數越小,

表示兩個樂音間的協和程度越高。協和度分析實驗之目的在於判斷一個樂音或其組成是 否為一和弦。

圖 27 以樂音 C4 與其他樂音的協和程度

由於人對於不同和弦協和度的感受程度略有不同,我們根據[23]進行音樂訊號的感 受實驗。藉由實驗來量測不同和弦組成樂音可允許的誤差,我們將樂音所對應的頻率(線 性曲線)轉換成樂理量測樂音的單位音分(cent),也是最符合人類聽覺的對數曲線,如圖 28,藉由讓受測者聆聽不同誤差比例的和弦,分析人類聽覺對於和弦誤差的感受程度。

(35)

28

圖 28 音分與頻率對照圖

圖 29 誤差感受敏銳程度圖

我們以 2 音分為誤差單位,產生正負 25 個不同誤差的樂音,加以組合產生 1200 個不同誤差的樂音組成,由非音樂專業的測試者,進行協和度誤差感受敏銳程度實驗。

結果如圖 29 所示,Y 軸表示對於誤差的敏銳程度,數值越高表示對於誤差的感受越強 烈。圖 30 表示,受測者對於誤差感受的範圍,根據程度上的不同,可以分為三個等級:

無差異,有些微差異、有明顯差異。實驗結果提供我們對於和弦協和度誤差容忍範圍的 參考。

(36)

29

圖 30 和弦組成音之協和度誤差容忍範圍

(37)

30

7. 結論與未來研究

目前已知道和弦偵測大部分的作法是在 MIDI 或是在原始音樂訊號上,而我們作法是 利用 MP3 音樂也就是經過編碼壓縮後的訊號來做分析,提出以分析起音點的樂音分段 方法、利用樂音泛音結構特性來輔助樂音判讀、利用和弦組成規則來決定樂音片段所屬 的和弦種類。以目前的實驗結果顯示,在回復率 75%時,我們提出的方法準確率可以達 到 60%。

我們發現在 Onset 偵測的準確率會左右我們在和弦辨識的結果,未來我們希望能提出 更好的 Onset 偵測方式。另一方面,由於 MDCT 係數對於頻率的解析度是固定無法調 整的。因此,在低頻的時候,因為解析度的不足,導致辨識率大幅下降,就算利用泛音 結構加以輔助,能提升的辨識的準確率依然有限。我們認為調性、和弦進行式,與音樂 中出現的和弦及樂音種類有密不可分的關係,未來我們希望能加入和弦進行式規則,以 及調性判斷來幫助我們改善 MDCT 係數對於頻率解析度不佳的缺點,並提高和弦辨識 的正確率。

(38)

31

8. 參考文獻

[1] 游弘明, 劉志俊, ”使用背景音樂消除技術提高 MP3 音樂哼唱式查詢的準確性”中華 民國九十年全國計算機會議, 2001

[2] 康樞主編,

大陸音樂辭典

,全音樂譜出版社,1980。

[3] Alonso, M., David, B., and Richard, G., “Tempo and Beat Estimation of Music Signals,”

in Proc. Int. Conf. Music Information Retrieval, 2004, pp. 158-163

[4] Brandenburg, K., “MP3 and AAC explained,” Proceedings of the AES 17th International Conference on High Quality Audio Coding, Florence, Italy, September 1999.

[5] Chang C.W. and Jiau, H.C., “An improved music representation method by using harmonic-based chord decision algorithm” IEEE International Conference on Multimedia and Expo , Vol.1, pp.615- 618, 2004.

[6] Dixon, S. “Onset Detection Revisited” in Proc. the 9th International Conference on Digital Audio Effects, Montreal, September 2006, pp 133-137.

[7] De Cheveigne, A., “Separation of Concurrent Harmonic Sound: Fundanmental Frequency Estimation and Time-domain Cancellation Model of Auditory Processing,” Journal of The Acoustic Society of America , 1993(6) ,3271-3290

[8] De Cheveigne, A., and Kawahara, H., “Yin a fundamental frequency estimator for speech and music,” Journal of the Acoustic Society of America, 111:1917–1930. 2002

[9] Fujishima, T., “Real –Time Chord Recognition of Music Sound: A system Using Common List Music, ” in Proceeding of the International Computer Music Conference pp. 464-467 1999

[10] Fukayama, Y., “A detection algorithm for single tones and chords applying wavelet packets and the extended Kalman filter,” in Proc. of the 47th Midwest Symposium on Circuits and Systems (MWSCAS '04), Vol. 3, pp. iii - 415- 418, 2004.

[11] Goto, M. and Muraoka, Y., “Beat Tracking based on Multiple-agent Architecture — A Real-time Beat Tracking System for Audio Signals”, In Proc. Second International Conference on Multi-agent Systems, pp.103–110, 1996.

[12] Goto, M. “A Chorus-Section Detecting Method For Musical Audio Signal,” In Proc.

2003 IEEE International Conference on Acoustic, Speech, and Signal Processing, pp.V-437-440, April 2003.

[13] Goto, M., “A Real-time Music Scene Description System: Predominant-F0 Estimation for Detecting Melody and Bass Lines in Real-world Audio Signals,” Speech

Communication (ISCA Journal), Vol.43, No.4, pp.311-329, September 2004.

(39)

32

[14] Goto, M., “A Predominant-F0 Estimation Method for Polyphonic Musical Audio Signals,” Proceedings of the 18th International Congress on Acoustics (ICA 2004), pp.II-1085-1088, April 2004.

[15] Goto, M., “A Predominant-F0 Estimation Method for CD Recordings: MAP Estimation using EM Algorithm for Adaptive Tone Models,” Proceedings of the 2001 IEEE

International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2001), pp.V-3365-3368, May 2001.

[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2000), pp.II-757-760, June 2000.

[17] Gomez, E. and Herrera, P., “Automatic extraction of tonal metadata from polyphonic audio recordings,” In Proceedings of the Audio Engineering Society, London, 2004.

Audio Engineering Society.

[18] Gomez, E., “Tonal Description of Polyphonic Audio for Music Content Processing,” In INFORMS Journal on Computing, Summer 2006; 18: 294 - 304.

[19] Gouyon, F., Klapuri, A., Dixon, S., Alonso, M., Tzanetakis, G. Uhle, C., and Cano, P.,

“An Experimental Comparison of Audio Tempo Induction Algorithms, ” IEEE Transaction on Audio,and Speech, Processing 2006

[20] Ghias, A., Logan, H., chamberlin , D., and Smith, B. C., “Query by Humming: Music information Retrieval in an Audio Database”, In Proceedings of Third ACM International Conference on Multimedia, pp.231-236, 1995.

[21] Harte, C. and Sandler, M., “Automatic chord identification using a quantised

chromagram,” In 118th Audio Engineering Society Convention, Barcelona ,Spain 2005 [22] ISO/IEC 11172-3:1993, “Information Technology - Coding of Moving Pictures and

Associated Audio for Digital Storage Media at up to about 1.5 Mbit/s — Part 3: Audio.”

[23] ITU-R. BS. 1116-1 “Methods for the subjective assessment of small impairments in audio systems including

[24] Krumhansl, C., “Cognitive Foundations of Musical Pitch, ”Oxford University Press 1990

[25] Klapuri, A. “Sound onset detection by applying psychoacoustic knowledge,” in Proc.

IEEE Int. Conf. Acoustics, Speech and Signal Processing (ICASSP-99) Phoenix, AZ, 1999, pp. 115-118.

[26] Klapuri, A. “Multiple Fundamental Frequency Estimation by Harmonicity and Spectral Smoothness,” IEEE Transactions in Speech and Audio Processing , (11)6:804-816 ,2000

(40)

33

[27] Klapuri, A., Eronen, A.J., and Astola, J.T., “Analysis of the meter of acoustic musical signals” IEEE Transaction on Audio, Speech, and Language Processing , Vol.14, Issue 1, pp. 342-355 2006

[28] Klapuri, A., “Automatic Music Transcription as We Know it Today,” Journal of New Music Research 2004 Vol. 33, No. 3, PP. 269-282

[29] Kyogu Lee , Malcolm Slaney, “Automatic chord recognition from audio using a supervised HMM trained with audio-from-symbolic data,” Proceedings of the 1st ACM workshop on Audio and music computing multimedia, October 27-27, 2006, Santa Barbara, California, USA

[30] Liu, C.C., and Kuo, W.Y., “Content-Based Segmentation of MP3 Music Objects,” in Proc. of Workshop on Computer Music and Audio Technologies (WOCMAT), 2005, Taipei, Taiwan.

[31] Liu, C. C., and Huang C. S., “A Singer Identification Technique for Content-Base Classification of MP3 Music Objects,” Proc. of the ACM International Conference on Information and Knowledge Management(CIKM 2002), pp 438-445,2002

[32] Lahat, A., Niederjohn, R. J., and Krubsack, D. A.,“A spectral autocorrelation method for measurement of the fundamental frequency of noise-corrupted speech,” IEEE

Transactions on Acoustics, Speech and Signal Processing, 35(6):741–750. 1987

[33] Maddage, N.C, “Automatic Structure Detection For Popular Music,” IEEE Multimedia, Volume 13, Issue 1, pages 65-77 , 2006.

[34] Maddage, N.C, et al.,“Content-based music structure analysis with applications to music semantics understanding”, In Proceedings of the 12th annual ACM international conference on Multimedia, pp 112-119, 2004.

[35] Mather, R. C. and Beauchamp, J. W., “Fundamental Frequency Estimation of Musical Signals Using A Two-way Mismatch,” Journal of The Acoustic Society of America , 95:2254-2263 ,1993

[36] Nawab, S.H., Ayyash, S.A., and Wotiz, R., “Identification of musical chords using CONSTANT-Q spectra,” in Proc. 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '01), Vol. 5, pp. 3373 – 3376, 2001.

[37] Noll, A. M., “Cepstrum Pitch Determination,” Journal of The Acoustic Society of America ,41(2) :293-309 , 1967

[38] Onishi, G., Niizeki, M. ,Kimura, I. and Yamada, H. “A Kansei Model for Musical Chords Based on the Structure of the Human Auditory System,” IJCNN '01. International Joint Conference on Neural Networks, 2001. Proceedings. 10.1109.2001 vol.2 pp:

1101-1106

(41)

34

[39] Pauws, S., “Musical Key Extraction From Audio,” In International Conference on Music Information Retrieva, 2004

[40] Scheirer, E. D., “Tempo and beat analysis of acoustic musical signals,”J. Acoust. Soc.

Amer., vol. 103, no. 1, pp. 588–601, 1998.

[41] Shenoy, A. and Wang, Y., ”Key, Chord, and Rhythm Tracking of Popular Music Recordings,”in Computer Music Journal Vol.29 , Issue 3, pp. 75-86 , September 2005 [42] Shenoy, A., et al. “Key Determination of Acoustic Musical Signals.” In International

Conference on Multimedia and Expo, Taipei, 27–30 June 2004

[43] Su, B., and Jeng, S. K., “Multi-timber chord classification using wavelet transform and self-organized map neural networks,” 2001 IEEE International Conference on Acoustic, Speech, and Signal Processing (ICASSP' 2001), Salt Lake City, USA, 2001

[44] Sheh, A. and Ellis, D.P.W. “Chord Segmentation and Recognition Using EM-Trained Hidden Markov Models,” In Proc. International Conference on Music Information Retrieval, 2003

[45] Sakuraba, Y., Kitahara, T., and Okuno H.G., ” Comparing Features For Forming Music Stream In Automatic Music Transcription,” In Proc IEEE International Conference on Acoustic, Speech, and Signal Processing, pp. 273-276, 2004.

[46] Temperley , D. “What’s Key for Key? The Krumhansl – Schmuckler Key – Finding Algorithm Reconsidered, ” Music Perception 1999, 17(1):65-100

[47] Uhle, C., Rohden, J., Cremer, M., and Herre, J., “Low Complexity Musical Meter Estimation From Polyphonic Music, ” in Proc. AES 25th Int. Conf., New York, 2004 pp 63-68

[48] Yoshioka, T., et al., “Automatic Chord Transcription With Concurrent Recognition Of Chord Symbols and Boundaries”, In Proc 5th International Conference on Music Information Retrieval, pp.149 ,2004

[49] Zhu, Y. et al., “Music Key Detection for Music Audio” In Proc. of the 11th international Multimedia Modeling Conference 2005

[50] http://hometown.aol.com/chordmaps/

參考文獻

相關文件

C., “Robust and Efficient Algorithm for Optical Flow Computation,” Proceeding of IEEE International Conference on Computer Vision, pp. “Determining Optical Flow.” Artificial

Muraoka, “A Real-time Beat Tracking System for Audio Signals,” in Proceedings of International Computer Music Conference, pp. Goto, “A Predominant-F0 Estimation Method for

[16] Goto, M., Muraoka, Y., “A real-time beat tracking system for audio signals,” In Proceedings of the International Computer Music Conference, Computer Music.. and Muraoka, Y.,

When? Where? What? A Real-Time System for Detecting and Tracking People.’’ Proc. International Conference on Face and Gesture Recognotion, April, pp. Pentland, “Pfinder:

Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference

D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,

Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,

Li, The application of Bayesian optimization and classifier systems in nurse scheduling, in: Proceedings of the 8th International Conference on Parallel Problem Solving