• 沒有找到結果。

中 華 大 學 碩 士 論 文

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學 碩 士 論 文"

Copied!
61
0
0

加載中.... (立即查看全文)

全文

(1)

1

中 華 大 學 碩 士 論 文

題目:MP3音樂的力度自動偵測與表現分析 Automatic Dynamics Recognition and Expressive

Analysis of MP3 Music

系 所 別:資訊工程學系碩士班 學號姓名:M09502031 蔡咏昇 指導教授:劉志俊 博士

中華民國九十八年二月

(2)

2

摘要

力度是音樂表現與影響音樂聆賞情緒最重要的因素之一。以往在音樂內涵式分析的研 究,對旋律、節奏、速度、拍子的探討頗豐,但對於力度的深入分析便十分欠缺。在本文中,

我們以實際演奏的音樂配合其樂譜進行統計分析,接著考量音高與音色進行力度的感知正規 化,針對不同作曲家/演奏家的統計結果建立力度測寫,據此可對一首未知的MP3音樂自動產 生全曲之力度表情符號標記,作為比較力度表現分析的依據。

(3)

3

目錄

1. 序論 ... 6

1.1. 音樂感知分析研究發展 ... 6

1.2. 章節概要 ... .7

2. 相關研究 ... 8

2.1. Onset相關研究 ... 8

2.2. Beat相關研究 ... 8

2.3. F0 偵測與樂器識別相關研究 ... 10

3. 力度的涵義 ... 12

3.1. 力度的定義 ... 12

3.2. 音強的衡量 ... .12

3.2. 力度記號 ... .13

3.3. 節拍與聲音強弱之關係 ... .14

4. 系統架構 ... 16

5. 力度感知正規化 ... 18

5.1. 不同音高對力度的影響 ... 18

5.2. 不同音色對力度的影響 ... 19

6. 實驗 ... 20

6.1. 實驗環境 ... 20

6.2. 實驗結果與討論 ... 21

7. 結論 ... 26

8. 參考文獻 ... 26

9. 附錄 ... 30

(4)

4

圖目錄

圖 1 人耳聽覺模型曲線圖 ... 12

圖 2力度分析系統整體架構圖 ... 16

圖 3 Overture五線譜編輯軟體的力度設定 ... 20

圖 4月光奏鳴曲與德布西力度分佈相關比較 ... 22

圖 5 月光奏鳴曲十位演奏家力度分佈相關比較 ... 22

圖 6月光奏鳴曲十位演奏家不同Frame取樣下第一樂章力度邊界值折線圖 ... 23

圖 7月光奏鳴曲十位演奏家不同Frame取樣下第二樂章力度邊界值折線圖 ... 24

圖 8月光奏鳴曲十位演奏家不同Frame取樣下第三樂章力度邊界值折線圖 ... 24

圖 9月光奏鳴曲十位演奏家不同Frame取樣下平均力度邊界值折線圖 ... 25

圖 10貝多芬給愛麗絲產生全曲之力度表情符號標記 ... 25

圖 11貝多芬給愛麗絲產生全曲之力度表情符號標記 ... 26

(5)

5

表目錄

表 1基頻偵測方法整理 ... 10

表 2力度標語、力度記號與力度強度 ... 13

表 3力度相關音樂術語 ... 13

表 4 35 種不同音高由 5 位實驗者感受力度強度之平均值 ... 18

表 5 6 種樂器類別共 18 種音色由實驗者感受力度強度之平均值 ... 19

表 6 Overture5 線譜編輯軟體關於力度符號設定之絕對能量 ... 20

表 7十位演奏家及其平均力度所佔之誤差百分比 ... 23

(6)

6

1. 序論

1.1 研究動機

音樂在現今的生活中,已是不可獲缺的角色,人們喜愛許多不同類型的音樂,如流 行音樂、古典樂等,使的在現今音樂的研究領域上,有許多不同的技術產生以因應人們 的需求,當人們在聆聽音樂的過程中,對於音樂聲音的輕重感受不同而有不同的感受。

力度(dynamics)是音樂表現與影響音樂聆賞者心理情緒的重要因素之一。力度變化是 音樂家在演奏時的重要表現手法,目的在使音樂展現出不同的情感。例如強的力度多數 讓人感覺激昂或緊張,而弱的力度則感覺輕鬆柔和。作曲家亦會因為力度運用上的不同 而創造出各式各樣的曲風,樂曲的演變即是受了力度的強弱變化影響而成。例如巴洛克 時期,樂句的強弱交替是以台階式的方式所呈現。到了古典樂派時期,力度則出現漸強 或漸弱等更豐富的表示方式。

然而,在目前的音樂內涵相關研究中,一般研究的主題是探討音樂的節奏(rhythm) 速度(tempo)與拍子(beat)的自動偵測,而欠缺對力度的深入分析。因此,本論文針對力度 的樂理定義為起點,以各種力度在實際演奏錄音中的音強具體表現統計為依據,接著考 量不同頻率與音色給人在力度感受方面的改變,來進行感知正規化。進而針對不同作曲 家/演奏家的力度分析結果,我們可以建立其音樂力度側寫(dynamics profiles),根據使用 者所選擇特定的力度側寫,我們可以用來辨識一首未知 MP3 音樂中各個音符的力度,自 動產生全曲之力度表情符號標記。

力度分析技術的應用非常廣泛,說明如下:

(1)KTV 歌唱評分系統: 現今 KTV 及卡拉 OK 播放器,大多具有針對演唱者音色、音準 及節奏來進行特徵比對評分之歌唱評分系統。然而,該系統卻欠缺評分演唱者的情感表 達,由於歌唱的力度與情感息息相關,擬藉由偵測的力度對演唱者所演唱歌曲之情感加 以評分。當特徵相似度越高,則演唱者分數越高。然而,歌唱系統評分的方式欠缺了演 唱者歌唱的情感表達,由於歌唱的力度與情感息息相關,所以我們能將自度偵測應用於 歌唱評分系統中,藉由偵測力度不同來給予演唱者所演唱歌曲所賦予的情感加以評分。

(7)

7

(2)內涵式查詢: 使用者對音樂查詢傳統的方式,通常是採用關鍵字來進行查詢使用者所 需的樂曲,但可能礙於使用者不知道樂曲名稱或樂曲儲存檔名的不同而導致查詢困難,

我們可透過音樂的內涵查詢,依節奏及力度特徵進行音樂資料庫的查詢比對。

(3)曲風分類: 其次在樂曲的分類上,在過去曲風分類的研究領域,是以節奏、區域性…

等音樂內函來進行分類。但我們知道,力度會影響樂曲給人聆聽的感覺,進而對樂曲感 受到不同的情感,例如:弱的力度多數帶給人們哀傷傷的感覺,強的力度則有興奮高興 的感覺。在曲風的分類及歌曲情感的偵測上,可透過力度的測量作為特徵值,進行曲風 相似性的比對及情感的分類。也可將力度偵測應用在歌曲的情感偵測上。

(4)舞台燈光及時控制: 在舞台燈光及時控制方面,多數由人為操控,在近代燈光自動控 制研究,多數是使用節奏來進行燈光控制,我們可針對力度的不同,在一段相同的節奏 節奏上,偵測力度來進行燈光亮度的微控。

(5)音樂剪輯: 在自動化音樂剪輯方面,我們除了可依舞曲節奏的起音點來協助進行剪輯 外,更可增加力度的偵測,提供力度變化的資訊來方便使用者做更精確的剪輯。

(6)音量自動調整:由於過強的力度可能會導致聽力下降,故在近代許多樂器中也增加了 偵測輕重音的技術,我們期望將力度偵測應用於音響設備,將喇叭音量的輸出水準設置 在人耳適合的強度。

1.2 章節綱要

本論文之結構說明如下:在第 2 章,我們將針對力度偵測之相關技術研究加以說明;

在第 3 章我們對力度給予正式的定義;第 4 章討論不同音高與音色對力度感受的影響;

第 5 章進行實驗的結果分析;最後第 6 章總結本論文並說明未來發展方向。

(8)

8

2 相關研究

在音樂分析裡都需要起音點(onset)偵測之技術,來尋找起音點進行研究分析,例如:

節奏偵測、力度偵測。偵測起音點最自然的方式是以人們的感覺去定義它,但起音點在 一個連續的音樂信號裡,音符可能密佈在短短 10 毫秒裡,我們難以精確的去偵測出起音 點,所以我們需要做自動化起音點的偵測。

在以往有關音樂的節奏(rhythm)與時序結構(temporal structures)的分析相關研究中,

大多數的研究是以拍子(beat)的偵測與追蹤技術為主[7][8][14][29],而對拍子的強度(beat strength)較少人探討。在[30]一文中,Tzanetakis 等人針對 32 名受測人員聆聽 50 首長度 15 秒的五種不同強度之音樂(弱、中弱、中、中強、強),來進行主觀感知實驗。實驗結 果顯示對強拍子的感知較隊弱拍子的感知準確且一致。他們進一步提出一種利用稱為拍 子直方圖(beat histograms)的技術來自動偵測拍子強度。此方法利用自相關(auto correlation) 技術求得各種拍速(beat perminute)的音量統計,再進一步求其平均值與最大直比值作為一 首歌曲的拍子強度特徵。根據實驗結果,平均值特徵略比最大直特徵能偵測拍子強度。

2.1 Onset 相關研究

要做到各個音符的力度偵測,首先我們必須能夠自動偵測一首歌曲中,每個音(note) 的起音點(onset) ,也就是起音點偵測(onset detection)問題。以往有關起音點偵測的相關 研究[2][3][6][12]大致上可以分為五種類型。

在近代許多音樂的研究裡,起音點偵測是非常廣泛的應用,在[12]一文中,S. Dixon 回顧和分類近代之起音點偵測之常用的技術和方法,且對現今的技術做可能的改良,並 選擇適合的方法來應用,以及比較現今起音點偵測之優缺點。

而在[2]一文中, J.P. Bello 等人也針對現今的五種常用的方法,做詳細的說明以及 根據這五種方法做一個完整的比較。

2.2 Beat 相關研究

在[7]一文中,Dixon 提出針對富於表情的音樂表演(expressive performances)中推導其 速度(tempo- induction)及拍子追蹤(beat tracking)的演算法。首先利用 Schloss 所提出之起

(9)

9

音點偵測方法找出一首音樂中的所有起音點(onsets)。然後計算再一定時間內任兩個起音 點間距(IOIs,inter-onset- intervals),在 25 ms 的誤差範圍內對這些起音點間距進行叢集分 析,並以叢集大小及整數倍叢集進行加權計算其分數,最高分的叢集之平均起音點間距 視為其樂曲之可能速度(tempo)。在拍子追蹤演算法方面,由速度推導演算法所預測的各 種速度,每一個不同的速度與事件的組合由一個拍子追蹤代理人(beat tracking agent)負責 預測下一個拍子發生點,並與實際起音點時間比較以計算其分數,並動態調整與記錄拍 子發生點(beat time)資訊。此外,節奏變化亦在演算法的考量之內。

在[8]一文中,Dixon 等人延續在[7]一文中所提出之拍子追蹤與速度偵測演算法,以 詳細地描述了拍子追蹤系統所有計算公式的細節,以及音訊平滑化與起音點偵測的方 法。此系統結合 Langer 一文所提出之二維音樂演奏表情視覺化模型,開發出一套稱為 Performance Worm 的及時呈現速度與力度等重要演奏表情要素之系統。文中並舉巴倫波 英(Barenboim)與席夫(Schiff)演奏莫扎特 K.279 鋼琴奏鳴曲為例,展示 Performance Worm 在呈現各音樂家演奏表情特性的視覺化,進而開啟演奏分析的一種新方法。

根據[7][8]所提出的拍子追蹤演算法,在[9]一文中,Dixon 描述了一個 Beat Root 的拍 子追蹤系統。Beat Root 原以 C++程式語言在 Linux 系統下開發,並以 Java 實作使用者介 面,為一開放源碼系統,可在 http://www.elec.gmul.ac.uk/people/simond/beatroot/下載此系 統。Beat Root 在 2006 年 ISMIR 國際會議的拍子追蹤競賽中獲得優勝。

有韻律的結構( metrical structure)是音樂的基本特性之一。音樂的節奏性會讓人不自主 地隨之打拍子。Bilmes 稱呼一首曲子中最小的節奏單位為泰坦(tatum)[29]。根據泰坦的節 奏概念,Seppanen 提出一種方法來找出一首樂曲中的泰坦格線(tatum grid)[29]。此方法分 為四個步驟:首先利用振幅變化進行起音點(onsets)偵測。其次,計算任意兩個起音點間 的時間間隔(inter-onset interrals)。然後利用餘數誤差函數(remainder error function)來求這些 時間間隔的最大公因數(GCD)作為可能的泰坦值。最後統計起音點間隔的直方圖來判斷速 度是否發生改變(如漸慢、漸快)。將每個起音點對齊至最近的泰坦值整數倍更可求得泰坦 格線。對 50 首一分鐘的歌曲顯示 21 首偵測節奏成功。以曲風來說,流行音樂與爵士音 樂容易成功判讀其節奏,而古典音樂失敗率很高。

(10)

10

Foote 在[14]一文中提出一種稱為拍子頻譜(beat spectrum)的技術來進行音樂的節奏分 析。拍子頻譜的計算分為三個步驟:首先是計算特徵向量。對 256 個樣本進行快速傅利 葉轉換後可求得每個框架(frame)的能量,文中提到亦可使用 MFCC 特徵取代能量特徵向 量。第二步是餘弦距離函數(cosine distance function)來測量任兩個框架間的相似度,可得 到一首歌所有兩兩框架相似度所形成之相似矩陣(similarity matrix)。最後利用相似矩陣的 對角線和(diagonal sums)或求自相關函數可產生一首歌曲的拍子頻譜。使用此技術的優點 在於不需先對歌曲進行分段(segmentation)或是起音點偵測(onset detection)的前置處理。

樂曲的重複性與拍子可以取拍子頻譜的峰值(peaks)而得。此技術可以用於節奏相似性查 詢、節奏切歌、以及求歌曲之速度(tempo)等應用。

2.3 F0 偵測與樂器識別相關研究

表 1 基頻偵測方法整理。

作者 出處 方法

De Cheveigne Journal of The Acoustic Society of America , 1993

Autocorrelation function(ACF) Noll Journal of The Acoustic Society of

America,1967

Cepsturm

Lahat IEEE Transactions on Acoustics, Speech and Signal Processing,1987

Spectrum autocorrelation

Mather Journal of The Acoustic Society of America , 1993

Harmonic matching methods

Klapuri IEEE Transactions in Speech and Audio Processing,2000

Bandwise Klapuri Music Knowledge base Goto Speech Communication (ISCA

Journal), 2004

Music Knowledge base

由於力度會受到音高與音色的影響,所以我們必須進行 F0 偵測與樂器識別來求得每 個音的音高與音色,以往常見的 F0 偵測技術整理如表一所示。根據基頻偵測的特徵值主

(11)

11

要可以分為兩類,一類在 Time & Frequency domain 應用,其中由 Goto[17]提出主要-F0 估 計演算法來偵測音樂信號中的基頻。另一類是在頻率域進行偵測,其中由 Klapuri[21]提 出一種泛音結構分析方法,透過頻譜平滑化(Spectral Smoothness)的技術,來計算權重達 到分離混合音得基頻。

在[18]一文中 Grey 提出了使用多維尺度法(MDS)來進行樂器分類。首先將聲音訊號 進行特徵值擷取,接著利用多維尺度法將資料轉成空間的構型來進行樂器分類。在[20]

一文中 Klapuri 將聲音訊號進行切割,接著進行離散餘弦轉換將轉換後得到的值取對數,

再進行反離散餘弦轉換,最後透過倒頻譜來進行樂器分類。在 Kaminsky [22]一文中提出 使用均方根(RMS)的方式來進行樂器分類。首先將聲音透過 PCA 去降維度,接著進行均 方根值計算比較音色的相似度,最後使用 ANN 分類器進行樂器的分類。

(12)

12

3 力度的涵義

3.1 力度的定義

力度(dynamics)是用來表示音量強弱變化的記號。作曲家或演奏家藉由音量強弱 變化來賦予音樂的情感。早在 16 世紀,已有在樂譜上使用力度記號的例子,但並不普及,

直到 17 世紀強與弱的記號才開始普及化。當進入 18 世紀後,力度已成為音樂表情方面 最重要的表現手段一環。

與力度關係密切的音樂術語為音強(intensity)兩者差別在於力度是感知上的音樂強弱 變化,是主觀感受的量;而力度的定義係根據物理上音波的能量變化,是可測量的客觀 數值。本文主旨即在探討兩者間的關聯及影響因素。

3.2 音強的衡量

量測聲音的強度是依音訊波形的振幅之大小以及周圍空氣的傳達度而決定。振幅越 大音越強,反之則越弱。此外,聲音的力度會受音源的大小、形狀以及振動方向所影響。

對聽者而言,力度的大小會因距離、方向、周圍環境、振動數及音質而有所變化。

在測量聲音強度的單位上,我們以分貝(dB)用來記錄聲音強度單位。每增加 10 分貝 相對於強度增加 10 倍,而最小的強度為 0 分貝。0 分貝所代表的是人耳所能聽見的最小 聲音。列如:微風吹動的樹葉聲。

由於人耳在不同的頻率下對聲音強度的感度不同,最後經國際標準化組織訂定了人 耳聽覺曲線。如圖 1 所示。

圖 1 人耳聽覺模型曲線圖依據(ISO2003)。

(13)

13

3.3 力度記號(dynamic marks)

樂理上將力度強度由弱至強以力度記號表示,如表 2 所示[33]。

表 2 力度標語、力度記號與力度強度。

力度標語 力度記號 力度強度 Pianisissimo ppp 最弱

Pianissimo pp 甚弱 Piano p 弱 Mezzo piano mp 中弱

Mezzo forte mf 中強 Forte f 強 Fortissimo ff 甚強 Fortisissimo fff 最強

Forte piano fp 強後轉弱 Fortissimo

piano

ffp 甚強後轉弱

上述所表示強度之記號只是相對強度,而非固定的強度。f 和 p 的使用數量未限於三 個,而是依作曲家而訂定。我們將樂理有關力度之音樂術語整理如表 3。

3.4 節拍與聲音強弱之關係:

音樂在演奏時,聲音的強弱是有周期性的。因為強弱週期再現,所以將樂曲中音符 畫分成等長的部分,形成一個小節。而每個小節又分成幾個等長的小部分,我們稱為拍。

拍子依小節分為二拍子、三拍子、四拍子等等,其中:

1. 二拍子:即強音與弱音的交替出現。

2. 三拍子:即每三拍出現一強音,通常為舞蹈所常用。

3. 四拍子:即每四拍出現一強音。

(14)

14

表3:力度相關音樂術語,依據“標準音樂辭典”[33]。

音樂術語 涵義

Intensity 音強

音場中,音波的傳送通過直角的單位面積時,其單位時間的 流量之謂。流量記號是I,單位是dB。

Decibel 分貝

音強的計算單位。即十分之一貝爾(Bel)縮寫為dB。由欲測量 的音強(I),與特定標準音( )的比所求得。標準音係最小可聽 界限的音(1000Hz的純音)即以人耳最低限度可聽到的音強(音 壓0.0002 dyn/ ,波強 watt/ )為基準 音(0dB)。

Loudness 響度

隨著音的強度引起感覺上之數量變化。單位為phon

Phon 響度的單位(loudness level)。正常聽覺得人,對於某一音響強 度所判斷的1000Hz純音的音壓數值。

Dynamics 力度法

借音量的強弱變化賦予音樂表情的方法。其用來表示強弱變 化的基本記號與術語包括有pp、p、mp、mf、f、ff、crescendo、

diminuendo等。但依微妙的強弱操作賦予音樂有機性的表 情,則要完全看演奏家對樂曲的詮釋。…強弱力度的變化效 果,經由海頓與莫札特的時代,在貝多芬以降發展到巔峰,

而與速度法(agogics)同時成為音樂表現上最重要的表情手段 之一。

Dynamic mark 力度記號

表示音量強度的記號。縮寫或符號化者稱為力度記號、原文 使用者稱為力度標語,如表1所示。

(15)

15

4 系統架構

系統架構如下圖所示

圖2 力度分析系統整體架構圖

本文所提出之力度表現自動偵測系統之整體架構如圖2所示。首先,我們使用起音點 偵測(onset detection)技術將一首MP3音樂切分為一連串的樂音(notes)。接著我們利用以往 在樂句分析方面所提出的方法[34],將一連串的樂音群組化形成一連串的樂句。由於一 般樂譜的力度符號大多是以一個小節(meter)或半個小節為單位來標記,樂句與小節的對 應關係仍需進一步深入探討,本文以人工方式對樂句分析的結果選取小節的邊界。

在完成樂音與小節切分之後,我們接著計算每個樂音的音強(intensity)。由於MP3音樂的 基本編碼單位為音框(frames),而每秒鐘典型的44.1kHz取樣頻率的MP3音樂包括38.28125 個音框,我們可以計算每一個樂音n的平均音強 (n)

(1) (1)其中樂音n包含k個音框,MDCT[i,j]表示第i個音框的第j個頻帶之修正式離散餘弦轉換

(16)

16

係數。

而樂音n的最大音強 為

(2)

其中i =1 , 2 ,.., k,代表第i個音框,公式(2)亦即樂音n的k個組成音框中,音強最大的音框 之音強。

由於每種樂器ADSR(Attack, Decay, Sustain, Release)波封特性不同,樂音n的最大音強 (n)可能需要平滑化處理。所以我們採取連續f個音框平均音強的最大值來修正

(3)

其中i=1,2,…,k,表示每個樂音的力度實際感受會受到音高與樂器音色的差異而改變,所 以我們需要透過樂器識別(instrument identification)以及基頻偵測(F0 detection)技術來辨 識出每個樂音之音高與音色。本文所使用之基頻偵測技術請參考[34]一文。

得到每個樂音的音強、音高與音色之後,我們需根據音高與音色進行力度的感知正 規化,以修正聽者的實際力度感受。感知正規化方式在下一節中說明。

由於力度記號的標示一般是以一個小節或半個小節為主,本文目前以一小節力度辨 識為單位。我們對各種樂派、作曲家、演奏家的實際演奏錄音,參考其樂譜上的力度記 號,統計其6種力度(pp、p、mp、mf、f、ff)的分割切點。以感知正規化的樂音力度參考 力度分割點統計,決定每個樂音的力度強度,再彙總判斷出一個小節的6種力度強弱。

由於力度表現是音樂演奏表情詮釋的主要手法之一。我們未來將依作品、作曲家、演奏 家、樂派等劃分,進一步分析其力度表現的關聯法則,深入解讀其力度表現慣用手法。

(17)

17

5 力度感知正規化

如前文所述,力度是反應作曲家、演奏者以及聆賞者對音樂強弱的主觀詮釋與感知,

但我們由系統自動計算僅能求得客觀的每個樂音之音強。因此,我們首先考量音高與音 色兩個主要影響力度感受的因素,設計實驗來進行力度感知正規化。

z 不同音高對力度的影響:在不同的音高,相同的音強及音色下,每個樂音對實驗者 力度強弱的主觀感受。

z 不同音色對力度的影響:在不同樂器的音色下,相同的音強及音高,每個樂音對實 驗者力度強弱的主觀感受。

5.1 不同音高對力度的影響

我們使用 Overture 來進行實驗,固定使用鋼琴樂器產生 35 種具有相同音強(ff)不同 音高(E2 至 D7)之音符,每種音高產生 4 個相同 4 分音符。接著我們把力度強弱分成 7 種 等級(1~7,數字越大則力度越強),將各種不同音高的音符讓 5 位實驗者聆聽,由聽者依 據主觀力度感受來給予每種音高強度等級,結果如表 4。

表 4 35 種不同音高由 5 位實驗者感受力度強度之平均值。

E2 3.2 E3 5.4 E4 4.4 E5 4.8 E6 3.4 F2 3.8 F3 5.6 F4 4.6 F5 3.4 F6 3.2 G2 4 G3 6.2 G4 5.4 G5 4 G6 4 A2 4.4 A3 5 A4 5 A5 4.6 A6 4.2 B2 4.8 B3 4.6 B4 3.6 B5 5 B6 3.2 C3 4.6 C4 5.2 C5 3.4 C6 5 C7 2.6 D3 5.4 D4 5.6 D5 4.6 D6 4.2 D7 2.2

(18)

18

5.2 不同音色對力度的影響

我們使用產生具有相同音高,相同音強(ff),但不同樂器的 4 分音符,其中包含鋼琴 樂器、銅管樂器、鼓、簧管樂器等 18 種樂器。每種樂器產生 3 種音高音符(C3、D3、E3),

由聽者依據主觀感受來進行力度強度等級設定。

表5 6種樂器類別共18種音色由實驗者感受力度強度之平均值。

銅管樂

強度 等級

弦樂器 強度

等級

吹管樂

強度 等級 小號 2.875 大提琴 4.375 長笛 4.75 低音小

2.875 中提琴 4.75 短笛 5.5

伸縮小

1 小提琴 5.5 中音笛 5.125

Average 2.25 Average 4.875 Average 5.125 鋼琴樂

強度 等級

強度

等級

簧樂器 強度

等級 一般鋼

4.6 一般鼓 2.5 雙簧管 5.875

大鍵琴 4.75 大鼓 4.75 單簧管 5.5 電子琴 4 小鼓 2.5 低音管 3.625

Average 4.45 Average 3.25 Average 5

我們根據表4與表5的結果,對偵測到的每個樂音之音強乘上音高修正權值與音色修 正權值來進行感知正規化。

(19)

19

6 實驗

6.1實驗環境

在力度偵測實驗中我們的音樂有兩種來源:第一種是透過Overture軟體編輯五線譜,

產生MIDI音樂檔後使用YAMAHA XG100合成器轉為對應之MP3音樂檔。另一種是採用 實際的古典音樂演奏作品,包括Kempff、Pletnev、Dino Ciani、Backhaus、Gilels、Barenboim、

Serkin、Ashkenazy、Gulda、Roberts等10位著名鋼琴家演奏貝多芬的“月光”鋼琴奏鳴曲,

以及13首德布西的鋼琴作品。前者的優點在於我們可以控制音高、音長、音色(樂器)力度 曲譜設定等參數。後者讓我們可以對不同的作曲家/鋼琴家的詮釋進行比較分析。

表 6 展示了由 Overture 五線譜編輯軟體產生 pppp 至 ffff 10 種不同的 MIDI 強度,經由 Cool Edit 計算 Min、Max、Avg 三種力度能量與 MIDI 強度之對應關係。

表 6 Overture5 線譜編輯軟體關於力度符號設定之絕對能量。

Min RMS (db)

Max RMS (db)

Avg RMS (db)

MIDI 強度

(db)

pppp -85.1 -57.47 -62.64 30

ppp -77.49 -54.02 -58.38 40

pp -72.15 -50.03 -53.94 50

p -70.77 -46.82 -50.96 60

mp -68.81 -44.35 -48.23 70

mf -59.97 -41.81 -45.85 80

f -63.45 -39.74 -43.8 90

ff -56.32 -37.91 -41.97 100

fff -59.34 -36.25 -40.37 110

ffff -52.72 -34.74 -35.56 120

圖 3 Overture 五線譜編輯軟體的力度設定。

(20)

20

6.2 實驗結果與討論

在實驗中首先我們為了知道力度是否受部分外在因素而影響強度,在實驗中我們將 針對以下幾種可能影響聲音力度的因素深入探討並進行實驗。

z 演奏者的影響:在不同演奏家演奏下,相同的樂曲,力度強弱分佈範圍是否因演奏 者不同而受到嚴重影響。

z 最大音強音框數不同的影響:在相同的演奏家,相同的樂曲,力度分佈範圍是否受最 大音框不同而造成力度強弱結果的不同。

z 不同風格樂曲的影響:在相同的演奏家不同的作曲家下,力度分佈範圍是否受 曲子影響而有所不同。

第一個實驗我們量測 Overture 軟體合成的由 pppp 至 ffff10 種不同力度曲譜標示的樂 音音強之分貝值。實驗中音高為 C3,4 個 4 分音符、樂器為鋼琴、力度與 MIDI 強度對 應使用系統預設值(如圖 3 所示)。合成之樂音音強結果如表 5 所示,其中 0dB 參考基準 音強為 16 位元的正弦波最大能量。

各種力度強弱間距以最大音框能量或平均音框能量計算約在 2~4dB 之間。

第二個實驗我們分析貝多芬月光奏鳴曲三個樂章以及德布西 13 首鋼琴曲的實際彈 奏錄音之力度分佈。結果如圖 4 所示,pp 與 p 的音強分界約在-30~-40dB 之間,而 p 與 f 的音強分界約在-30~-20dB 之間。

(21)

21

圖 4 圖為月光奏鳴曲與德布西力度分佈相關比較。

第三個實驗我們比較 10 位鋼琴家彈奏貝多芬月光奏鳴曲的力度分佈。結果如圖 5 所 示。力度分界點大致上相當一致,除了 Backhaus 彈奏 pp 特別強而 Roberts 彈奏 pp 特別 弱以外。我們以 10 位鋼琴家平均力度分界值為基準,對 10 位演奏家的作品力度進行偵 測、誤差如表 7 所示。

圖 5 圖為月光奏鳴曲十位演奏家力度分佈相關比較。

(22)

22

表 7 表 6 為十位演奏家及其平均力度所佔之誤差百分比。

pp p f ff

Kempff 2.5% 1.25% 1.5% 2.5%

Pletnev 0% 3.75% 1.5% 2.5%

Dino Ciani 6.25% 3.75% 1% 1.25%

Backhaus 17.5% 18.75% 2.75% 1.25%

Gilels 3.75% 3.75% 0.25% 0%

Barenboim 1.25% 0% 1.5% 0%

Serkin 2.5% 8.75% 2.75% 3.75%

Ashkenazy 0% 0% 2.75% 2.5%

Gulda 6.25% 6.25% 0.25% 0%

Roberts 28.75% 28.75% 1.5% 1.25%

第 4 個實驗我們考慮在最大音強量測時,公式(2)中的 f 值也就是連續音框的影響。

不同 f 個音框數的設定,對 pp-p、p-f、f-ff 等力度分界的影響結果分別如圖 6、圖 7 與 圖 8 所示,確實有極大的差異,各種不同設定對最終準確率的影響由於實驗繁複仍在進 行中,以求得最佳 f 值設定。

圖 6 月光奏鳴曲十位演奏家不同 Frame 取樣下第一樂章力度邊界值折線圖。

(23)

23

圖 7 月光奏鳴曲十位演奏家不同 Frame 取樣下第二樂章力度邊界值折線圖。

圖 8 月光奏鳴曲十位演奏家不同 Frame 取樣下第三樂章力度邊界值折線圖。

(24)

24

圖 9 月光奏鳴曲十位演奏家不同 Frame 取樣下平均力度邊界值折線圖。

最後我們對貝多芬作品給愛麗絲進行 MP3 音樂產生全曲之力度表情符號標記。分別 如圖 10 與圖 11 所示。

圖 10 貝多芬給愛麗絲產生全曲之力度表情符號標記。

(25)

25

圖 11 貝多芬給愛麗絲產生全曲之力度表情符號標記。

7 結論

在本文中,我們提出力度自動偵測的技術可對一首未知的 MP3 音樂產生全曲之力度 表情符號標記。

在未來工作方面,我們仍有許多系統參數需要調整其設定,此外,同一個演奏家不 同樂派的作品力度分析仍待進行。而作品/演奏家/作品家的力度表現關聯分析是我們未來 的探討重心。

(26)

26

References

[1]. E. Antti and A. Klapuri, ”Musical instrument recognition using cepstral coefficients and temporal features,”,IEEE International Conference on Acoustics, Speech, and Signal Processing ,Vol. 2 pp.753-756 ,2000.

[2]. J.P. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies, and M. Sandler, “A tutorial on onset detection in musical signals,” IEEE Transactions on Speech and Audio Processing, vol.

13, no. 5, pp. 1035–1047, 2005.1213

[3]. J.P. Bello, C. Duxbury, M. Davies, and M. Sandler, “On the use of

phase and energy for musical onset detection in the complex domain, ” IEEE Signal Processing Letters, vol. 11, no. 6, pp. 553–556, 2004.

[4]. N. Collins, “A comparison of sound onset detection algorithms with emphasis on psychoacoustically motivated detection functions,” in 118th Convention of the Audio Engineering Society, Barcelona, Spain, 2005.

[5]. S. Dixon, “Learning to detect onsets of acoustic piano tones,” in Proceedings of the MOSART Workshop on Current Directions in Computer Music Research, Barcelona, Spain, 2001, pp.

147–151, Audiovisual Institute, Pompeu Fabra University.

[6]. S. Dixon, “Onset detection revisited,” Proc. of the 9th Int. Conference on Digital Audio Effects (DAFx’06), Montreal, Canada, September 18-20, 2006.

[7]. S. Dixon, “Automatic Extraction of Tempo and Beat From Expressive Performances,”J. New Music Research, 30, 1, 2001,39-58.

[8]. S. Dixon, “Real Time Tracking and Visualisation of Musical Expression,”ICMAI 2002:

Proceedings of the 2nd International Conference on Music and Artificial Intelligence, pages 58-69, LNAI 2445,Springer-Verlag, 2002

[9]. S. Dixon, “On the analysis of musical expression in audio signals,” Storage Retrival for Media Databases, 2003.

[10]. J.S. Downie, “2005 MIREX contest results – audio onset

(27)

27

detection,” www.music-ir.org/evaluation/mirexresults/ audio-onset, 2005.

[11]. C. Duxbury, M. Sandler, and M. Davies, “A hybrid approach to musical note onset detection,”

in Proceedings of the 5th International Conference on Digital Audio Effects, 2002, pp. 33–38.

[12]. C. Duxbury, J.P. Bello, M. Davies, and M. Sandler, “A combined phase and amplitude based approach to onset detection for audio segmentation,” in Proceedings of the 4th European Workshop on Image Analysis for Multimedia Interactive Services (WIAMIS-03), 2003, pp.

275–280.

[13]. A. De Cheveigne, “Separation of Concurrent Harmonic Sound: Fundanmental Frequency Estimation and Time-domain Cancellation Model of Auditory Processing,” Journal of The Acoustic Society of America , 1993(6) ,3271-3290

[14]. J. Foote and S. Uchihashi, “The Beat Spectrum:a new approach to rhythmic analysis,” in Int.

Conf. on Multimedia & Expo. IEEE, 2001.

[15]. W. Goebl and S.Dixon, “Analysis of tempo classes in performances of Mozart sonatas,”

ISSCM & ICCM, Jyväskylä, Finland 2001.

[16]. M. Goto and Y. Muraoka, “A Beat Tracking System for Acoustic Signals of Music,” ACM Multimedia Proceedings (Second ACM International Conference on Multimedia), pp.365-372, October 1994.

[17]. M. Goto, “A Real-time Music Scene Description System: Predominant-F0 Estimation for Detecting Melody and Bass Lines in Real-world Audio Signals,” Speech Communication (ISCA Journal), Vol.43, No.4, pp.311-329, September 2004.

[18]. J. M. Grey , “Multidimensional perceptual scaling of musical timbres”,The Journal of the Acoustical Society of America, Vol.61, Issue 5, pp. 1270-1277 ,1977

[19]. T. Joseph, S.Marc and M.Lorc’an Mac, “Implementing loudness models in matlab,” Proc. Of the 7th Int. Conference on Digital Audio Effects (DAFx-04), Naples,Italy,October 5-8,2004.

[20]. A. Klapuri, “Sound onset detection by applying psychoacoustic knowledge,” in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, Phoenix,

(28)

28

Arizona, 1999.

[21]. A. Klapuri, “Multiple Fundamental Frequency Estimation by Harmonicity and Spectral Smoothness, ” IEEE Transactions in Speech and Audio Processing , (11)6:804-816 ,2000

[22]. I. Kaminsky, A. Materka, ”Automatic source identification of monophonic musical instrumentsounds, ” IEEE International Conference on Neural Networks, 1995. Vol 1, PP.

189-194 .

[23]. P. Leveau, L. Daudet, and G. Richard, “Methodology and tools for the evaluation of automatic onset detection algorithms in music,” In Proceedings of the International Conference on Music Information Retrieval ISMIR 2004, 2004.

[24]. A. Lahat, R.J. Niederjohn, and D.A. Krubsack, “A spectral autocorrelation method for measurement of the fundamental frequency of noise-corrupted speech,” IEEE Transactions on Acoustics, Speech and Signal Processing, 35(6):741–750. 1987

[25]. M. McKinney and D. Moelants., ”Extracting the perceptual tempo from music,” In Proceedings of the International Conference on Music Information Retrieval, 2004.

from music,”

[26]. R. C. Mather, and J. W. Beauchamp , “Fundamental Frequency Estimation of Musical Signals Using A Two-way Mismatch, ”Journal of The Acoustic Society of America , 95:2254-2263 ,1993

[27]. A.M. Noll, “Cepstrum Pitch Determination,” Journal of The Acoustic Society of America ,41(2) :293-309 , 1967

[28]. E. Scheirer, “Tempo and beat analysis of acoustic musical signals,” Journal of the .Acoustical Society of America, vol. 103, no. 1, pp. 588,601, Jan. 1998.

[29]. J. Seppänen, “Tatum grid analysis of musical signal,” IEEEWorkshop on Applications of Signal Processing to Audio and Acoustics 2001.

[30]. G. Tzanetakis and P. Cook, “Musical genre classification of audio signals,” IEEE Transactions on Speech and Audio Processing, July 2002.

(29)

29

[31]. G. Tzanetakis and P. Cook, “Human perception and computer extraction of musical beat strength,” Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), Hamburg, Germany, September 26-28, 2002.

[32]. J. Vos and R. Rasch, “The perceptual onset of musical tones,” Perception and Psychophysics, vol. 29, no. 4, pp. 323–335, 1981.

[33]. 標準音樂辭典,音樂之友社編,林勝儀譯,美樂出版社,1999。

[34]. 郭威儀、劉志俊, ”MP3音樂物件之自動特徵值抽取及時序上的分段,”二一世紀數位生活與 網際網路研討會,2001

(30)

30

附錄 A.

Dynamics [英] Dynamik[德]dunamique [法] dinamica [義] 力度法,強弱法

借音量的強弱變化賦予音樂表情的方法。其用來表示強弱變化的基本記號與術語包 括有,pp(pianissimo)p(pi-ano),mp(mezzo piano),mf(mezzo- forte),f(forte),ff(fortissimo),

crecendo(漸強)與 diminuendo(漸弱)等。但依微妙的強弱操作賦予音樂有機性的表情,則 要完全看演奏家對樂曲的詮釋。

16 世紀起,雖已可看到把力度法的指示記在樂譜上的例子,但並未普遍。一直到 17 世紀以後,強 forte 與弱 piano 的指示才開始一般化。進入 18 世紀後,開始採用一種松葉 形的記號,用來表示漸強與漸弱。但事實上,此種漸強與漸弱的本體表現,早在此之前 就已經存在。尤其是曼汗樂派的音樂中最喜歡使用此種漸強與漸弱的效果,以致成為其 風格的表徵要素。強弱力度的變化效果,經由海頓與莫札特的時代,在貝多芬以降發展 到顛峰,而與「速度法」(ago-

gics)同時成為音樂表現上最重要的表情手段之一。

Dynamil[德] 力度法。

Dynamikzeichen[德] 力度記號。

Dynamique [法] 力度法。

(31)

31

附錄 B.

貝多芬第1號奏鳴曲

樂章 主題 力度 主題譜

一 1 p

2 pÆf

二 1 P

2 sf

三 1 P

2 p

四 1 pÆfÆp Æf 2 ff

3 p

4 ff

貝多芬第 2 號奏鳴曲

(32)

32

樂章 主題 力度 主題譜

一 1 p

2 f

二 1 p

2 p

三 1 p

2 p

四 1 p

2 p

3 ff

貝多芬第3號奏鳴曲

(33)

33

樂章 主題 力度 主題譜

一 1 p

2 p

3

二 1 p

2 p

三 1 p

四 1 p

2 p

貝多芬第4號奏鳴曲

樂章 主題 力度 主題譜

一 1 p

2 ff

(34)

34

3

二 1 p

2

三 1

四 1 p

2 f

3 f

貝多芬第 5 號奏鳴曲 樂

章 主 題

力 度

主題譜

一 1 f

(35)

35

2 f

二 1 p

2 p p

三 1 p

2 p

貝多芬第6號奏鳴曲 樂

章 主 題

力 度

主題譜

一 1

2

(36)

36

3

4

二 1

三 1

2

貝多芬第7號奏鳴曲 樂

章 主 題

力 度

主題譜

一 1

2

(37)

37

3

二 1

2

3

三 1

四 1

2

(38)

38

3

貝多芬第8號奏鳴曲

樂章 主題 力度 主題譜

一 1

2

3

4

5

二 1 p

(39)

39

2 pp

三 1 p

2 p

3 p

貝多芬第 9 號奏鳴曲

樂章 主題 力度 主題譜

一 1

2

二 1

2

(40)

40

三 1

2

貝多芬第 10 號奏鳴曲

樂章 主題 力度 主題譜

一 1

2

二 1

三 1

(41)

41

2

3

貝多芬第 11 號奏鳴曲 樂

章 主 題

力 度

主題譜

一 1

2

二 1

2

(42)

42

三 1

四 1

2

3

貝多芬第 12 號奏鳴曲

樂章 主題 力度 主題譜

一 1

二 1

2

(43)

43

三 1

四 1

貝多芬第 13 號奏鳴曲 樂

章 主 題

力 度

主題譜

一 1

2

二 1

三 1

2

3

貝多芬第 14 號奏鳴曲

(44)

44

樂 主 力 章 題 度

主題譜

一 1

2

二 1

2

三 5

6

(45)

45

7

貝多芬第 15 號奏鳴曲

樂章 主題 力度 主題譜

一 1

2

二 1

2

三 1

(46)

46

2

四 1

2

3

貝多芬第 16 號奏鳴曲

樂章 主題 力度 主題譜

一 1

2

二 1

2

三 1

(47)

47

2

貝多芬第 17 號奏鳴曲 樂

章 主 題

力 度

主題譜

一 1

2

3

二 1

2

(48)

48

三 1

2

貝多芬第 18 號奏鳴曲

樂章 主題 力度 主題譜

一 1

2

二 1

2

(49)

49

三 1

2

四 1

2

貝多芬第 19 號奏鳴曲

樂章 主題 力度 主題譜

一 1

2

二 1

2

貝多芬第 20 號奏鳴曲

樂 主 力 主題譜

(50)

50

章 題 度 一 1

2

二 1

2

3

貝多芬第 21 號奏鳴曲

樂章 主題 力度 主題譜

一 1

(51)

51

2

二 1

2

3

4

貝多芬第 22 號奏鳴曲

樂章 主題 力度 主題譜

一 1

(52)

52

2

二 1

貝多芬第 23 號奏鳴曲 樂

章 主 題

力 度

主題譜

一 1

2

3

二 1

三 1

2

(53)

53

3

貝多芬第 24 號奏鳴曲 樂

章 主 題

力 度

主題譜

一 1

2

二 1

2

貝多芬第 25 號奏鳴曲 樂

章 主 題

力 度

主題譜

一 1

(54)

54

2

二 1

2

三 1

2

3

貝多芬第 26 號奏鳴曲

樂章 主題 力度 主題譜

一 1

2

(55)

55

3

二 1

2

三 1

2

貝多芬第 27 號奏鳴曲 樂

章 主 題

力 度

主題譜

一 1

2

(56)

56

二 1

2

貝多芬第 28 號奏鳴曲 樂

章 主 題

力 度

主題譜

一 1

2

二 1

2

(57)

57

三 1

2

3

貝多芬第 29 號奏鳴曲 一 1

2

二 1

2

(58)

58

三 1

2

3

貝多芬第 31 號奏鳴曲

樂章 主題 力度 主題譜

一 1

2

二 1

三 1

(59)

59

2

3

貝多芬第 32 號奏鳴曲

樂章 主題 力度 主題譜

一 1

2

3

(60)

60

二 1

(61)

1

參考文獻

相關文件

Soille, “Watershed in Digital Spaces: An Efficient Algorithm Based on Immersion Simulations,” IEEE Transactions on Pattern Analysis and Machine Intelligence,

F., “A neural network structure for vector quantizers”, IEEE International Sympoisum, Vol. et al., “Error surfaces for multi-layer perceptrons”, IEEE Transactions on

Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference

D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,

[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference

[7]Jerome M .Shapiro “Embedded Image Using Zerotree of Wavelet Coefficients”IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL,41,NO.12,DECEMBER 1993. [8 ]Amir Said Willam

Jones, "Rapid Object Detection Using a Boosted Cascade of Simple Features," IEEE Computer Society Conference on Computer Vision and Pattern Recognition,

Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,