• 沒有找到結果。

第一章節中提到過,聲音的特徵值在時間尺度上有不同的大小,小的特徵在 幾毫秒內就可以計算出來,大的特徵通常可由小的特徵的變化或統計來取得,一 般人所感知到的音樂特徵屬於大尺度的範圍。關於如何進行特徵值萃取?聲音的 本質為空氣的壓力變化所產生的波動,此壓力稱為聲壓,其所產生的波則稱為聲 波。實際上聲波為一種類比訊號,是連續不間斷的訊號,利用電聲換能器之偵測 則可以將聲波的壓力變化作取樣,改以電壓變化的樣本點記錄於電腦中,此時也 會轉換成為一種離散的數位訊號。聲壓隨時間的變化趨勢稱為此音訊的波形,如 圖 2.1.1,樣本點間彼此的時間間隔之倒數即為此訊號的取樣頻率(Sampling frequency),取樣頻率越高則訊號越接近原始的類比訊號。

圖 2.1.1 音訊的時域波形

由於音訊的特徵多為隨時間變化的數值,對於音訊分析現在多半採用音框 (frame)化的分析方式,以一小群鄰近的樣本點代表某一時刻訊號的波形狀態,稱 為一個音框,如圖 2.1.2 , 圖 2.1.3。

圖 2.1.2 音訊之音框化分析示意圖

圖 2.1.3 音框示意圖

X[n]為原始訊號,xm[n]為的 m 個音框的訊號,N 為音框樣本點數目或稱音框長 度,n 為音框時域樣本點的索引。若定義已音框中心樣本點的時間位置為該音框 的時間位置,則音框化的分析方式使得音訊在每個時刻皆可以以一個音框來表示 訊號的瞬間狀態,如此一來便可以對音訊進行短時距的分析。對於聲音訊號的分 析,通常可以分為時域(time domain)與頻域(frequency domain)的方法,時域方法 如音訊波形的震幅與其對應的能量,頻域方法則為音訊波形的頻率成分分佈情 形。

2.2 短時距短時距短時距頻譜短時距頻譜頻譜 頻譜

圖 2.2.2 連續時間的頻譜圖

窗函數的用意為改善音框訊號在計算頻譜時的邊界效應,使頻譜的數值對比更 好,常用的窗函數為漢明窗(Hamming window),圖形如圖 2.2.3,數學定義如下。

0,1,2,..., 1

[ ] 0.54 0.46 cos 2 1

n N

w n n

N π

=

 

= − ×  

 

(3)

圖 2.2.3 Hamming Window

頻譜的內容和聲音訊號的音色有密切關係,包含聲音訊號的基頻、泛音成

Brightness Centroid of the short-time Fourier amplitude spectrum.

Bandwidth Amplitude weighted average of the differences between the spectral components and the centroid.

Roll off 95th percentile of the spectral distribution.

Spectral Flux

2-Norm distance of the frame-to-frame spectral amplitude difference.

Spectral Contrast Features

Sub-band Peak

Average of a percent of the largest amplitude values in the spectrum of each sub-band.

Sub-band Valley

Average of a percent of the lowest amplitude values in the spectrum of each sub-band.

Sub-band Contrast

The difference between the Peak and Valley in each sub-band.

由表 2.2.1 可以了解頻譜分析主要分為兩大項,分別為頻譜的形狀與頻譜的

2.3 Pitch Class Profile (PCP)

圖 2.3.1 單一音框的音調層級強度分佈圖

圖 2.3.2 連續時間的音調層級強度分佈圖

2.4 Gaussian Mixture Model (GMM)

基本定義基本定義基本定義基本定義:::假設一個特定種類的量測值如特徵向量,是由一個可以描述該種: 類分部的機率密度函數(Probability density function)所產生,該機率密度說明該種 類各種量測值出現的機率為何。一般而言,高斯分佈的機率密度為一種常見的分 佈,一維的狀況下數學表示如下:

-1/ 2(( ) / )2

( ) 1 e

2

p x

x µ σ

πσ

=

(6)

其分佈圖形如圖 2.4.1:

圖 2.4.1 高斯分部

其中有兩個重要的參數,μ和σ,μ為期望值(Expectation value),其為平均數,

位 於 高 斯 分 佈 的 中 央 , σ2 稱 為 變 異 數 (Variance) , 而 σ 為 標 準 差 (Standard deviation),其值的大小和分佈的集中程度有關,值愈小表示越集中。定義如下:

[ ] x xp x dx ( )

µ

−∞

≡ Ε = ∫

(7)

2 2

1 1 1 2 2 2 3 3 3

( , ) ( , ; , ) ( , ; , ) ( , ; , )

p x y = α g x y µ Σ + α g x y µ Σ + α g x y µ Σ

(12)

圖 2.4.2 混和高斯分部

只要知道屬於每個種類的機率密度函數,很容易就可以比較同一個量測值,對應 每個種類的機率的大小,進而找出可能性最大的種類為何,但由於一般待測量的 數據資料,並沒有辦法得知其實際機率密度函數,找出一進似的機率密度函數的 方式如下:

1. 對於每個類別,由一個初始的猜測:給定初始的高斯函數疊加個數,及每個 高斯函數的參數,產生一個初始的 GMM。

2. 利用已經設定好的數據,即訓練樣本,利用 GMM 計算分類結果,找出辨識 率。接下來的目標就是要使這個辨識率的值增加,辨識率越高代表這個分佈 模型越能表示這些訓練樣本。

3. 以微分求極值的方式,由舊有的參數計算出一組新的 GMM 參數。

4. 重複步驟 2~3 疊代,直到辨識率收斂到某一個極值。

此法稱為 Maximum Likelihood Estimation (MLE) 或 Expectation Maximization (EM),經由反覆疊代,找出一組最佳化的 GMM 參數,當作代表這些數據樣本 的機率密度函數。對於未知種類的測試樣本,簡單比較其值對於各個種類的機率 值大小(屬於該種類高斯分佈位置的高度),就可以找出最有可能的種類為何,如 此便設計了一個 GMM 分類器。

註 註 註

註:疊代過程中並不是一定會收斂到全局最大值(Global Maximum),也有可能會 收斂到局部最大值(Local Maximum)。所以並不是所有的數據 GMM 都可以有很 好的表現,這和初始設定的參數也都有關係,如高斯函數疊加的數目…等,想要 有較好的結果,訓練樣本一定要足夠。

三 三 三

三、 、 、 、音樂與情緒的關連模型 音樂與情緒的關連模型 音樂與情緒的關連模型 音樂與情緒的關連模型

關於音樂與情緒的互相聯結,有部分心理學文獻針對其作出討論並提出相關 模型,較常被引用的文獻如[11]、[12]、[13]、[14]、[15]。一般而言在音樂與情 緒的模型中,抽象的情緒必須和量化的特徵強度有明顯對應的相互關係,如此才 可以應用於音樂情緒辨識的系統中。對於種類較多的情緒分類,較無法找出各個 種類或形容詞和特徵強度的相互關係,應用上較不方便,如文獻[11]為 Hevner 提出的音樂情緒模型,其為針對音樂與情緒的第一篇相關研究文獻,模型圖可參 考圖 3.1.1。共分為八大種類的情緒,各個種類又細分幾種不同的形容詞組,不 同形容詞組間的相互關係較不明顯。

圖 3.1.1 Hevner 的音樂情緒模型

文獻[13]說明由 Thayer 提出的情緒模型,如圖 3.1.2,此模型分為四個象限,

分別為(1)激勵人心的,(2)舒適的,(3)焦躁憤怒的,(4)使人消沉的。橫軸的定義 為壓力,縱軸的定義為能量。類別只有四種但是對於普遍的情緒反應皆能做出概 要的區分。應用於音樂情緒的系統中也相當合適,橫軸的定義為音樂帶給聽者的 抽象壓力,縱軸的定義為音樂帶給聽者的抽象能量,一些簡單的音樂特徵如:節 奏、音色、音量,不難發現這些特徵強度和該模型中的橫軸縱軸有相互的關係。

如:快速的節奏和較大的音量通常代表音樂的能量較高,慢速的節奏和不和諧的 音色則會帶給聽者壓力。

圖 3.1.2 Thayer 的情緒模型

四 四 四

四、 、 、 、系統架構 系統架構 系統架構 系統架構

4.1 設計概念設計概念設計概念 設計概念

以往音樂情緒辨識的研究,多半是對於整段音樂訊號做出一個概要性的分類 並給予單一標記,如文獻[1]、[4]、[5]、[9]、[16]。其中文獻[4]也有進行情緒追 蹤的相關研究,文中假設古典音樂中當音量強度有較大的改變時通常也會對應到 情緒的轉折,利用這樣的經驗法則先找出可能的情緒變化段落位置,再假設每一 個段落為穩定的情緒並且進行音樂情緒辨識。文獻[10]提出以 SVM 預測聽者當 下的情緒反應並以機率的條狀圖表示,不同情緒對應到不同的顏色以增強使用者 的使用經驗。有別於前述的相關文獻,本系統以情緒平面上連續的軌跡變化來代 表預測的聽者情緒反應,連續的變化過程將更能貼近使用者的情緒反應,而以情 緒平面作為預測介面的優點為使用者可以更清楚了解各種不同情緒的相對關係。

考量人類的感知系統,除了聽完音樂後的概要結論,其在聆聽音樂的當下即 會有一些相對的情緒反應產生,這比較接近為一個連續變化的過程,聽者的情緒 隨著音樂的進行而有相對的改變。為了模擬聽覺感知系統並加強聽者的感受,則 需要建構一個連續變化的追蹤系統介面,將隨時間變化的音框訊號進行特徵萃 取,計算各個音框的特徵內容是否會造成特殊情緒的累積,如不和諧的音色會造 成愉悅感的減低,節奏的速度加快通常會使聽者感到興奮…等。連續的變化的計 分過程只考慮當下往前一段時間內所累積的情緒分數,如同一般聽者在聆聽音樂 時,某一時刻的情緒通常為離該時刻最接近的一段時間內之音樂內容所影響。若 將此情緒變化的軌跡於二維的情緒平面中顯示,則如圖 4.1.1。

圖 4.1.1 系統介面示意圖

以 Thayer 的二維度情緒模型為例,以點狀指標代表聽者當下的情緒於情緒 平面的位置,考慮一開始聆聽音樂並無特殊的情緒,所以聽者的情緒指標初始位 置為情緒平面的左下角位置。隨著音樂的進行,聽者受到音樂影響而造成情緒指 標的移動,如圖 4.1.1 紅色線段所示。

此外;由於音樂與情緒的相互關係相當複雜,而本研究針對單純音樂內容作 為分析對象,因此有基本的假設與前提必須說明:(1) 本研究忽略歌詞的影響,

聽者測試只考慮音樂性特徵對聽者的影響。(2) 心理情緒也常和個人經歷和記憶 有關,如聽到 Celine Dion 的 My Heart Will Go On 會讓大多數人想到鐵達尼號的 電影劇情而對情緒產生了音樂內容以外的影響,所以聽者測試時必須排除這方面 的可能,可以利用簡單的問卷盡量使聽者和有相關經驗的音樂分離。

4.2 系統架構系統架構系統架構 系統架構

本文系統使用的設計程式為 MATLAB,系統的詳細架構主要分為下列幾個 部分,方塊流程圖如圖 4.2.1。

圖 4.2.1 系統流程方塊圖

系統架構主要可以分為訓練模式與使用者模式,其流程分別以淡藍色和紅色 表示,詳細流程說明如下:

(1) 音訊輸入

訓練模式中,訓練音訊的規格採用 wave 格式之音樂檔案,取樣頻率 14700Hz,

取樣解析度 16-bits,單聲道,作為基本的系統訓練與測試,採用 30 秒為片段 的音樂並且附有單一情緒類別的標記,詳細說明請參考 4.3 節。使用者模式中 音訊檔案格式相同,長度視檔案而定。

取樣解析度 16-bits,單聲道,作為基本的系統訓練與測試,採用 30 秒為片段 的音樂並且附有單一情緒類別的標記,詳細說明請參考 4.3 節。使用者模式中 音訊檔案格式相同,長度視檔案而定。

相關文件