• 沒有找到結果。

Gaussian Mixture Model (GMM)

基本定義基本定義基本定義基本定義:::假設一個特定種類的量測值如特徵向量,是由一個可以描述該種: 類分部的機率密度函數(Probability density function)所產生,該機率密度說明該種 類各種量測值出現的機率為何。一般而言,高斯分佈的機率密度為一種常見的分 佈,一維的狀況下數學表示如下:

-1/ 2(( ) / )2

( ) 1 e

2

p x

x µ σ

πσ

=

(6)

其分佈圖形如圖 2.4.1:

圖 2.4.1 高斯分部

其中有兩個重要的參數,μ和σ,μ為期望值(Expectation value),其為平均數,

位 於 高 斯 分 佈 的 中 央 , σ2 稱 為 變 異 數 (Variance) , 而 σ 為 標 準 差 (Standard deviation),其值的大小和分佈的集中程度有關,值愈小表示越集中。定義如下:

[ ] x xp x dx ( )

µ

−∞

≡ Ε = ∫

(7)

2 2

1 1 1 2 2 2 3 3 3

( , ) ( , ; , ) ( , ; , ) ( , ; , )

p x y = α g x y µ Σ + α g x y µ Σ + α g x y µ Σ

(12)

圖 2.4.2 混和高斯分部

只要知道屬於每個種類的機率密度函數,很容易就可以比較同一個量測值,對應 每個種類的機率的大小,進而找出可能性最大的種類為何,但由於一般待測量的 數據資料,並沒有辦法得知其實際機率密度函數,找出一進似的機率密度函數的 方式如下:

1. 對於每個類別,由一個初始的猜測:給定初始的高斯函數疊加個數,及每個 高斯函數的參數,產生一個初始的 GMM。

2. 利用已經設定好的數據,即訓練樣本,利用 GMM 計算分類結果,找出辨識 率。接下來的目標就是要使這個辨識率的值增加,辨識率越高代表這個分佈 模型越能表示這些訓練樣本。

3. 以微分求極值的方式,由舊有的參數計算出一組新的 GMM 參數。

4. 重複步驟 2~3 疊代,直到辨識率收斂到某一個極值。

此法稱為 Maximum Likelihood Estimation (MLE) 或 Expectation Maximization (EM),經由反覆疊代,找出一組最佳化的 GMM 參數,當作代表這些數據樣本 的機率密度函數。對於未知種類的測試樣本,簡單比較其值對於各個種類的機率 值大小(屬於該種類高斯分佈位置的高度),就可以找出最有可能的種類為何,如 此便設計了一個 GMM 分類器。

註 註 註

註:疊代過程中並不是一定會收斂到全局最大值(Global Maximum),也有可能會 收斂到局部最大值(Local Maximum)。所以並不是所有的數據 GMM 都可以有很 好的表現,這和初始設定的參數也都有關係,如高斯函數疊加的數目…等,想要 有較好的結果,訓練樣本一定要足夠。

三 三 三

三、 、 、 、音樂與情緒的關連模型 音樂與情緒的關連模型 音樂與情緒的關連模型 音樂與情緒的關連模型

關於音樂與情緒的互相聯結,有部分心理學文獻針對其作出討論並提出相關 模型,較常被引用的文獻如[11]、[12]、[13]、[14]、[15]。一般而言在音樂與情 緒的模型中,抽象的情緒必須和量化的特徵強度有明顯對應的相互關係,如此才 可以應用於音樂情緒辨識的系統中。對於種類較多的情緒分類,較無法找出各個 種類或形容詞和特徵強度的相互關係,應用上較不方便,如文獻[11]為 Hevner 提出的音樂情緒模型,其為針對音樂與情緒的第一篇相關研究文獻,模型圖可參 考圖 3.1.1。共分為八大種類的情緒,各個種類又細分幾種不同的形容詞組,不 同形容詞組間的相互關係較不明顯。

圖 3.1.1 Hevner 的音樂情緒模型

文獻[13]說明由 Thayer 提出的情緒模型,如圖 3.1.2,此模型分為四個象限,

分別為(1)激勵人心的,(2)舒適的,(3)焦躁憤怒的,(4)使人消沉的。橫軸的定義 為壓力,縱軸的定義為能量。類別只有四種但是對於普遍的情緒反應皆能做出概 要的區分。應用於音樂情緒的系統中也相當合適,橫軸的定義為音樂帶給聽者的 抽象壓力,縱軸的定義為音樂帶給聽者的抽象能量,一些簡單的音樂特徵如:節 奏、音色、音量,不難發現這些特徵強度和該模型中的橫軸縱軸有相互的關係。

如:快速的節奏和較大的音量通常代表音樂的能量較高,慢速的節奏和不和諧的 音色則會帶給聽者壓力。

圖 3.1.2 Thayer 的情緒模型

四 四 四

四、 、 、 、系統架構 系統架構 系統架構 系統架構

相關文件