類別可能性辨識

第三章、基於機率之連續影像情緒辨識

3.3. 類別可能性

3.3.1. 類別可能性辨識

RVM 保有 SVM 分類準確性高與運算速度快之優點，其亦改善 SVM 之缺點，

如本論文 1.2.3 節所述之 RVM 其中兩個特性：使用 Bayesian probabilistic framework 學習法則，以迭代的方式學習(1-2)辨識模型之權重，得到對應之訓練樣本做為 RV 的 RVM，能夠建立比 SVM 更為稀疏之模型，大多數之權重將被設為零，使得 RVM 之有效 kernel function 數遠少於 SVM，執行速度方面明顯的提升，且辨識率仍不亞於 SVM；另外，RVM 可以利用適當之分佈模型為基礎，取得 Likelihood 函數，決定每一個類別之 Likelihood，對於不確定類別之特徵，能夠有較精準之判斷。基於上述 RVM 之特性，本研究將分別以距離特徵與位移特徵，訓練兩種不同之 RVM 分類器，最後再將二者進行融合，如此能夠有效提升情緒辨識之效能。本節(3.3.1 節)將詳細說明 RVM 分類器應用於情緒 Likelihood 辨識之演算法，以及分類器融合之方法與策略。

a. RVM 分類器演算法

事實上，RVM 本質為兩類分類器，訓練分類器時以兩兩類別做訓練，最後再將訓練結果進行耦合(Coupling)，形成多類之 RVM 分類器。以下就 RVM 訓練兩類分類器之方法做說明與推導。

假設給定一組訓練資料為{𝐱_n, t_n}_n=1^N ，其中𝐱_n代表幾何特徵之特徵向量，t_n代

43 其中本研究選擇 Radial basis function (RBF)做為 Kernel function，如(3-4)所示，

其能夠對非線性高維度訓練樣本做有效之處理，且此 Kernel function 僅有參數σ需做調整，計算較為容易。

K(𝐱, 𝐱_i ) = exp (−‖𝐱 − 𝐱_i‖²

2σ² ) , i = 1, … , N, (3 − 4) 其中本研究以交叉驗證之方式對訓練資料做測試，取得最佳之σ，以此 kernel function 將訓練資料映射至可切割之維度空間做分類。藉由 Bernoulli distribution 取得 Likelihood function P(𝐭|𝐰)，對特徵向量做情緒 Likelihood 之辨識，如(3-5) 所示，

RVM 以(3-5)對𝐰做估測，然而，若直接使用 Maximum likelihood 之方法估測𝐰，往往導致 Over-fitting 之情況發生，亦即使大部份之權重非零。為了避免此情況發生，必須對𝐰加以限制。在此限制𝐰機率分佈應為落在 0 周圍之高斯分佈 (Zero-mean Gaussian distribution) 𝒩(∙)，如(3-5)所示，

p(𝐰|𝛂) = ∏ 𝒩(w_i

其中 𝛂為事前權重(prior weight)分佈。事後權重(posterior weight)𝐰可由以下過程解之。

Step 1. 將p(𝐰|𝐭, 𝛂)以 log 形式表示。

假設𝛂已知，事後權重(posterior weight)條件機率分佈，可由貝式定理，改寫為如(3-7)所示，

p(𝐰|𝐭, 𝛂) =P(𝐭|𝐰)p(𝐰|𝛂)

p(𝐭|𝛂) , (3 − 7) 由(3-7)得知p(𝐰|𝐭, 𝛂) ∝ P(𝐭|𝐰)p(𝐰|𝛂)，可藉由解(3-8)取得𝐰_MP，

𝐰_MP= arg max

w p(𝐰|𝐭, 𝛂) = arg max

w P(𝐭|𝐰)p(𝐰|𝛂)

= arg max

w log [P(𝐭|𝐰)p(𝐰|𝛂)], (3 − 8) 取 log 後之P(𝐭|𝐰)p(𝐰|𝛂)，如(3-9)所示，

log[P(𝐭|𝐰)p(𝐰|𝛂)]

= ∑[t_nlog y_n+ (1 − t_n)log(1 − y_n)] −1 2

n=1

𝐰^T𝐀𝐰, (3 − 9)

其中 y_n = σ[y(𝐱_n; 𝐰)]； 𝐀 = diag( ₀, ₁, … , _N)。由於 (3-9)為 logistic log-likelihood function，故必須以迭代近似之方式解𝐰_MP

Step 2. 拉普拉斯近似(Laplacian approximation) [44 - 45]。

使用 Second-order Newton method 對(3-9)做二次微分，取得 Hessian，如(3-10)

~ (3-11)

wlog[P(𝐭|𝐰)p(𝐰|𝛂)] = 𝚽^T(𝐭 − 𝐲) − 𝐀𝐰, (3 − 10)

w wlog[P(𝐭|𝐰)p(𝐰|𝛂)] = −(𝚽^T𝐁𝚽 + 𝐀), (3 − 11) 其中 𝚽 = [𝝓(𝐱₁), 𝝓(𝐱₂), … , 𝝓(𝐱_N)]^T,

𝝓(𝐱_n) = [1, K(𝐱_n, 𝐱₁ ), K(𝐱_n, 𝐱₂ ), … , K(𝐱_n, 𝐱_N )]^T； 𝐲 = (y₁, y₂, … , y_N)^T, y_n = σ[y(𝐱_n; 𝐰)]；

𝐁 = diag( ₁, ₂, … , _N), _n=y_n(1 − y_n), y_n = σ[y(𝐱_n; 𝐰)]。

(3-8)以 Laplacian approximation 推導之結果將極為近似高斯函數(Gaussian

function)，其平均值即為𝐰_MP，共變矩陣(covariance) 𝚺即為(3-11)代入𝐰_MP取負號再取倒數之結果。藉由假設(3-10)等於 0，得到𝐰_MP，再進一步取得𝚺，

整理過後可以得到如(3-12) ~ (3-13)之結果。

𝚺 = (𝚽^T𝐁𝚽 + 𝐀)⁻¹, (3 − 12) 𝐰_MP= 𝚺𝚽^T𝐁𝐭. (3 − 13) Step 3. 更新𝛂。

對𝛂進行初始，並藉由[46]所提出之方法更新𝛂，如(3-14)所示，

inew = γ_i

μ_i², (3 − 14) 其中初始 _i = (1/N)², i = 1, … , N，N 代表訓練樣本數；

𝛍 = 𝐰_MP；

γ_i＝1 − _iN_ii，N_ii代表𝚺第 i 項在對角線上之元素。

藉由(3-14)對𝛂之更新，再配合(3-12) ~ (3-13)更新𝚺與𝐰_MP。

經過數次之迭代，大多數之 _i會趨近於無限大，亦即w_i受到限制，使其值趨近於 0，使得N_ii ≈ _i⁻¹而γ_i ≈ 0，取得相對稀疏之解。其餘之 _i則會趨近於定值，使得 γ_i ≈ 1，所對應到之𝐱_i即為相對向量(relevance vector, RV)。當求得𝐰_MP後，則可以對新的資料𝐱_∗利用(3-15)計算P(t_∗|𝐰)，亦即本研究情緒之 Likelihood。

P(t_∗|𝐰) = σ[y(𝐱_∗; 𝐰)]^t^∗{1 − σ[y(𝐱_∗; 𝐰)]}^1−t^∗, (3 − 15)

b. 靜態 RVM 與動態 RVM 整合

本研究將 RVM 分類器分為以距離特徵建立之分類器即 Static RVM (SRVM)，

以及以位移特徵建立之分類器即 Dynamic RVM (DRVM)。研究統計發現，有些情緒之間使用距離特徵較容易做分類，有些情緒之間則以位移特徵較容易分類。

以表 3-3 與表 3-4 為例，此二表分別為使用 SRVM 與 DRVM，對已訓練過之影像樣本，情緒間分類準確性之結果。舉例來說，由二表可看出生氣與厭惡以位移特

表 3-3、訓練樣本 2 情緒之間以 SRVM 辨識結果。

Neutral Anger Disgust Fear Happy Sadness Surprise Neutral X 90.74% 92.59% 93.51% 100.00% 84.26% 100.00%

Anger 90.74% X 86.11% 100.00% 100.00% 86.11% 100.00%

Disgust 92.59% 86.11% X 100.00% 94.44% 91.67% 94.44%

Fear 93.51% 100.00% 100.00% X 100.00% 86.11% 100.00%

Happy 100.00% 100.00% 94.44% 100.00% X 94.44% 94.44%

Sadness 84.26% 86.11% 91.67% 86.11% 94.44% X 100.00%

Surprise 100.00% 100.00% 94.44% 100.00% 94.44% 100.00% X

表 3-4、訓練樣本 2 情緒之間以 DRVM 辨識結果。

Neutral Anger Disgust Fear Happy Sadness Surprise

Neutral X 99.07% 100.00% 97.22% 100.00% 100.00% 100.00%

Anger 99.07% X 91.67% 94.44% 100.00% 94.44% 100.00%

Disgust 100.00% 91.67% X 100.00% 100.00% 100.00% 100.00%

Fear 97.22% 94.44% 100.00% X 91.67% 91.67% 100.00%

Happy 100.00% 100.00% 100.00% 91.67% X 100.00% 100.00%

Sadness 100.00% 94.44% 100.00% 91.67% 100.00% X 100.00%

Surprise 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% X

徵較容易做區分，相較於使用距離特徵做分類，其誤判率較低；另外，由二表亦可看出利用 DRVM 做情緒辨識，其誤判率較低，對於整體辨識率有明顯之提升。

經過 10 組資料之交叉驗證，本研究歸納如表 3-5 情緒特徵與分類器間之關係，

提出整合二分類器之方法，將表 3-5 做為分類器選擇之依據。其中表 3-5 中，S

表 3-5、2 情緒之間分類器之選擇。

Neutral Anger Disgust Fear Happy Sadness Surprise

Neutral X S S S S S S

Anger S X D D D D D

Disgust S D X D D D D

Fear S D D X S S S

Happy S D D S X D D

Sadness S D D S D X D

Surprise S D D S D D X

代表 SRVM；D 代表 DRVM。由於每個人臉部所呈現之特定情緒不見得相同，

常常會有混淆之情況產生，其中又以中性情緒與生氣、厭惡、傷心之情緒最容易造成混淆。為了避免使用 TOD 判斷特定情緒時，非判斷到使用者最強程度之情緒，導致使用位移特徵影響到整體辨識結果，故本研究以前一次情緒辨識之結果為依據，當前一次情緒辨識結果為特定情緒，此次情緒辨識則使用 SRVM 做辨識，在此本研究以中性情緒做為特定情緒。

無論是 SRVM 或 DRVM，經由上述之 RVM 分類器演算法，已辨識求得兩兩類別間之情緒 Likelihood，接下來則必須對所有 Likelihood 進行整合，計算某個情緒相對於 7 種基本情緒之 Likelihood。

在文檔中基於時間強化設計之情緒辨識方法 (頁 52-57)

第三章、 基於機率之連續影像情緒辨識

3.3. 類別可能性

3.3.1. 類別可能性辨識

a. RVM 分類器演算法

b. 靜態 RVM 與動態 RVM 整合

第三章、基於機率之連續影像情緒辨識