第三章、 基於機率之連續影像情緒辨識
3.3. 類別可能性
3.3.1. 類別可能性辨識
RVM 保有 SVM 分類準確性高與運算速度快之優點,其亦改善 SVM 之缺點,
如本論文 1.2.3 節所述之 RVM 其中兩個特性:使用 Bayesian probabilistic framework 學習法則,以迭代的方式學習(1-2)辨識模型之權重,得到對應之訓練 樣本做為 RV 的 RVM,能夠建立比 SVM 更為稀疏之模型,大多數之權重將被設 為零,使得 RVM 之有效 kernel function 數遠少於 SVM,執行速度方面明顯的提 升,且辨識率仍不亞於 SVM;另外,RVM 可以利用適當之分佈模型為基礎,取 得 Likelihood 函數,決定每一個類別之 Likelihood,對於不確定類別之特徵,能 夠有較精準之判斷。基於上述 RVM 之特性,本研究將分別以距離特徵與位移特 徵,訓練兩種不同之 RVM 分類器,最後再將二者進行融合,如此能夠有效提升 情緒辨識之效能。本節(3.3.1 節)將詳細說明 RVM 分類器應用於情緒 Likelihood 辨識之演算法,以及分類器融合之方法與策略。
a. RVM 分類器演算法
事實上,RVM 本質為兩類分類器,訓練分類器時以兩兩類別做訓練,最後 再將訓練結果進行耦合(Coupling),形成多類之 RVM 分類器。以下就 RVM 訓練 兩類分類器之方法做說明與推導。
假設給定一組訓練資料為{𝐱n, tn}n=1N ,其中𝐱n代表幾何特徵之特徵向量,tn代
43 其中 本研究選擇 Radial basis function (RBF)做為 Kernel function,如(3-4)所示,
其能夠對非線性高維度訓練樣本做有效之處理,且此 Kernel function 僅有參數σ需 做調整,計算較為容易。
K(𝐱, 𝐱i ) = exp (−‖𝐱 − 𝐱i‖2
2σ2 ) , i = 1, … , N, (3 − 4) 其中 本研究以交叉驗證之方式對訓練資料做測試,取得最佳之σ,以此 kernel function 將訓練資料映射至可切割之維度空間做分類。藉由 Bernoulli distribution 取得 Likelihood function P(𝐭|𝐰),對特徵向量做情緒 Likelihood 之辨識,如(3-5) 所示,
RVM 以(3-5)對𝐰做估測,然而,若直接使用 Maximum likelihood 之方法估 測𝐰,往往導致 Over-fitting 之情況發生,亦即使大部份之權重非零。為了避免此 情況發生,必須對𝐰加以限制。在此限制𝐰機率分佈應為落在 0 周圍之高斯分佈 (Zero-mean Gaussian distribution) 𝒩(∙),如(3-5)所示,
p(𝐰|𝛂) = ∏ 𝒩(wi
其中 𝛂為事前權重(prior weight)分佈。事後權重(posterior weight)𝐰可由以下 過程解之。
44
Step 1. 將p(𝐰|𝐭, 𝛂)以 log 形式表示。
假設𝛂已知,事後權重(posterior weight)條件機率分佈,可由貝式定理,改寫 為如(3-7)所示,
p(𝐰|𝐭, 𝛂) =P(𝐭|𝐰)p(𝐰|𝛂)
p(𝐭|𝛂) , (3 − 7) 由(3-7)得知p(𝐰|𝐭, 𝛂) ∝ P(𝐭|𝐰)p(𝐰|𝛂),可藉由解(3-8)取得𝐰MP,
𝐰MP= arg max
w p(𝐰|𝐭, 𝛂) = arg max
w P(𝐭|𝐰)p(𝐰|𝛂)
= arg max
w log [P(𝐭|𝐰)p(𝐰|𝛂)], (3 − 8) 取 log 後之P(𝐭|𝐰)p(𝐰|𝛂),如(3-9)所示,
log[P(𝐭|𝐰)p(𝐰|𝛂)]
= ∑[tnlog yn+ (1 − tn)log(1 − yn)] −1 2
N
n=1
𝐰T𝐀𝐰, (3 − 9)
其中 yn = σ[y(𝐱n; 𝐰)]; 𝐀 = diag( 0, 1, … , N)。 由於 (3-9)為 logistic log-likelihood function,故必須以迭代近似之方式解𝐰MP
Step 2. 拉普拉斯近似(Laplacian approximation) [44 - 45]。
使用 Second-order Newton method 對(3-9)做二次微分,取得 Hessian,如(3-10)
~ (3-11)
wlog[P(𝐭|𝐰)p(𝐰|𝛂)] = 𝚽T(𝐭 − 𝐲) − 𝐀𝐰, (3 − 10)
w wlog[P(𝐭|𝐰)p(𝐰|𝛂)] = −(𝚽T𝐁𝚽 + 𝐀), (3 − 11) 其中 𝚽 = [𝝓(𝐱1), 𝝓(𝐱2), … , 𝝓(𝐱N)]T,
𝝓(𝐱n) = [1, K(𝐱n, 𝐱1 ), K(𝐱n, 𝐱2 ), … , K(𝐱n, 𝐱N )]T; 𝐲 = (y1, y2, … , yN)T, yn = σ[y(𝐱n; 𝐰)];
𝐁 = diag( 1, 2, … , N), n=yn(1 − yn), yn = σ[y(𝐱n; 𝐰)]。
(3-8)以 Laplacian approximation 推導之結果將極為近似高斯函數(Gaussian
45
function),其平均值即為𝐰MP,共變矩陣(covariance) 𝚺即為(3-11)代入𝐰MP取 負號再取倒數之結果。藉由假設(3-10)等於 0,得到𝐰MP,再進一步取得𝚺,
整理過後可以得到如(3-12) ~ (3-13)之結果。
𝚺 = (𝚽T𝐁𝚽 + 𝐀)−1, (3 − 12) 𝐰MP= 𝚺𝚽T𝐁𝐭. (3 − 13) Step 3. 更新𝛂。
對𝛂進行初始,並藉由[46]所提出之方法更新𝛂,如(3-14)所示,
inew = γi
μi2, (3 − 14) 其中 初始 i = (1/N)2, i = 1, … , N,N 代表訓練樣本數;
𝛍 = 𝐰MP;
γi=1 − iNii,Nii代表𝚺第 i 項在對角線上之元素。
藉由(3-14)對𝛂之更新,再配合(3-12) ~ (3-13)更新𝚺與𝐰MP。
經過數次之迭代,大多數之 i會趨近於無限大,亦即wi受到限制,使其值趨近於 0,使得Nii ≈ i−1而γi ≈ 0,取得相對稀疏之解。其餘之 i則會趨近於定值,使得 γi ≈ 1,所對應到之𝐱i即為相對向量(relevance vector, RV)。當求得𝐰MP後,則可 以對新的資料𝐱∗利用(3-15)計算P(t∗|𝐰),亦即本研究情緒之 Likelihood。
P(t∗|𝐰) = σ[y(𝐱∗; 𝐰)]t∗{1 − σ[y(𝐱∗; 𝐰)]}1−t∗, (3 − 15)
b. 靜態 RVM 與動態 RVM 整合
本研究將 RVM 分類器分為以距離特徵建立之分類器即 Static RVM (SRVM),
以及以位移特徵建立之分類器即 Dynamic RVM (DRVM)。研究統計發現,有些 情緒之間使用距離特徵較容易做分類,有些情緒之間則以位移特徵較容易分類。
以表 3-3 與表 3-4 為例,此二表分別為使用 SRVM 與 DRVM,對已訓練過之影像 樣本,情緒間分類準確性之結果。舉例來說,由二表可看出生氣與厭惡以位移特
46
表 3-3、訓練樣本 2 情緒之間以 SRVM 辨識結果。
Neutral Anger Disgust Fear Happy Sadness Surprise Neutral X 90.74% 92.59% 93.51% 100.00% 84.26% 100.00%
Anger 90.74% X 86.11% 100.00% 100.00% 86.11% 100.00%
Disgust 92.59% 86.11% X 100.00% 94.44% 91.67% 94.44%
Fear 93.51% 100.00% 100.00% X 100.00% 86.11% 100.00%
Happy 100.00% 100.00% 94.44% 100.00% X 94.44% 94.44%
Sadness 84.26% 86.11% 91.67% 86.11% 94.44% X 100.00%
Surprise 100.00% 100.00% 94.44% 100.00% 94.44% 100.00% X
表 3-4、訓練樣本 2 情緒之間以 DRVM 辨識結果。
Neutral Anger Disgust Fear Happy Sadness Surprise
Neutral X 99.07% 100.00% 97.22% 100.00% 100.00% 100.00%
Anger 99.07% X 91.67% 94.44% 100.00% 94.44% 100.00%
Disgust 100.00% 91.67% X 100.00% 100.00% 100.00% 100.00%
Fear 97.22% 94.44% 100.00% X 91.67% 91.67% 100.00%
Happy 100.00% 100.00% 100.00% 91.67% X 100.00% 100.00%
Sadness 100.00% 94.44% 100.00% 91.67% 100.00% X 100.00%
Surprise 100.00% 100.00% 100.00% 100.00% 100.00% 100.00% X
徵較容易做區分,相較於使用距離特徵做分類,其誤判率較低;另外,由二表亦 可看出利用 DRVM 做情緒辨識,其誤判率較低,對於整體辨識率有明顯之提升。
經過 10 組資料之交叉驗證,本研究歸納如表 3-5 情緒特徵與分類器間之關係,
提出整合二分類器之方法,將表 3-5 做為分類器選擇之依據。其中表 3-5 中,S
47
表 3-5、2 情緒之間分類器之選擇。
Neutral Anger Disgust Fear Happy Sadness Surprise
Neutral X S S S S S S
Anger S X D D D D D
Disgust S D X D D D D
Fear S D D X S S S
Happy S D D S X D D
Sadness S D D S D X D
Surprise S D D S D D X
代表 SRVM;D 代表 DRVM。由於每個人臉部所呈現之特定情緒不見得相同,
常常會有混淆之情況產生,其中又以中性情緒與生氣、厭惡、傷心之情緒最容易 造成混淆。為了避免使用 TOD 判斷特定情緒時,非判斷到使用者最強程度之情 緒,導致使用位移特徵影響到整體辨識結果,故本研究以前一次情緒辨識之結果 為依據,當前一次情緒辨識結果為特定情緒,此次情緒辨識則使用 SRVM 做辨 識,在此本研究以中性情緒做為特定情緒。
無論是 SRVM 或 DRVM,經由上述之 RVM 分類器演算法,已辨識求得兩 兩類別間之情緒 Likelihood,接下來則必須對所有 Likelihood 進行整合,計算某 個情緒相對於 7 種基本情緒之 Likelihood。