相關向量機原理

第一章、緒論

1.2. 相關研究回顧

1.2.3. 相關向量機原理

核方法(Kernel method)常被用來做為機器學習(Machine learning)之設計，用來解決分類、回歸分析等相關研究問題，Kernel method 主要概念在於將無法分割之低維度樣本特徵，試圖藉由核函數(Kernel function)將樣本特徵映射至較高維度之特徵空間，使樣本能夠有效被分類，常見之 Kernel method 包含支持向量機 (Support vector machine, SVM) [27] 、相關向量機 (Relevance vector machine, RVM)[28]與高斯過程(Gaussian Processes, GP)。這個領域之相關研究往往著手於研究、改良現有之機器學習方法，以提高其準確性、運算速度等為目的[18], [26]，

其中在生物辨識中又以 SVM 與 RVM 較為常見。支持向量機(Support vector machine, SVM)為目前最為普遍、受到重視的方法之一，SVM 以最小風險，即最大化兩類交界(Margin)之原則學習 Kernel 參數，對兩類訓練樣本利用學習取得的決定邊界(Decision boundary)進行切割，如此學習法則能有效避免過度訓練 (Over-fitting)之問題，其僅挑選接近 Decision boundary 之訓練樣本做為 SVM 的

支持向量(Support vector, SV)，亦即僅使用到部份的 Kernel function，故其解相對來得稀疏，而其分類準確性或運算速度，往往相較於一般分類、分群演算法(例如：類神經網路)還要來得高。雖然，SVM 在實作上具備即時分類、準確性高等優點，但其在應用上仍包含些許問題[28]。

 雖然 SVM 取得相對稀疏之解，其 SV 數量明顯少於訓練樣本數，但 SVM 仍會因大量訓練資料時，雜訊與類別訓練樣本重疊，而導致 SV 成線性成長，

往往造成 Over-fitting，除了使 Decision boundary 運算複雜度變高，且訓練過程中，亦會將與訓練樣本重疊之雜訊一併訓練，雖然完美的對訓練樣本做分類，但對於測試樣本則可能分類錯誤。

 SVM 僅可做類別之判定，而缺乏機率之預測，無法容忍類別間不確定性之問題，可能造成錯誤分類。

 由於 SVM 對雜訊相當的敏感，在求解時嚴格限制所有訓練樣本必須完美的被切割。利用誤差參數 C 可以放寬限制，然而，此參數必須自行調整，參數之決定對結果將造成相當大的影響。

 Kernel function 必須符合梅西定理(Mercer’s condition)，其必須為連續對稱正整數之 Kernel。

Tipping[28]提出之相關向量機(Relevance vector machine, RVM)，則改良 SVM 之上述問題。RVM 藉由貝式(Bayesian)結構進行 Kernel 參數之學習， RVM 選取最能代表特定類別之訓練樣本做為 RV，而非最接近 Decision boundary 之訓練樣本，其 RV 不僅更為稀疏，使得運算速度大幅度的下降，且保有 SVM 分類之準確性。如圖 1-4 為 SVM 與 RVM 分類之比較，圖中包含兩類之訓練資料，共 100 筆訓練樣本，SVM 與 RVM 皆選擇 Gaussian kernel，即 Radial basis function(RBF) kernel 為基礎做學習，由圖可看出 RVM(圖 1-4(b))之 RV(4 個)明顯少於 SVM 之 SV(38 個)，且 RVM 分類結果仍不亞於 SVM。如圖 1-5 為 SVM 與 RVM 回歸分析之比較，SVM 與 RVM 皆選擇 linearspline kernel 為基礎做學習，建立 Sinc 函

式之回歸模型，其訓練樣本由 Sinc 函式加入ϵ = ±0.01之誤差取得，同樣可看出 RVM 回歸模型(圖 1-5(a))之 RV (6 個)少於 SVM 回歸模型(圖 1-5(b))之 SV(29 個)，

且二者所建立之回歸模型皆相當接近 Sinc 函式，SVM 與 RVM 回歸模型均方根誤差(Root-mean-square-error, RMSE)分別為 0.0291 與 0.0245。另外，RVM 之另一特性，則是可以做機率之預測，對不確定之樣本，做較為合理之辨識。

(a) (b)

圖 1-4、SVM 與 RVM 分類器對兩類資料分類之比較[28]，(a)SVM 之學習結果，

共包含 38 個 SV，(b)RVM 之學習結果，共包含 4 個 RV。

(a) (b)

圖 1-5、SVM 與 RVM 建立 Sinc 函式回歸模型之比較[28]，(a)SVM 之回歸模型，

共包含 29 個 SV，其 RMSE 為 0.0291，(b)RVM 之回歸模型，共包含 6 個 RV，

其 RMSE 為 0.0245。

RVM 屬於監督式學習法(Supervised learning)，Supervised learning 給定一組特徵向量{𝐱_n}_n=1^N 與其對應之輸出{t_n}_n=1^N 做訓練。若應用於特徵分類，則t_n即為類別標籤；若應用於回歸分析，則t_n為任意實數。訓練之主要目的，在於學習一個模型，以預測新特徵向量之輸出。實際應用上，若應用於資料分類，必須克服類別間特徵重疊(over lap)之問題；若應用於回歸分析，則必須注意雜訊之問題。

一般而言，Supervised learning 使用如(1-1)之基本形式，描述輸入特徵向量與輸出間之關係，而所謂訓練即是在學習(1-1)中權重𝐰之過程。

y(𝐱; 𝐰) = ∑ w_iφ_i

i=1

(𝐱) = 𝐰^T𝝓(𝐱), (1 − 1)

其中輸出 y(𝐱; 𝐰) 為權重 𝐰 = (w₁, w₂, … , w_M)^T 與基底函式 (Basis function) ∅(𝐱) = (φ₁(𝐱), φ₂(𝐱), … , φ_M(𝐱))^T之線性組合。RVM 使用與 SVM 相同之函式，將輸入與輸出之關係，由(1-1)改寫為(1-2)，

y(𝐱; 𝐰) = ∑ w_iK

i=1

(𝐱, 𝐱_i ) + w₀, (1 − 2)

其中 Basis function 由 Kernel function, K(𝐱, x_i )做定義。RVM 藉由貝式機率架構(Bayesian probabilistic framework )學習(1-2)權重，以建立輸入與輸出之模型。

其主要目標在於建立一個盡可能稀疏之模型，在學習過程中大多數之權重被設為零，僅保留能夠有效分類、相對重要之 Kernel function，其學習演算法於本論文 3.3.1 節詳細介紹。

在文檔中基於時間強化設計之情緒辨識方法 (頁 18-21)

第一章、 緒論

1.2. 相關研究回顧

1.2.3. 相關向量機原理

第一章、緒論