第一章、 緒論
1.2. 相關研究回顧
1.2.3. 相關向量機原理
核方法(Kernel method)常被用來做為機器學習(Machine learning)之設計,用 來解決分類、回歸分析等相關研究問題,Kernel method 主要概念在於將無法分 割之低維度樣本特徵,試圖藉由核函數(Kernel function)將樣本特徵映射至較高維 度之特徵空間,使樣本能夠有效被分類,常見之 Kernel method 包含支持向量機 (Support vector machine, SVM) [27] 、相關向量機 (Relevance vector machine, RVM)[28]與高斯過程(Gaussian Processes, GP)。這個領域之相關研究往往著手於 研究、改良現有之機器學習方法,以提高其準確性、運算速度等為目的[18], [26],
其中在生物辨識中又以 SVM 與 RVM 較為常見。支持向量機(Support vector machine, SVM)為目前最為普遍、受到重視的方法之一,SVM 以最小風險,即最 大化兩類交界(Margin)之原則學習 Kernel 參數,對兩類訓練樣本利用學習取得的 決定邊界(Decision boundary)進行切割,如此學習法則能有效避免過度訓練 (Over-fitting)之問題,其僅挑選接近 Decision boundary 之訓練樣本做為 SVM 的
9
支持向量(Support vector, SV),亦即僅使用到部份的 Kernel function,故其解相對 來得稀疏,而其分類準確性或運算速度,往往相較於一般分類、分群演算法(例 如:類神經網路)還要來得高。雖然,SVM 在實作上具備即時分類、準確性高等 優點,但其在應用上仍包含些許問題[28]。
雖然 SVM 取得相對稀疏之解,其 SV 數量明顯少於訓練樣本數,但 SVM 仍 會因大量訓練資料時,雜訊與類別訓練樣本重疊,而導致 SV 成線性成長,
往往造成 Over-fitting,除了使 Decision boundary 運算複雜度變高,且訓練過 程中,亦會將與訓練樣本重疊之雜訊一併訓練,雖然完美的對訓練樣本做分 類,但對於測試樣本則可能分類錯誤。
SVM 僅可做類別之判定,而缺乏機率之預測,無法容忍類別間不確定性之 問題,可能造成錯誤分類。
由於 SVM 對雜訊相當的敏感,在求解時嚴格限制所有訓練樣本必須完美的 被切割。利用誤差參數 C 可以放寬限制,然而,此參數必須自行調整,參 數之決定對結果將造成相當大的影響。
Kernel function 必須符合梅西定理(Mercer’s condition),其必須為連續對稱正 整數之 Kernel。
Tipping[28]提出之相關向量機(Relevance vector machine, RVM),則改良 SVM 之上述問題。RVM 藉由貝式(Bayesian)結構進行 Kernel 參數之學習, RVM 選取 最能代表特定類別之訓練樣本做為 RV,而非最接近 Decision boundary 之訓練樣 本,其 RV 不僅更為稀疏,使得運算速度大幅度的下降,且保有 SVM 分類之準 確性。如圖 1-4 為 SVM 與 RVM 分類之比較,圖中包含兩類之訓練資料,共 100 筆訓練樣本,SVM 與 RVM 皆選擇 Gaussian kernel,即 Radial basis function(RBF) kernel 為基礎做學習,由圖可看出 RVM(圖 1-4(b))之 RV(4 個)明顯少於 SVM 之 SV(38 個),且 RVM 分類結果仍不亞於 SVM。如圖 1-5 為 SVM 與 RVM 回歸分 析之比較,SVM 與 RVM 皆選擇 linearspline kernel 為基礎做學習,建立 Sinc 函
10
式之回歸模型,其訓練樣本由 Sinc 函式加入ϵ = ±0.01之誤差取得,同樣可看出 RVM 回歸模型(圖 1-5(a))之 RV (6 個)少於 SVM 回歸模型(圖 1-5(b))之 SV(29 個),
且二者所建立之回歸模型皆相當接近 Sinc 函式,SVM 與 RVM 回歸模型均方根 誤差(Root-mean-square-error, RMSE)分別為 0.0291 與 0.0245。另外,RVM 之另 一特性,則是可以做機率之預測,對不確定之樣本,做較為合理之辨識。
(a) (b)
圖 1-4、SVM 與 RVM 分類器對兩類資料分類之比較[28],(a)SVM 之學習結果,
共包含 38 個 SV,(b)RVM 之學習結果,共包含 4 個 RV。
(a) (b)
圖 1-5、SVM 與 RVM 建立 Sinc 函式回歸模型之比較[28],(a)SVM 之回歸模型,
共包含 29 個 SV,其 RMSE 為 0.0291,(b)RVM 之回歸模型,共包含 6 個 RV,
其 RMSE 為 0.0245。
11
RVM 屬於監督式學習法(Supervised learning),Supervised learning 給定一組 特徵向量{𝐱n}n=1N 與其對應之輸出{tn}n=1N 做訓練。若應用於特徵分類,則tn即為 類別標籤;若應用於回歸分析,則tn為任意實數。訓練之主要目的,在於學習一 個模型,以預測新特徵向量之輸出。實際應用上,若應用於資料分類,必須克服 類別間特徵重疊(over lap)之問題;若應用於回歸分析,則必須注意雜訊之問題。
一般而言,Supervised learning 使用如(1-1)之基本形式,描述輸入特徵向量 與輸出間之關係,而所謂訓練即是在學習(1-1)中權重𝐰之過程。
y(𝐱; 𝐰) = ∑ wiφi
M
i=1
(𝐱) = 𝐰T𝝓(𝐱), (1 − 1)
其中 輸 出 y(𝐱; 𝐰) 為 權 重 𝐰 = (w1, w2, … , wM)T 與 基 底 函 式 (Basis function) ∅(𝐱) = (φ1(𝐱), φ2(𝐱), … , φM(𝐱))T之線性組合。RVM 使用與 SVM 相同之 函式,將輸入與輸出之關係,由(1-1)改寫為(1-2),
y(𝐱; 𝐰) = ∑ wiK
N
i=1
(𝐱, 𝐱i ) + w0, (1 − 2)
其中 Basis function 由 Kernel function, K(𝐱, xi )做定義。RVM 藉由貝式機率架 構(Bayesian probabilistic framework )學習(1-2)權重,以建立輸入與輸出之模型。
其主要目標在於建立一個盡可能稀疏之模型,在學習過程中大多數之權重被設為 零,僅保留能夠有效分類、相對重要之 Kernel function,其學習演算法於本論文 3.3.1 節詳細介紹。