第一章 緒論
第二節 研究目的
在本研究處理高維度資料時,分為以下 3 種方向探討:
一、降低在處理高維度資料時遇到 Hughes 現象所帶來之影響
在處理高維度資料時,若訓練樣本(training sample)是有限的情況下,會遇 到所謂的 Hughes 現象(Hughes, 1968;Camps-Valls, et al., 2006;Kuo & Chang, 2007;Bruzzone & Persello, 2009;Kuo, Li, & Yang, 2009),此現象是因為高維度資 料跟一般分類資料比較起來,需要更多的訓練樣本個數。因此在固定的訓練樣本 之下,當所使用的維度增加時,其分類的正確率也會隨之上升,但到達某個最大 值之後,分類的正確率卻會隨著維度繼續增加而逐漸下降(Hughes, 1968),圖 1-2-1 所示,其中 N 為訓練樣本數,n 為模型的複雜度。
圖 1-2-1 Hughes phenomenon
資 料 來 源 : Hughes, G. F. (1968). On the mean accuracy of statistical pattern recognizers. IEEE Transactions on Information Theory, 14(1), 55-63.
因此為了減低 Hughes 現象所帶來的影響,許多分類方法隨之先後被提出,
支撐向量機(support vector machine, SVM)(Boser, Guyon, & Vapnik, 1992;Vapnik, 2001)就是近年來常見的分類方法之一,且從 Melgani & Bruzzone(2004) 、Camps-Valls & Bruzzone ( 2005 )、 Camps-、Camps-Valls, et al. ( 2006 )、 Fauvel, Chanussot, &
Benediktsson(2006)和 Bruzzone & Persello(2009)等人的研究中發現,SVM 可 以有效的克服 Hughes 現象。支撐向量機是由 Vapnik 等人所提出的一種機器學習 技術,它是一種基於統計學習理論的分類(classification)演算法,此方法是嘗試 在訓練資料所構成的空間中找出一個最適合的分類超平面(hyperplane),並藉由 此超平面將兩個不同的集合分開,並同時要使此超平面與不同類別的間距達到最 大以獲得最佳的分類效果(Vapnik, 2001)。因此本研究將以 SVM 作為處理高維 度資料之分類器。
二、核函數參數挑選的重要性
上述描述是以資料為線性為前提。但在現實社會中,大部分的資料都是屬於 非線性的情形,為了解決這個問題,我們就需要利用核技巧(kernel trick)將資料 透過映射的方式,使資料轉換到更高維度的空間或特徵空間(feature space),且 針 對 這 些 樣 本 , 找 到 一 個 線 性 的 關 係 , 就 可 以 很 輕 易 的 利 用 一 個 超 平 面
(hyperplane)將資料正確地分類。
而在核函數(kernel function)中,核函數參數值的選取對分類的性能有很大 的影響,因此我們使用 Fisher's Iris 資料集(Fisher, 1936)進行核函數參數值挑選 的測試。Fisher's Iris 資料集是在樣本辨識與判別分析中常被用到的資料集,資料 集可分為山鳶尾、變色鳶尾和維吉尼亞鳶尾三種類別,每個類別各有 50 個樣本,
以及花萼長度、花萼寬度、花瓣長度與花瓣寬度四種特徵。
從圖 1-2-2、圖 1-2-3 和圖 1-2-4 可以發現,在使用 radial basis function(RBF)
核函數的 SVM 中,當 1/4時,分類的邊界是呈現一條不規則的曲線。當 2
/
1
時,分類的邊界是一條較平緩的曲線。而當 1時,分類的邊界則是一條
平滑的曲線。其結果驗證了使用不同的 RBF 核函數參數
的確會改變分類結果。圖 1-2-2 RBF 核函數參數 1/4下得到的邊界
圖 1-2-3 RBF 核函數參數 1/2下得到的邊界
圖 1-2-4 RBF 核函數參數 1下得到的邊界
在 Chapelle, et al(2002)、Camps-Valls, et al(2004)和 Chang & Lin(2001)
等人的研究中發現,傳統常運用交叉驗證法(cross-validation,CV)來挑選最佳參 數,但交叉驗證法不僅耗時,也無法保證會得到一個最佳解的參數。而 Li 等人
(2010,2012)提出了一種基於核函數之類別分類法(kernel-based class separability, KCS),並藉由 KCS 類與類組間與組內的資訊發展出自動核函數參數挑選法
(automatic parameter selection, APS),此方法能將 SVM 之最佳參數在極短的時 間內找到。
此外,由 Kwon & Gurram(2010)的研究顯示使用 full bandwidth RBF (FRBF) 核函數可以改善分類的一般化能力(generalization ability)。FRBF 定義為:
)其中 D 為 the full diagonal bandwidth parameters matrix,其定義如下:
的。因此提出一個核化特徵選取法(kernel-based feature selection, KFS),透過最 佳的參數來決定特徵的最重要性,且利用這些重要特徵進行分類,不僅能加快分 類速度,也能提高分類精準度。