研究目的

第一章緒論

第二節研究目的

在本研究處理高維度資料時，分為以下 3 種方向探討：

一、降低在處理高維度資料時遇到 Hughes 現象所帶來之影響

在處理高維度資料時，若訓練樣本（training sample）是有限的情況下，會遇到所謂的 Hughes 現象（Hughes, 1968；Camps-Valls, et al., 2006；Kuo & Chang, 2007；Bruzzone & Persello, 2009；Kuo, Li, & Yang, 2009），此現象是因為高維度資料跟一般分類資料比較起來，需要更多的訓練樣本個數。因此在固定的訓練樣本之下，當所使用的維度增加時，其分類的正確率也會隨之上升，但到達某個最大值之後，分類的正確率卻會隨著維度繼續增加而逐漸下降（Hughes, 1968），圖 1-2-1 所示，其中 N 為訓練樣本數，n 為模型的複雜度。

圖 1-2-1 Hughes phenomenon

資料來源： Hughes, G. F. (1968). On the mean accuracy of statistical pattern recognizers. IEEE Transactions on Information Theory, 14(1), 55-63.

因此為了減低 Hughes 現象所帶來的影響，許多分類方法隨之先後被提出，

支撐向量機（support vector machine, SVM）（Boser, Guyon, & Vapnik, 1992；Vapnik, 2001）就是近年來常見的分類方法之一，且從 Melgani & Bruzzone（2004）、Camps-Valls & Bruzzone （ 2005 ）、 Camps-、Camps-Valls, et al. （ 2006 ）、 Fauvel, Chanussot, &

Benediktsson（2006）和 Bruzzone & Persello（2009）等人的研究中發現，SVM 可以有效的克服 Hughes 現象。支撐向量機是由 Vapnik 等人所提出的一種機器學習技術，它是一種基於統計學習理論的分類（classification）演算法，此方法是嘗試在訓練資料所構成的空間中找出一個最適合的分類超平面（hyperplane），並藉由此超平面將兩個不同的集合分開，並同時要使此超平面與不同類別的間距達到最大以獲得最佳的分類效果（Vapnik, 2001）。因此本研究將以 SVM 作為處理高維度資料之分類器。

二、核函數參數挑選的重要性

上述描述是以資料為線性為前提。但在現實社會中，大部分的資料都是屬於非線性的情形，為了解決這個問題，我們就需要利用核技巧（kernel trick）將資料透過映射的方式，使資料轉換到更高維度的空間或特徵空間（feature space），且針對這些樣本，找到一個線性的關係，就可以很輕易的利用一個超平面

（hyperplane）將資料正確地分類。

而在核函數（kernel function）中，核函數參數值的選取對分類的性能有很大的影響，因此我們使用 Fisher's Iris 資料集（Fisher, 1936）進行核函數參數值挑選的測試。Fisher's Iris 資料集是在樣本辨識與判別分析中常被用到的資料集，資料集可分為山鳶尾、變色鳶尾和維吉尼亞鳶尾三種類別，每個類別各有 50 個樣本，

以及花萼長度、花萼寬度、花瓣長度與花瓣寬度四種特徵。

從圖 1-2-2、圖 1-2-3 和圖 1-2-4 可以發現，在使用 radial basis function（RBF）

核函數的 SVM 中，當 1/4時，分類的邊界是呈現一條不規則的曲線。當 2

1

 時，分類的邊界是一條較平緩的曲線。而當 1時，分類的邊界則是一條

平滑的曲線。其結果驗證了使用不同的 RBF 核函數參數



的確會改變分類結果。

圖 1-2-2 RBF 核函數參數 1/4下得到的邊界

圖 1-2-3 RBF 核函數參數 1/2下得到的邊界

圖 1-2-4 RBF 核函數參數 1下得到的邊界

在 Chapelle, et al（2002）、Camps-Valls, et al（2004）和 Chang & Lin（2001）

等人的研究中發現，傳統常運用交叉驗證法（cross-validation,CV）來挑選最佳參數，但交叉驗證法不僅耗時，也無法保證會得到一個最佳解的參數。而 Li 等人

（2010，2012）提出了一種基於核函數之類別分類法（kernel-based class separability, KCS），並藉由 KCS 類與類組間與組內的資訊發展出自動核函數參數挑選法

（automatic parameter selection, APS），此方法能將 SVM 之最佳參數在極短的時間內找到。

此外，由 Kwon & Gurram（2010）的研究顯示使用 full bandwidth RBF (FRBF) 核函數可以改善分類的一般化能力（generalization ability）。FRBF 定義為：

   

)

其中 D 為 the full diagonal bandwidth parameters matrix，其定義如下：

 的。因此提出一個核化特徵選取法（kernel-based feature selection, KFS），透過最佳的參數來決定特徵的最重要性，且利用這些重要特徵進行分類，不僅能加快分類速度，也能提高分類精準度。

在文檔中 Full Bandwidth RBF核函數參數自動挑選法與其在特徵選取之應用 (頁 16-22)

第一章 緒論

第二節 研究目的



   

第一章緒論

第二節研究目的