自動 F ULL -B ANDWIDTH RBF 核參數挑選法

第三章研究方法

第一節自動 F ULL -B ANDWIDTH RBF 核參數挑選法

Full-bandwidth RBF (FRBF)核函數（Kwon & Gurram, 2010）的定義為：

    

其中 D 為 the full diagonal bandwidth parameters matrix，其定義如下：



雖然 FRBF 核函數比起傳統的 RBF 核函數更加的彈性且能改善分類的一般化能力（generalization ability）。但在資料使用的維度增加時，使用交叉驗證（cross-validation）與網格搜尋（grid search）來預先確定核參數之最佳參數是相當費時且

圖 3-1-2 Easy Donut 資料集之特徵 1 與特徵 2

若考慮第 1 個特徵與第 5 個特徵所形成的散佈圖（圖 3-1-2），不難發現在特徵 1 中，第 1 類（紅色）是集中於中間，第 2 類（藍色）則散佈於-6 到+6 之間。

然而第 5 個特徵（雜訊），兩類資料散佈情況類似。考慮第 2 個特徵與第 11 個特徵所形成的散佈圖（圖 3-1-3），也有類似的現象。

圖 3-1-3 Easy Donut 資料集之特徵 1 與特徵 5

圖 3-1-4 Easy Donut 資料集之特徵 2 與特徵 11

若考慮第 4 個特徵（雜訊）與第 7 個特徵（雜訊）所形成的散佈圖（圖 3-1-4），可以發現資料是均勻的分散在此二度平面空間中。

圖 3-1-5 Easy Donut 資料集之特徵 4 與特徵 7

由圖 3-1-1、圖 3-1-2、圖 3-1-3 和圖 3-1-4 散佈圖可以得知，除了第 1 與第 2 兩個特徵一起搭配外，任何倆倆搭配的特徵子集合，皆不是最大的線性分離量。

為了瞭解提出的方法是否真的能夠找出 FRBF 核函數最佳參數位置，將仿照圖 2-2-1 與圖 2-2-3，探討J(₁,₂)與正確率之間的關係。首先，我們只考慮 Easy Donut 資料集前面兩個真實維度，即忽略掉雜訊的維度。然後，使用 Kuncheva 和 Vetrov（2006）提供的 Easy Donut 提供的資料集生成函數，分別產生每類 50 個訓練樣本與 50 個測試樣本。再利用訓練樣本算出不同₁、₂下的J(₁,₂)值，如圖 3-1-5。最後，在計算出不同₁、₂下的分類正確率，如圖 3-1-6。

圖 3-1-6 ₁、₂與其對應的J(₁,₂)值

從圖 3-1-5 中我們也可以發現，J()為一個曲面且具有最小值，最小值的位置發生在(₁,₂)(0.1,0.2)附近。我們將圖 3-1-5 與圖 3-1-6 進行比較，可以發現從圖 3-1-5 找出的最佳參數，其相對應於圖 3-1-6 的正確率也在最高正確率附近。

1

2

圖 3-1-7 不同參數₁、₂下之測試樣本正確率

由 Easy Donut 資料集所得到的結果可以驗證，使用這個最佳參數選擇法，我們也可以有效且快速地找到基於 FRBF 核函數之支撐向量機的最佳參數。但由於在實際的數據集中，這些參數的數量可能會非常大量，因此我們使用基因演算法

（genetic algorithm, GA）來解決最佳化問題（Goldberg, 1989；Conn, Gould, & Toint, 1991；Conn, Gould, & Toint, 1997）。

綜合以上所說，本研究將自動核函數參數挑選法概念應用於尋找 FRBF 核函數的最佳參數所提出方法之步驟如下：

步驟一:：在基於訓練樣本 _jⁱ _j _N R^d

i 

1, , ) ( } x

{ _ ，解最佳化問題

) , , (

min ₁

J d



 

 



並獲得適當的參數₁^*,,_d^*_。

步驟二: 應用交叉驗證（cross-validation）決定在最佳參數₁^*,,_d^*_{下，基於 FRBF}

1

2

核函數之支撐向量機的懲罰參數 C。

我們必須先求得每一個特徵的標準化值（z-score）（Dell’Acqua, Gamba, & Ferrari, 2003；Benediktsson, Palmason, & Sveinsson, 2005；Goldberg, 1989）。其標準化過程作法如下：

FRBF 核函數之最佳參數（band widths）將被用來決定特徵的重要性，即我們提

在文檔中 Full Bandwidth RBF核函數參數自動挑選法與其在特徵選取之應用 (頁 32-38)

第三章 研究方法

第一節 自動 F ULL -B ANDWIDTH RBF 核參數挑選法

    

第三章研究方法

第一節自動 F ULL -B ANDWIDTH RBF 核參數挑選法