第三章 研究方法
第一節 自動 F ULL -B ANDWIDTH RBF 核參數挑選法
Full-bandwidth RBF (FRBF)核函數(Kwon & Gurram, 2010)的定義為:
其中 D 為 the full diagonal bandwidth parameters matrix,其定義如下:
雖然 FRBF 核函數比起傳統的 RBF 核函數更加的彈性且能改善分類的一般 化能力(generalization ability) 。但在資料使用的維度增加時,使用交叉驗證(cross-validation)與網格搜尋(grid search)來預先確定核參數之最佳參數是相當費時且
圖 3-1-2 Easy Donut 資料集之特徵 1 與特徵 2
若考慮第 1 個特徵與第 5 個特徵所形成的散佈圖(圖 3-1-2),不難發現在特 徵 1 中,第 1 類(紅色)是集中於中間,第 2 類(藍色)則散佈於-6 到+6 之間。
然而第 5 個特徵(雜訊),兩類資料散佈情況類似。考慮第 2 個特徵與第 11 個特 徵所形成的散佈圖(圖 3-1-3),也有類似的現象。
圖 3-1-3 Easy Donut 資料集之特徵 1 與特徵 5
圖 3-1-4 Easy Donut 資料集之特徵 2 與特徵 11
若考慮第 4 個特徵(雜訊)與第 7 個特徵(雜訊)所形成的散佈圖(圖 3-1-4),可以發現資料是均勻的分散在此二度平面空間中。
圖 3-1-5 Easy Donut 資料集之特徵 4 與特徵 7
由圖 3-1-1、圖 3-1-2、圖 3-1-3 和圖 3-1-4 散佈圖可以得知,除了第 1 與第 2 兩個特徵一起搭配外,任何倆倆搭配的特徵子集合,皆不是最大的線性分離量。
為了瞭解提出的方法是否真的能夠找出 FRBF 核函數最佳參數位置,將仿照 圖 2-2-1 與圖 2-2-3,探討J(1,2)與正確率之間的關係。首先,我們只考慮 Easy Donut 資料集前面兩個真實維度,即忽略掉雜訊的維度。然後,使用 Kuncheva 和 Vetrov(2006)提供的 Easy Donut 提供的資料集生成函數,分別產生每類 50 個訓 練樣本與 50 個測試樣本。再利用訓練樣本算出不同1、2下的J(1,2)值,如 圖 3-1-5。最後,在計算出不同1、2下的分類正確率,如圖 3-1-6。
圖 3-1-6 1、2與其對應的J(1,2)值
從圖 3-1-5 中我們也可以發現,J()為一個曲面且具有最小值,最小值的位 置發生在(1,2)(0.1,0.2)附近。我們將圖 3-1-5 與圖 3-1-6 進行比較,可以發現 從圖 3-1-5 找出的最佳參數,其相對應於圖 3-1-6 的正確率也在最高正確率附近。
1
2
圖 3-1-7 不同參數1、2下之測試樣本正確率
由 Easy Donut 資料集所得到的結果可以驗證,使用這個最佳參數選擇法,我 們也可以有效且快速地找到基於 FRBF 核函數之支撐向量機的最佳參數。但由於 在實際的數據集中,這些參數的數量可能會非常大量,因此我們使用基因演算法
(genetic algorithm, GA)來解決最佳化問題(Goldberg, 1989;Conn, Gould, & Toint, 1991;Conn, Gould, & Toint, 1997)。
綜合以上所說,本研究將自動核函數參數挑選法概念應用於尋找 FRBF 核函 數的最佳參數所提出方法之步驟如下:
步驟一::在基於訓練樣本 ji j N Rd
i
1, , ) ( } x
{ ,解最佳化問題
) , , (
min 1
,
1,
J d
d
並獲得適當的參數1*,,d*。
步驟二: 應用交叉驗證(cross-validation)決定在最佳參數1*,,d*下,基於 FRBF
1
2
核函數之支撐向量機的懲罰參數 C。
我們必須先求得每一個特徵的標準化值(z-score) (Dell’Acqua, Gamba, & Ferrari, 2003;Benediktsson, Palmason, & Sveinsson, 2005;Goldberg, 1989)。其標準化過 程作法如下:
FRBF 核函數之最佳參數(band widths)將被用來決定特徵的重要性,即我們提