特徵選取與萃取

第二章文獻探討

第三節特徵選取與萃取

解決高維度的問題，常常使用減低資料維度的方法來克服因為維度過高而無法估計建構分類器的問題。基本上資料可以利用兩種不同的方法來減少維度，通常有特徵選取方法及特徵萃取方法。特徵選取是選擇對分類貢獻大的特徵，在分 類問題上，可以忽略那些對分類幫助不大的特徵，可從原始 p 個維度中選出 r 個 特徵(也就是 r 維度，其中 r 遠小於 p)，如圖 2-5(a)為特徵選取視為可見的，可直 接看出從原始空間選取那些特徵。特徵萃取方法是從原始 p 維度的原空間轉換到 更低維度 r 的特徵空間，如圖 2-5(b)為特徵萃取視為一黑箱，無法得知所得的特 徵是如何組成，轉換可以是原始空間的線性或非線性組合，主要是找到可使類別更容易分類的特徵。

p r p r (linear discriminant analysis, lda)的類別分離量(class separability)作為特徵重要程度的權值。而線性區別分析的定義如下：線性區別分析在統計上是估計組間分散矩陣(between-class scatter matrix) 、組內分散矩陣 (within-class scatter matrix) 及混合分散矩陣 (mixture scatter matrix)( ，組內分散矩陣表示為(Fukunaga, 1990)：

在此P_j是指類別 j 的先驗機率(prior probability)，M_j是 j 類別的平均向量而Σ_j是 j 辨識資訊的互補性，再透過組合的策略，能有效提高效能(Skurichina & Duin, 2001)。隨機子空間方法使用的第一步驟為設定固定的子空間的維度r，也就是隨

yi 是 xi的類別。L 是類別數，C 為分類決策解集合。而 N 是訓練樣 _selection D r Subspace

D_b =

) ( _b

b Learner D h =

第五節核平滑化法

)

參、支撐向量分類器

支撐向量分類器是新的分類工具，是近年來受注目的研究主題。支撐向量分類器的理論是基於結構風險最小化(structural risk minimization)的概念，在許多應用中，支撐向量分類器比傳統學習機制有更好的辨識結果，在解決分類問題上己經是強力的工具之一。支撐向量分類器將輸入資料映射至高維度特徵空間且尋找可分離 2 個類別的空間中，具有最大邊界(margin)的可分離超平面(hyperplane)，

最大化邊界是二次規劃(quadratic programming, qp)問題，能經由 Lagrangian 乘數轉變成對偶格式的問題來解決。支撐向量分類器尋找最佳平面是利用特徵空間中面的(2-10)，可將問題以 Lagrangian 來解決且將原問題轉成對偶形式

第三章改良的隨機子空間方法

隨機子空間方法的分類效能是根據分類器、訓練樣本點數及子空間維度三個因素來決定，當分類器與訓練樣本點數固定時，辨識正確率是按照隨機子空間的 子空間維度r決定，本研究中所研究的維度r是相當重要的。此外在原本的隨機子 空間方法中，每次分類器所選擇的特徵，對於分類的貢獻是同等重要的，但是每個特徵應該是具不同的重要性，較重要的特徵應提高被選取的機會。在本章中，

將提出3種不同的隨機子空間方法，這3種方法的自動選擇維度方法是在訓練期間，依照核平滑化法所估計的子空間維度重要程度分佈R來選取，而其中加權隨機子空間方法(weighted random subspace method, WRSM)則是依照特徵的重要程度的不同所建構重要程度分佈W。其如表3-1所示：

表 3-1 本研究所提出演算法列示

全名縮寫說明

random subspace method based on kernel smoothing

RSM_KS

原隨機子空間方法由核平滑化法所估計的子空間維度分佈 R 來自動選取子空間維度 r。

weighted random subspace method based on kernel smoothing 1

WRSM_KS1

RSM_KS 使用訓練樣本辨識正確率，作為特徵重要程度分佈 W 的加權。

weighted random subspace method based on kernel smoothing 2

WRSM_KS2

RSM_KS 使用線性區別分析類別分離量，作為特徵重要程度分佈 W 的加權。

第一節 RSM_KS 演算法

k Learner D h =

計算正規化的ACC(h_k)作為 R 分佈的初始分佈 R₀，在此 ACC(h_k)是使 用訓練樣本資料於 h_k的辨識正確率。

end

b Dimension selection

r R Subspace_selection 獲得，每個資料集輸入經分類器學習演算法 Learner 可得分類 器 h_b ，再以 h_b的訓練樣本辨識正確率作為權值，以核平滑化來更新 R。這程序

( ) ( ),

})

b Dimension selection

r R 至 1 之間的機率分配函數，Subspace_selection 將根據 W 從原空間{1,2,…,p}隨機 抽取 r_b個子空間集合A_b ={d₁,K,d_r}，之後的程序同 RSM_KS 方法。

第三節 WRSM2_KS2 演算法

WRSM_KS2 也是更改隨機子空間方法的特徵選取方法，由線性區別分析的最佳化目標函數，來建構特徵重要程度分佈函數 W，而在選取維度的方法也是和 RSM_KS 相同。

[WRSM_KS2 演算法]

輸入：D ={(x_i,y_i)|1≤i ≤ N}, x_i∈X ⊂ℜ^p, y_i ∈{1,K,L}⊂C,i=1,KN 在此 y_i 是 x_i的類別。L 是類別數，C 為分類決策解集合。而 N 是訓練樣本點數。

分類器學習演算法 Learner 分類器個數 B

估計R0的分類器個數 B₀ 子空間維度重要分佈 R R 的初始分佈 R0

計算訓練樣本的辨識正確率 ACC 特徵重要程度分佈 W

線性區別分析類別分離量條件 J 輸出：

最終決策 h_final :Χ→C 由 B 個分類器組合所得 BEGIN

for q = 1 to p

Wq= J((x_iq_,y_i)|i=1,..N})

計算每個特徵的類別分離量。計算方法如(18)，可得各個特徵的類別分離量作為權重值。

正規化 W 的權值於[0,1]範圍

k Learner D h =

b Dimension selection

r R 重要權值後，將 W 正規化成為介於 0 至 1 之間的機率分配函數。Subspace_selection

將根據 W 從原空間{1,2,…,p}隨機抽取 r_b個子空間集合 { ₁, , }

b d d

A = K ，之後的程序同 RSM_KS 方法。

第四章研究設計

在本章的實驗設計中，首先要驗證提出的演算法，是否能解決原先的隨機子空間方法的維度選取問題，再來對於特徵選取的方式，以提出的加權方式在效能上能否改善，接著探討組合的分類器個數對於分類效能及效率的影響，然後是不同分類器是否對於子空間維度的具偏好性。本研究將以二種高光譜的遙測影像真實資料及教育測驗資料來驗證提出方法的可行性。

第一節資料描述

壹、Washington DC Mall 資料集

Washington DC Mall 都市地區的高光譜影像資料，如圖 4-1 所示是感測器從 0.4 到 2.4 µm 取 210 個波段，包含可視光區域及內紅外線光譜，資料大小大概為 150 Megabytes，因為去除水所造成的雜訊，故在本實驗只使用 191 波段，共有 7 個類別，分別是建築物(Roofs)、路面(Road)、小路(Trail)、草地(Grass)、樹林 (Trees)、水(Water)及陰影(Shadow)。

貳、Indian Pine Site 資料集

Indian Pine Site 為森林和農作物地區是 1992 年 6 月所收集的資料，取 Indiana 州西北 100 平方公里區域如圖 4-2，共 9 個類別，分別為玉米田己耕地 Corn-clean till)、玉米田未耕地(Corn-no till)、玉米略耕地(Corn-min till)、牧草地

(Grass/Pasture)、林地(Woods)、乾草地(Hay-windrowed)、大豆未耕地(Soybean no till)、大豆略耕地(Soybean-min till)和大豆己耕地(Soybean-clean till)

圖 4-2 Indian Pine Site 紅外線空拍圖

圖 4-1 Washington DC 紅外線空拍圖

參、教育測驗資料集

利用樣式辨識技術建立針對測驗資料之分類系統，作為補救教學分類之用，

有利補救教學的分群，可因材施教，縮短補救教學時間，而教學診斷的應用為小樣本高維度的問題。採用擴分、約分教材是九十二學年國小六年級數學教材使用的版本，依照民國 82 年新課程綱要編輯而成，配合施測學校使用的情形施測後，

進行試卷批閱及成績登錄，將學生作答情形根據「擴分、約分」單元教材專家知

識結構進行補救教學類型的分類。本研究「擴分、約分」單元紙筆測驗計有 27 題，有效樣本點數 1192 個，用以進行實驗，測試所得之學生側面圖，各錯誤類型組別的學生人數，如表 4-1。

表 4-1 擴分、約分錯誤類型組別組別人數需進行補救教學之概念

1 89 「兩異分母比較大小」

2 31 「兩異分母比較大小」、「通分」

3 186 「最簡分數」

4 154 「最簡分數」、「兩異分母比較大小」

5 62 「最簡分數」、「兩異分母比較大小」、「通分」

6 41 「約分」

7 80 「最簡分數」、「約分」、「兩異分母比較大小」

8 59 「最簡分數」、「約分」、「兩異分母比較大小」、「通分」

9 63 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分母比較」、「通分」

10 59 需重新學習「最簡分數」、「約分」、「公因數」、「等值分數」、

「兩異分母比較」、「兩同分母比較」、「公倍數」

11 79 「最簡分數」、「約分」、「兩異分母比較」、「通分」、「兩同分母比較

12 77 「最簡分數」、「約分」、「兩異分母比較」、「兩同分母比較」、「公倍數」、「擴分」

13 35 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分母比較」、「兩同分母比較」、「公倍數」、「擴分」

14 150 所以概念都需重新學習

15 27 加強練習（粗心犯錯）

合計 1192

第二節實驗描述

在實驗中為了解不同訓練樣本點數的影響，從 2 種高維度資料中，抽取不同數目的訓練樣本點數作為實驗資料集。在 Washington DC Mall 資料中，訓練樣本點數分為每個類別各 20、40 及 100，分為實驗 1、實驗 2 及實驗 3，實驗抽取每個類別各 100 個測試樣本點數，而在 Indian Pine Site 資料，抽取訓練樣本點數分為每個類別各 20、40 及 100，分為實驗 4、實驗 5 及實驗 6，實驗抽取每個類別各 200 個測試樣本點數。在教育測驗資料中，訓練樣本點數分為每個類別各 10 及 20，分為實驗 7 及實驗 8，測試樣本為除訓練樣本點數外的全部樣本。本研究隨機選取 10 組訓練及測試樣本集進行實驗，Washington DC Mall 資料集的實驗樣本點數如表 4-2，Indian Pine Site 資料集的實驗樣本點數如表 4-3，教育測驗資料集的實驗樣本點數如表 4-4，而各實驗中所使用的 3 種分類器的設定、實驗的比較基準和改良的演算法，列在表 4-5。在每一個實驗中的參數設定部份詳述如下。

本研究的核平滑化帶寬σ 設定為 5，為探討分類器個數 B 的影響，在 3 個實 驗中，針對 B 值為 20、50 和 100 的情形進行比較。高斯分類器、k 最近鄰法和支 撐向量分類器，各分類器的參數設定為，支撐向量分類器是使用 rbf(radial basis function) kernel，並以 5-fold cross-validation 法來選取參數，k 最近鄰法的 k 值設 為 1。在比較基準方面，本研究所提出的 3 種演算法將與使用單一基準分類器及使用網格法的隨機子空間方法進行比較。網格法的範圍是由第 5 維閞始，每 5 維建構原隨機子空間方法至每 1 類別的最大訓練樣本點數為止。

表 4-2 Washington DC Mall 資料集實驗設計

維度 191

類別數 7

實驗實驗 1 實驗 2 實驗 3

訓練樣本點數

(個別類別) 20 40 100

總訓練樣本 140 280 700

測試樣本點數

(個別類別) 100

總測試樣本 700

表 4-3 Indian Pine Site 資料集實驗設計

維度 220

類別數 9

實驗實驗 4 實驗 5 實驗 6

訓練樣本點數

(個別類別) 20 40 100

總訓練樣本 180 360 900

測試樣本點數

(個別類別) 200

總測試樣本 1800

表 4-4 教育測驗資料集實驗設計

維度 27

類別數 15

實驗實驗 7 實驗 8

訓練樣本點數

(個別類別) 10 20

總訓練樣本 150 300

總測試樣本 1042 892

表 4-5 本研究比較之演算法

縮寫說明

Single

高斯分類器(qdc)、k 最近鄰分類器(knnc, k=1)及支撐 向量分類器使用 rbf kernel(svc,用 5-fold 法取參數)。

RSM_grid

原隨機子空間方法使用網格法來找尋最佳辨識正確率，Washington DC Mall 資料的實驗 1 至 3 中，維度網格分別設為[5, 10, 15, 20]、[5, 10, ..., 40]及[5, 10, …, 100]。Indian Pine Site 的實驗 4 至 6 中，維度網格分別設為[5, 10, 15, 20]、[5, 10, ..., 40]及[5, 10, …, 100]。教育測驗資料在實驗 7 維度網格為[5,10]，在實驗 8，為[5,10,...,20]。

RSM_KS

原隨機子空間方法由核平滑化法所估計的重要分佈來自動選取維度。

WRSM_KS1 RSM_KS 用訓練樣本辨識正確率作為特徵加權。

在文檔中利用核平滑化自動選取參數於隨機子空間方法 (頁 18-0)

第二章 文獻探討

第三節 特徵選取與萃取

第五節 核平滑化法

參、支撐向量分類器

第三章 改良的隨機子空間方法

第一節 RSM_KS 演算法

第三節 WRSM2_KS2 演算法

第四章 研究設計

第一節 資料描述

壹、Washington DC Mall 資料集

貳、Indian Pine Site 資料集

參、教育測驗資料集

第二節 實驗描述

第二章文獻探討

第三節特徵選取與萃取

第五節核平滑化法

第三章改良的隨機子空間方法

第四章研究設計

第一節資料描述

第二節實驗描述