第二章 文獻探討
第三節 特徵選取與萃取
解決高維度的問題,常常使用減低資料維度的方法來克服因為維度過高而無 法估計建構分類器的問題。基本上資料可以利用兩種不同的方法來減少維度,通 常有特徵選取方法及特徵萃取方法。特徵選取是選擇對分類貢獻大的特徵,在分 類問題上,可以忽略那些對分類幫助不大的特徵,可從原始 p 個維度中選出 r 個 特徵(也就是 r 維度,其中 r 遠小於 p),如圖 2-5(a)為特徵選取視為可見的,可直 接看出從原始空間選取那些特徵。特徵萃取方法是從原始 p 維度的原空間轉換到 更低維度 r 的特徵空間,如圖 2-5(b)為特徵萃取視為一黑箱,無法得知所得的特 徵是如何組成,轉換可以是原始空間的線性或非線性組合,主要是找到可使類別 更容易分類的特徵。
p r p r (linear discriminant analysis, lda)的類別分離量(class separability)作為特徵重要程 度的權值。而線性區別分析的定義如下: 線性區別分析在統計上是估計組間分散矩陣(between-class scatter matrix) 、組 內 分 散 矩 陣 (within-class scatter matrix) 及 混 合 分 散 矩 陣 (mixture scatter matrix)( ,組內分散矩陣表示為(Fukunaga, 1990):
Sb
在此Pj是指類別 j 的先驗機率(prior probability),Mj是 j 類別的平均向量而Σj是 j 辨識資訊的互補性,再透過組合的策略,能有效提高效能(Skurichina & Duin, 2001)。隨機子空間方法使用的第一步驟為設定固定的子空間的維度r,也就是隨
yi 是 xi的類別。L 是類別數,C 為分類決策解集合。而 N 是訓練樣 _selection D r Subspace
Db =
) ( b
b Learner D h =
第五節 核平滑化法
)
參、支撐向量分類器
支撐向量分類器是新的分類工具,是近年來受注目的研究主題。支撐向量分 類器的理論是基於結構風險最小化(structural risk minimization)的概念,在許多應 用中,支撐向量分類器比傳統學習機制有更好的辨識結果,在解決分類問題上己 經是強力的工具之一。支撐向量分類器將輸入資料映射至高維度特徵空間且尋找 可分離 2 個類別的空間中,具有最大邊界(margin)的可分離超平面(hyperplane),
最大化邊界是二次規劃(quadratic programming, qp)問題,能經由 Lagrangian 乘數 轉變成對偶格式的問題來解決。支撐向量分類器尋找最佳平面是利用特徵空間中 面的(2-10),可將問題以 Lagrangian 來解決且將原問題轉成對偶形式
N
N
第三章 改良的隨機子空間方法
隨機子空間方法的分類效能是根據分類器、訓練樣本點數及子空間維度三個 因素來決定,當分類器與訓練樣本點數固定時,辨識正確率是按照隨機子空間的 子空間維度r決定,本研究中所研究的維度r是相當重要的。此外在原本的隨機子 空間方法中,每次分類器所選擇的特徵,對於分類的貢獻是同等重要的,但是每 個特徵應該是具不同的重要性,較重要的特徵應提高被選取的機會。在本章中,
將提出3種不同的隨機子空間方法,這3種方法的自動選擇維度方法是在訓練期 間,依照核平滑化法所估計的子空間維度重要程度分佈R來選取,而其中加權隨 機子空間方法(weighted random subspace method, WRSM)則是依照特徵的重要程 度的不同所建構重要程度分佈W。其如表3-1所示:
表 3-1 本研究所提出演算法列示
全名 縮寫 說明
random subspace method based on kernel smoothing
RSM_KS
原隨機子空間方法由核平滑 化法所估計的子空間維度分 佈 R 來自動選取子空間維度 r。
weighted random subspace method based on kernel smoothing 1
WRSM_KS1
RSM_KS 使用訓練樣本辨識 正確率,作為特徵重要程度 分佈 W 的加權。
weighted random subspace method based on kernel smoothing 2
WRSM_KS2
RSM_KS 使用線性區別分析 類別分離量,作為特徵重要 程度分佈 W 的加權。
第一節 RSM_KS 演算法
k Learner D h =
計算正規化的ACC(hk)作為 R 分佈的初始分佈 R0,在此 ACC(hk)是使 用訓練樣本資料於 hk的辨識正確率。
end
b Dimension selection
r R Subspace_selection 獲得,每個資料集輸入經分類器學習演算法 Learner 可得分類 器 hb ,再以 hb的訓練樣本辨識正確率作為權值,以核平滑化來更新 R。這程序
( ) ( ),
})
b Dimension selection
r R 至 1 之間的機率分配函數,Subspace_selection 將根據 W 從原空間{1,2,…,p}隨機 抽取 rb個子空間集合Ab ={d1,K,dr},之後的程序同 RSM_KS 方法。
b
第三節 WRSM2_KS2 演算法
WRSM_KS2 也是更改隨機子空間方法的特徵選取方法,由線性區別分析 的最佳化目標函數,來建構特徵重要程度分佈函數 W,而在選取維度的方法也是 和 RSM_KS 相同。
[WRSM_KS2 演算法]
輸入:D ={(xi,yi)|1≤i ≤ N}, xi∈X ⊂ℜp, yi ∈{1,K,L}⊂C,i=1,KN 在此 yi 是 xi的類別。L 是類別數,C 為分類決策解集合。而 N 是訓練樣本點數。
分類器學習演算法 Learner 分類器個數 B
估計R0的分類器個數 B0 子空間維度重要分佈 R R 的初始分佈 R0
計算訓練樣本的辨識正確率 ACC 特徵重要程度分佈 W
線性區別分析類別分離量條件 J 輸出:
最終決策 hfinal :Χ→C 由 B 個分類器組合所得 BEGIN
for q = 1 to p
Wq= J((xiq,yi)|i=1,..N})
計算每個特徵的類別分離量。計算方法如(18),可得各個特徵的類別 分離量作為權重值。
正規化 W 的權值於[0,1]範圍
k Learner D h =
b Dimension selection
r R 重要權值後,將 W 正規化成為介於 0 至 1 之間的機率分配函數。Subspace_selection
將根據 W 從原空間{1,2,…,p}隨機抽取 rb個子空間集合 { 1, , }
rb
b d d
A = K ,之後的程 序同 RSM_KS 方法。
第四章 研究設計
在本章的實驗設計中,首先要驗證提出的演算法,是否能解決原先的隨機子 空間方法的維度選取問題,再來對於特徵選取的方式,以提出的加權方式在效能 上能否改善,接著探討組合的分類器個數對於分類效能及效率的影響,然後是不 同分類器是否對於子空間維度的具偏好性。本研究將以二種高光譜的遙測影像真 實資料及教育測驗資料來驗證提出方法的可行性。
第一節 資料描述
壹、Washington DC Mall 資料集
Washington DC Mall 都市地區的高光譜影像資料,如圖 4-1 所示是感測器從 0.4 到 2.4 µm 取 210 個波段,包含可視光區域及內紅外線光譜,資料大小大概 為 150 Megabytes,因為去除水所造成的雜訊,故在本實驗只使用 191 波段,共 有 7 個類別,分別是建築物(Roofs)、路面(Road)、小路(Trail)、草地(Grass)、樹林 (Trees)、水(Water)及陰影(Shadow)。
貳、Indian Pine Site 資料集
Indian Pine Site 為森林和農作物地區是 1992 年 6 月所收集的資料,取 Indiana 州西北 100 平方公里區域如圖 4-2,共 9 個類別,分別為玉米田己耕地 Corn-clean till)、玉米田未耕地(Corn-no till)、玉米略耕地(Corn-min till)、牧草地
(Grass/Pasture)、林地(Woods)、乾草地(Hay-windrowed)、大豆未耕地(Soybean no till)、大豆略耕地(Soybean-min till)和大豆己耕地(Soybean-clean till)
圖 4-2 Indian Pine Site 紅外線空拍圖
圖 4-1 Washington DC 紅外線空拍圖
參、教育測驗資料集
利用樣式辨識技術建立針對測驗資料之分類系統,作為補救教學分類之用,
有利補救教學的分群,可因材施教,縮短補救教學時間,而教學診斷的應用為小 樣本高維度的問題。採用擴分、約分教材是九十二學年國小六年級數學教材使用 的版本,依照民國 82 年新課程綱要編輯而成,配合施測學校使用的情形施測後,
進行試卷批閱及成績登錄,將學生作答情形根據「擴分、約分」單元教材專家知
識結構進行補救教學類型的分類。本研究「擴分、約分」單元紙筆測驗計有 27 題,有效樣本點數 1192 個,用以進行實驗,測試所得之學生側面圖,各錯誤類 型組別的學生人數,如表 4-1。
表 4-1 擴分、約分錯誤類型組別 組別 人數 需進行補救教學之概念
1 89 「兩異分母比較大小」
2 31 「兩異分母比較大小」、「通分」
3 186 「最簡分數」
4 154 「最簡分數」、「兩異分母比較大小」
5 62 「最簡分數」、「兩異分母比較大小」、「通分」
6 41 「約分」
7 80 「最簡分數」、「約分」、「兩異分母比較大小」
8 59 「最簡分數」、「約分」、「兩異分母比較大小」、「通分」
9 63 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分 母比較」、「通分」
10 59 需重新學習「最簡分數」、「約分」、「公因數」、「等值分數」、
「兩異分母比較」、「兩同分母比較」、「公倍數」
11 79 「最簡分數」、「約分」、「兩異分母比較」、「通分」、「兩同 分母比較
12 77 「最簡分數」、「約分」、「兩異分母比較」、「兩同分母比 較」、「公倍數」、「擴分」
13 35 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分 母比較」、「兩同分母比較」、「公倍數」、「擴分」
14 150 所以概念都需重新學習
15 27 加強練習(粗心犯錯)
合計 1192
第二節 實驗描述
在實驗中為了解不同訓練樣本點數的影響,從 2 種高維度資料中,抽取不同 數目的訓練樣本點數作為實驗資料集。在 Washington DC Mall 資料中,訓練樣本 點數分為每個類別各 20、40 及 100,分為實驗 1、實驗 2 及實驗 3,實驗抽取每 個類別各 100 個測試樣本點數,而在 Indian Pine Site 資料,抽取訓練樣本點數分 為每個類別各 20、40 及 100,分為實驗 4、實驗 5 及實驗 6,實驗抽取每個類別 各 200 個測試樣本點數。在教育測驗資料中,訓練樣本點數分為每個類別各 10 及 20,分為實驗 7 及實驗 8,測試樣本為除訓練樣本點數外的全部樣本。本研究 隨機選取 10 組訓練及測試樣本集進行實驗,Washington DC Mall 資料集的實驗樣 本點數如表 4-2,Indian Pine Site 資料集的實驗樣本點數如表 4-3,教育測驗資料 集的實驗樣本點數如表 4-4,而各實驗中所使用的 3 種分類器的設定、實驗的比 較基準和改良的演算法,列在表 4-5。在每一個實驗中的參數設定部份詳述如下。
本研究的核平滑化帶寬σ 設定為 5,為探討分類器個數 B 的影響,在 3 個實 驗中,針對 B 值為 20、50 和 100 的情形進行比較。高斯分類器、k 最近鄰法和支 撐向量分類器,各分類器的參數設定為,支撐向量分類器是使用 rbf(radial basis function) kernel,並以 5-fold cross-validation 法來選取參數,k 最近鄰法的 k 值設 為 1。在比較基準方面,本研究所提出的 3 種演算法將與使用單一基準分類器及 使用網格法的隨機子空間方法進行比較。網格法的範圍是由第 5 維閞始,每 5 維 建構原隨機子空間方法至每 1 類別的最大訓練樣本點數為止。
表 4-2 Washington DC Mall 資料集實驗設計
維度 191
類別數 7
實驗 實驗 1 實驗 2 實驗 3
訓練樣本點數
(個別類別) 20 40 100
總訓練樣本 140 280 700
測試樣本點數
(個別類別) 100
總測試樣本 700
表 4-3 Indian Pine Site 資料集實驗設計
維度 220
類別數 9
實驗 實驗 4 實驗 5 實驗 6
訓練樣本點數
(個別類別) 20 40 100
總訓練樣本 180 360 900
測試樣本點數
(個別類別) 200
總測試樣本 1800
表 4-4 教育測驗資料集實驗設計
維度 27
類別數 15
實驗 實驗 7 實驗 8
訓練樣本點數
(個別類別) 10 20
總訓練樣本 150 300
總測試樣本 1042 892
表 4-5 本研究比較之演算法
縮寫 說明
Single
高斯分類器(qdc)、k 最近鄰分類器(knnc, k=1)及支撐 向量分類器使用 rbf kernel(svc,用 5-fold 法取參數)。
RSM_grid
原隨機子空間方法使用網格法來找尋最佳辨識正確 率,Washington DC Mall 資料的實驗 1 至 3 中,維度 網格分別設為[5, 10, 15, 20]、[5, 10, ..., 40]及[5, 10, …, 100]。Indian Pine Site 的實驗 4 至 6 中,維度網格分 別設為[5, 10, 15, 20]、[5, 10, ..., 40]及[5, 10, …, 100]。教育測驗資料在實驗 7 維度網格為[5,10],在 實驗 8,為[5,10,...,20]。
RSM_KS
原隨機子空間方法由核平滑化法所估計的重要分佈 來自動選取維度。
WRSM_KS1 RSM_KS 用訓練樣本辨識正確率作為特徵加權。
WRSM_KS1 RSM_KS 用訓練樣本辨識正確率作為特徵加權。