第三章 改良的隨機子空間方法
第二節 WRSM_KS1 演算法
})
b Dimension selection
r R 至 1 之間的機率分配函數,Subspace_selection 將根據 W 從原空間{1,2,…,p}隨機 抽取 rb個子空間集合Ab ={d1,K,dr},之後的程序同 RSM_KS 方法。
b
第三節 WRSM2_KS2 演算法
WRSM_KS2 也是更改隨機子空間方法的特徵選取方法,由線性區別分析 的最佳化目標函數,來建構特徵重要程度分佈函數 W,而在選取維度的方法也是 和 RSM_KS 相同。
[WRSM_KS2 演算法]
輸入:D ={(xi,yi)|1≤i ≤ N}, xi∈X ⊂ℜp, yi ∈{1,K,L}⊂C,i=1,KN 在此 yi 是 xi的類別。L 是類別數,C 為分類決策解集合。而 N 是訓練樣本點數。
分類器學習演算法 Learner 分類器個數 B
估計R0的分類器個數 B0 子空間維度重要分佈 R R 的初始分佈 R0
計算訓練樣本的辨識正確率 ACC 特徵重要程度分佈 W
線性區別分析類別分離量條件 J 輸出:
最終決策 hfinal :Χ→C 由 B 個分類器組合所得 BEGIN
for q = 1 to p
Wq= J((xiq,yi)|i=1,..N})
計算每個特徵的類別分離量。計算方法如(18),可得各個特徵的類別 分離量作為權重值。
正規化 W 的權值於[0,1]範圍
k Learner D h =
b Dimension selection
r R 重要權值後,將 W 正規化成為介於 0 至 1 之間的機率分配函數。Subspace_selection
將根據 W 從原空間{1,2,…,p}隨機抽取 rb個子空間集合 { 1, , }
rb
b d d
A = K ,之後的程 序同 RSM_KS 方法。
第四章 研究設計
在本章的實驗設計中,首先要驗證提出的演算法,是否能解決原先的隨機子 空間方法的維度選取問題,再來對於特徵選取的方式,以提出的加權方式在效能 上能否改善,接著探討組合的分類器個數對於分類效能及效率的影響,然後是不 同分類器是否對於子空間維度的具偏好性。本研究將以二種高光譜的遙測影像真 實資料及教育測驗資料來驗證提出方法的可行性。
第一節 資料描述
壹、Washington DC Mall 資料集
Washington DC Mall 都市地區的高光譜影像資料,如圖 4-1 所示是感測器從 0.4 到 2.4 µm 取 210 個波段,包含可視光區域及內紅外線光譜,資料大小大概 為 150 Megabytes,因為去除水所造成的雜訊,故在本實驗只使用 191 波段,共 有 7 個類別,分別是建築物(Roofs)、路面(Road)、小路(Trail)、草地(Grass)、樹林 (Trees)、水(Water)及陰影(Shadow)。
貳、Indian Pine Site 資料集
Indian Pine Site 為森林和農作物地區是 1992 年 6 月所收集的資料,取 Indiana 州西北 100 平方公里區域如圖 4-2,共 9 個類別,分別為玉米田己耕地 Corn-clean till)、玉米田未耕地(Corn-no till)、玉米略耕地(Corn-min till)、牧草地
(Grass/Pasture)、林地(Woods)、乾草地(Hay-windrowed)、大豆未耕地(Soybean no till)、大豆略耕地(Soybean-min till)和大豆己耕地(Soybean-clean till)
圖 4-2 Indian Pine Site 紅外線空拍圖
圖 4-1 Washington DC 紅外線空拍圖
參、教育測驗資料集
利用樣式辨識技術建立針對測驗資料之分類系統,作為補救教學分類之用,
有利補救教學的分群,可因材施教,縮短補救教學時間,而教學診斷的應用為小 樣本高維度的問題。採用擴分、約分教材是九十二學年國小六年級數學教材使用 的版本,依照民國 82 年新課程綱要編輯而成,配合施測學校使用的情形施測後,
進行試卷批閱及成績登錄,將學生作答情形根據「擴分、約分」單元教材專家知
識結構進行補救教學類型的分類。本研究「擴分、約分」單元紙筆測驗計有 27 題,有效樣本點數 1192 個,用以進行實驗,測試所得之學生側面圖,各錯誤類 型組別的學生人數,如表 4-1。
表 4-1 擴分、約分錯誤類型組別 組別 人數 需進行補救教學之概念
1 89 「兩異分母比較大小」
2 31 「兩異分母比較大小」、「通分」
3 186 「最簡分數」
4 154 「最簡分數」、「兩異分母比較大小」
5 62 「最簡分數」、「兩異分母比較大小」、「通分」
6 41 「約分」
7 80 「最簡分數」、「約分」、「兩異分母比較大小」
8 59 「最簡分數」、「約分」、「兩異分母比較大小」、「通分」
9 63 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分 母比較」、「通分」
10 59 需重新學習「最簡分數」、「約分」、「公因數」、「等值分數」、
「兩異分母比較」、「兩同分母比較」、「公倍數」
11 79 「最簡分數」、「約分」、「兩異分母比較」、「通分」、「兩同 分母比較
12 77 「最簡分數」、「約分」、「兩異分母比較」、「兩同分母比 較」、「公倍數」、「擴分」
13 35 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分 母比較」、「兩同分母比較」、「公倍數」、「擴分」
14 150 所以概念都需重新學習
15 27 加強練習(粗心犯錯)
合計 1192
第二節 實驗描述
在實驗中為了解不同訓練樣本點數的影響,從 2 種高維度資料中,抽取不同 數目的訓練樣本點數作為實驗資料集。在 Washington DC Mall 資料中,訓練樣本 點數分為每個類別各 20、40 及 100,分為實驗 1、實驗 2 及實驗 3,實驗抽取每 個類別各 100 個測試樣本點數,而在 Indian Pine Site 資料,抽取訓練樣本點數分 為每個類別各 20、40 及 100,分為實驗 4、實驗 5 及實驗 6,實驗抽取每個類別 各 200 個測試樣本點數。在教育測驗資料中,訓練樣本點數分為每個類別各 10 及 20,分為實驗 7 及實驗 8,測試樣本為除訓練樣本點數外的全部樣本。本研究 隨機選取 10 組訓練及測試樣本集進行實驗,Washington DC Mall 資料集的實驗樣 本點數如表 4-2,Indian Pine Site 資料集的實驗樣本點數如表 4-3,教育測驗資料 集的實驗樣本點數如表 4-4,而各實驗中所使用的 3 種分類器的設定、實驗的比 較基準和改良的演算法,列在表 4-5。在每一個實驗中的參數設定部份詳述如下。
本研究的核平滑化帶寬σ 設定為 5,為探討分類器個數 B 的影響,在 3 個實 驗中,針對 B 值為 20、50 和 100 的情形進行比較。高斯分類器、k 最近鄰法和支 撐向量分類器,各分類器的參數設定為,支撐向量分類器是使用 rbf(radial basis function) kernel,並以 5-fold cross-validation 法來選取參數,k 最近鄰法的 k 值設 為 1。在比較基準方面,本研究所提出的 3 種演算法將與使用單一基準分類器及 使用網格法的隨機子空間方法進行比較。網格法的範圍是由第 5 維閞始,每 5 維 建構原隨機子空間方法至每 1 類別的最大訓練樣本點數為止。
表 4-2 Washington DC Mall 資料集實驗設計
維度 191
類別數 7
實驗 實驗 1 實驗 2 實驗 3
訓練樣本點數
(個別類別) 20 40 100
總訓練樣本 140 280 700
測試樣本點數
(個別類別) 100
總測試樣本 700
表 4-3 Indian Pine Site 資料集實驗設計
維度 220
類別數 9
實驗 實驗 4 實驗 5 實驗 6
訓練樣本點數
(個別類別) 20 40 100
總訓練樣本 180 360 900
測試樣本點數
(個別類別) 200
總測試樣本 1800
表 4-4 教育測驗資料集實驗設計
維度 27
類別數 15
實驗 實驗 7 實驗 8
訓練樣本點數
(個別類別) 10 20
總訓練樣本 150 300
總測試樣本 1042 892
表 4-5 本研究比較之演算法
縮寫 說明
Single
高斯分類器(qdc)、k 最近鄰分類器(knnc, k=1)及支撐 向量分類器使用 rbf kernel(svc,用 5-fold 法取參數)。
RSM_grid
原隨機子空間方法使用網格法來找尋最佳辨識正確 率,Washington DC Mall 資料的實驗 1 至 3 中,維度 網格分別設為[5, 10, 15, 20]、[5, 10, ..., 40]及[5, 10, …, 100]。Indian Pine Site 的實驗 4 至 6 中,維度網格分 別設為[5, 10, 15, 20]、[5, 10, ..., 40]及[5, 10, …, 100]。教育測驗資料在實驗 7 維度網格為[5,10],在 實驗 8,為[5,10,...,20]。
RSM_KS
原隨機子空間方法由核平滑化法所估計的重要分佈 來自動選取維度。
WRSM_KS1 RSM_KS 用訓練樣本辨識正確率作為特徵加權。
WRSM_KS2 RSM_KS 用線性區別分析類別分離量作為特徵加權。
第五章 結果及討論
本章將討論有關於所提出演算法的實驗結果,從 Washington DC Mall 資料集經 由實驗 1 至 3 所得的平均辨識正確率和標準差,列於表 5-1、5-2 及 5-3,執行時 間的結果於表 5-4。圖 5-1、5-2 及 5-3 顯示表 5-1 的比較圖表,圖 5-4、5-5 及 5-6 則是表 5-2,表 5-3 的比較則是顯示在圖 5-7、5-8 和 5-9,表 5-4 時間上的比較於 圖 5-10。Indian Pine Site 資料集的實驗 4 至 6 結果,在表 5-5、5-6 及 5-7 為平均 辨識正確率和標準差的結果,執行時間結果於表 5-8。實驗 4 的表 5-5 的比較結 果顯示於圖 5-11、5-12 及 5-13,實驗 5 的表 5-5 的結果則列示於圖 5-14、5-15 和 5-16,實驗 6 的比較結果則列於圖 5-17、5-18 及 5-19,而訓練時間的比較則是於 圖 5-20。教育測驗資料集的實驗 7 和實驗 8 的結果,在表 5-9 及 5-10 為平均辨識 正確率和標準差的結果,執行時間結果於表 5-11。實驗 7 的表 5-9 的比較結果顯 示於圖 5-21、5-22 及 5-23,實驗 8 的表 5-10 的結果則列示於圖 5-24、5-25 和 5-26,
而訓練時間的比較則是於圖 5-27。另外為顯示不同分類器具不同的維度偏好,以 Washington DC Mall 在實驗 3 且分類器個數為 100 (B=100) 情形下,使用
RSM_KS、WRSM_KS1 及 WRSM_KS2 的 qdc、knnc 及 svc 的 R 分佈與 W 分佈 於圖 5-28、圖 5-30 及圖 5-29 的圖形,看出分類器具不同的維度偏好情形。在表 5-12、5-13 與 5-14 則是隨機子空間方法使用網格法可得的最佳維度,此外圖 5-31 是 Washington DC Mall 的部份紅外線空照圖影像,可用來作為測試所提出之演算 法的運作效能,所用的分類器是實驗 3 且分類器個數為 100 (B=100)的分類器,所 得結果。圖 5-32 和 5-33 是 knnc 和 svc 單一分類器的分類結果圖用來與本研究所 提方法比較,圖 5-34、5-35 和 5-36 是分別是使用 RSM_KS、WRSM_KS1 及 WRSM_KS2 的 qdc 分類後結果分類結果圖。而圖 5-37、5-38 及 5-38 則是對應的 分類器換成 knnc 的分類結果分類結果圖。最後是圖 5-39、5-40 與 5-41 則是 svc 的分類結果分類結果圖。本研究發現如下所示:
1. 大部份的實驗結果顯示所提出的自動維度選取方法能解決子空間維度選 擇問題。
2. 在 Washington DC Mall 資 料 集 中 , 大 部 份 實 驗 的 WRSM_KS1 及 WRSM_KS2 表現得比單一分類器及 RSM_grid 法好。
3. 在 Indian Pine Site 資料集中,各方法的實驗表現和 RSM_grid 大致相同。
4. 當訓練樣本點數小時(實驗 1 及實驗 4),分類器個數 B 參數需較大才能得 到較好的結果。在實験 2、實驗 3、實驗 5 及實驗 6 時,使用較小的分類 器個數 B 值就能得到滿意的結果,訓練樣本點數越多的實驗,所需要的分 類器個數就越少。
5. 在時間的花費上,所提出的演算法在實驗 1 至實驗 6 中,與網格法比較,
所需的時間較少,如圖 5-10 及 5-20。
6. 顯示 Washington DC Mall 的實驗 3 且分類器個數為 100 的情形下,圖 5-28 至圖 5-30 為維度重要分佈 R 及特徵重要分佈 W,可看出每個分類器有不 同的子維度偏好,qdc 使用較低維度,knnc 和 svc 則是需要比較高的維度。
7. 由 Washington DC Mall 的部份空照圖上來看,圖 5-34 至圖 5-41 以本研究 所提出的方法分類後的結果,和圖 5-32 及 5-33 的單一分類器分類結果相 比,顯示改善分類的效果。
表 5-1 Washington DC Mall辨識正確率的平均及標準差(實驗 1) Classifier qdc knnc (k = 1) svc
Algorithm B accuracy std accuracy std accuracy std Single 1 0.143 0.0000 0.838 0.0170 0.830 0.0181 RSM_grid 20 0.925 0.0112 0.833 0.0176 0.805 0.0230 RSM_KS 20 0.923 0.0126 0.856 0.0144 0.830 0.0374 WRSM_KS1 20 0.935 0.0094 0.849 0.0160 0.832 0.0474 WRSM_KS2 20 0.930 0.0100 0.907 0.0172 0.818 0.0526 RSM_grid 50 0.935 0.0149 0.856 0.0172 0.821 0.0118 RSM_KS 50 0.931 0.0083 0.858 0.0153 0.836 0.0317 WRSM_KS1 50 0.941 0.0087 0.857 0.0161 0.815 0.0457 WRSM_KS2 50 0.936 0.0115 0.911 0.0189 0.770 0.0620 RSM_grid 100 0.935 0.0110 0.867 0.0141 0.816 0.0185 RSM_KS 100 0.932 0.0097 0.859 0.0182 0.824 0.0384 WRSM_KS1 100 0.943 0.0101 0.856 0.0160 0.810 0.0435 WRSM_KS2 100 0.937 0.0124 0.912 0.0162 0.764 0.0894
0.70
qdc knnc svc
Single
qdc knnc svc
Single
qdc knnc svc
Single
表 5-2 Washington DC Mall辨識正確率的平均及標準差(實驗 2) Classifier
qdc knnc (k=1) svc
Algorithm B accuracy std accuracy std accuracy std
Single 1 0.143 0.0000 0.880 0.0194 0.873 0.0116
RSM_grid 20 0.950 0.0088 0.886 0.0174 0.869 0.0203
RSM_KS 20 0.945 0.0105 0.893 0.0193 0.878 0.0130
WRSM_KS1 20 0.952 0.0099 0.887 0.0192 0.893 0.0127
WRSM_KS2 20 0.938 0.0100 0.934 0.0147 0.914 0.0070
RSM_grid 50 0.952 0.0118 0.897 0.0161 0.867 0.0227
RSM_KS 50 0.948 0.0100 0.897 0.0193 0.878 0.0152
WRSM_KS1 50 0.955 0.0109 0.894 0.0178 0.896 0.0122
WRSM_KS2 50 0.942 0.0113 0.935 0.0152 0.914 0.0113
RSM_grid 100 0.955 0.0110 0.902 0.0155 0.938 0.0089
RSM_KS 100 0.951 0.0123 0.897 0.0210 0.880 0.0133
WRSM_KS1 100 0.957 0.0106 0.896 0.0171 0.895 0.0127
WRSM_KS2 100 0.943 0.0120 0.934 0.0155 0.913 0.0119
0.70
qdc knnc svc
Single
qdc knnc svc
Single
qdc knnc svc
Single
表 5-3 Washington DC Mall辨識正確率的平均及標準差(實驗 3)
Classifier qdc knnc (k = 1) svc
Algorithm B accuracy std accuracy std accuracy std
Single 1 0.143 0.0000 0.923 0.0101 0.931 0.0073
RSM_grid 20 0.961 0.0069 0.939 0.0092 0.943 0.0066 RSM_KS 20 0.953 0.0122 0.936 0.0073 0.932 0.0058
WRSM_KS1 20 0.959 0.0064 0.931 0.0090 0.938 0.0068 WRSM_KS2 20 0.939 0.0092 0.952 0.0113 0.942 0.0087
RSM_grid 50 0.961 0.0070 0.940 0.0069 0.944 0.0056
RSM_KS 50 0.957 0.0102 0.938 0.0107 0.930 0.0057 WRSM_KS1 50 0.960 0.0076 0.934 0.0099 0.937 0.0072
WRSM_KS2 50 0.938 0.0088 0.953 0.0109 0.942 0.0088
RSM_grid 100 0.962 0.0078 0.942 0.0086 0.945 0.0056 RSM_KS 100 0.956 0.0124 0.940 0.0089 0.931 0.0060 WRSM_KS1 100 0.961 0.0089 0.937 0.0115 0.939 0.0069
WRSM_KS2 100 0.938 0.0079 0.953 0.0106 0.942 0.0092
0.70
qdc knnc svc
Single
qdc knnc svc
Single
qdc knnc svc
Single
表 5-4 Washington DC Mall實驗平均訓練時間
表 5-4 Washington DC Mall實驗平均訓練時間