• 沒有找到結果。

第二章 文獻探討

第三節 特徵選取與萃取

解決高維度的問題,常常使用減低資料維度的方法來克服因為維度過高而無 法估計建構分類器的問題。基本上資料可以利用兩種不同的方法來減少維度,通 常有特徵選取方法及特徵萃取方法。特徵選取是選擇對分類貢獻大的特徵,在分 類問題上,可以忽略那些對分類幫助不大的特徵,可從原始 p 個維度中選出 r 個 特徵(也就是 r 維度,其中 r 遠小於 p),如圖 2-5(a)為特徵選取視為可見的,可直 接看出從原始空間選取那些特徵。特徵萃取方法是從原始 p 維度的原空間轉換到 更低維度 r 的特徵空間,如圖 2-5(b)為特徵萃取視為一黑箱,無法得知所得的特 徵是如何組成,轉換可以是原始空間的線性或非線性組合,主要是找到可使類別 更容易分類的特徵。

p r p r (linear discriminant analysis, lda)的類別分離量(class separability)作為特徵重要程 度的權值。而線性區別分析的定義如下: 線性區別分析在統計上是估計組間分散矩陣(between-class scatter matrix) 、組 內 分 散 矩 陣 (within-class scatter matrix) 及 混 合 分 散 矩 陣 (mixture scatter matrix)( ,組內分散矩陣表示為(Fukunaga, 1990):

Sb

在此Pj是指類別 j 的先驗機率(prior probability),Mj是 j 類別的平均向量而Σj是 j 辨識資訊的互補性,再透過組合的策略,能有效提高效能(Skurichina & Duin, 2001)。隨機子空間方法使用的第一步驟為設定固定的子空間的維度r,也就是隨

yi 是 xi的類別。L 是類別數,C 為分類決策解集合。而 N 是訓練樣 _selection D r Subspace

Db =

) ( b

b Learner D h =

第五節 核平滑化法

)

參、支撐向量分類器

支撐向量分類器是新的分類工具,是近年來受注目的研究主題。支撐向量分 類器的理論是基於結構風險最小化(structural risk minimization)的概念,在許多應 用中,支撐向量分類器比傳統學習機制有更好的辨識結果,在解決分類問題上己 經是強力的工具之一。支撐向量分類器將輸入資料映射至高維度特徵空間且尋找 可分離 2 個類別的空間中,具有最大邊界(margin)的可分離超平面(hyperplane),

最大化邊界是二次規劃(quadratic programming, qp)問題,能經由 Lagrangian 乘數 轉變成對偶格式的問題來解決。支撐向量分類器尋找最佳平面是利用特徵空間中 面的(2-10),可將問題以 Lagrangian 來解決且將原問題轉成對偶形式

N

N

第三章 改良的隨機子空間方法

隨機子空間方法的分類效能是根據分類器、訓練樣本點數及子空間維度三個 因素來決定,當分類器與訓練樣本點數固定時,辨識正確率是按照隨機子空間的 子空間維度r決定,本研究中所研究的維度r是相當重要的。此外在原本的隨機子 空間方法中,每次分類器所選擇的特徵,對於分類的貢獻是同等重要的,但是每 個特徵應該是具不同的重要性,較重要的特徵應提高被選取的機會。在本章中,

將提出3種不同的隨機子空間方法,這3種方法的自動選擇維度方法是在訓練期 間,依照核平滑化法所估計的子空間維度重要程度分佈R來選取,而其中加權隨 機子空間方法(weighted random subspace method, WRSM)則是依照特徵的重要程 度的不同所建構重要程度分佈W。其如表3-1所示:

表 3-1 本研究所提出演算法列示

全名 縮寫 說明

random subspace method based on kernel smoothing

RSM_KS

原隨機子空間方法由核平滑 化法所估計的子空間維度分 佈 R 來自動選取子空間維度 r。

weighted random subspace method based on kernel smoothing 1

WRSM_KS1

RSM_KS 使用訓練樣本辨識 正確率,作為特徵重要程度 分佈 W 的加權。

weighted random subspace method based on kernel smoothing 2

WRSM_KS2

RSM_KS 使用線性區別分析 類別分離量,作為特徵重要 程度分佈 W 的加權。

第一節 RSM_KS 演算法

k Learner D h =

計算正規化的ACC(hk)作為 R 分佈的初始分佈 R0,在此 ACC(hk)是使 用訓練樣本資料於 hk的辨識正確率。

end

b Dimension selection

r R Subspace_selection 獲得,每個資料集輸入經分類器學習演算法 Learner 可得分類 器 hb ,再以 hb的訓練樣本辨識正確率作為權值,以核平滑化來更新 R。這程序

( ) ( ),

})

b Dimension selection

r R 至 1 之間的機率分配函數,Subspace_selection 將根據 W 從原空間{1,2,…,p}隨機 抽取 rb個子空間集合Ab ={d1,K,dr},之後的程序同 RSM_KS 方法。

b

第三節 WRSM2_KS2 演算法

WRSM_KS2 也是更改隨機子空間方法的特徵選取方法,由線性區別分析 的最佳化目標函數,來建構特徵重要程度分佈函數 W,而在選取維度的方法也是 和 RSM_KS 相同。

[WRSM_KS2 演算法]

輸入:D ={(xi,yi)|1≤iN}, xiX ⊂ℜp, yi ∈{1,K,L}⊂C,i=1,KN 在此 yi 是 xi的類別。L 是類別數,C 為分類決策解集合。而 N 是訓練樣本點數。

分類器學習演算法 Learner 分類器個數 B

估計R0的分類器個數 B0 子空間維度重要分佈 R R 的初始分佈 R0

計算訓練樣本的辨識正確率 ACC 特徵重要程度分佈 W

線性區別分析類別分離量條件 J 輸出:

最終決策 hfinal :Χ→C 由 B 個分類器組合所得 BEGIN

for q = 1 to p

Wq= J((xiq,yi)|i=1,..N})

計算每個特徵的類別分離量。計算方法如(18),可得各個特徵的類別 分離量作為權重值。

正規化 W 的權值於[0,1]範圍

k Learner D h =

b Dimension selection

r R 重要權值後,將 W 正規化成為介於 0 至 1 之間的機率分配函數。Subspace_selection

將根據 W 從原空間{1,2,…,p}隨機抽取 rb個子空間集合 { 1, , }

rb

b d d

A = K ,之後的程 序同 RSM_KS 方法。

第四章 研究設計

在本章的實驗設計中,首先要驗證提出的演算法,是否能解決原先的隨機子 空間方法的維度選取問題,再來對於特徵選取的方式,以提出的加權方式在效能 上能否改善,接著探討組合的分類器個數對於分類效能及效率的影響,然後是不 同分類器是否對於子空間維度的具偏好性。本研究將以二種高光譜的遙測影像真 實資料及教育測驗資料來驗證提出方法的可行性。

第一節 資料描述

壹、Washington DC Mall 資料集

Washington DC Mall 都市地區的高光譜影像資料,如圖 4-1 所示是感測器從 0.4 到 2.4 µm 取 210 個波段,包含可視光區域及內紅外線光譜,資料大小大概 為 150 Megabytes,因為去除水所造成的雜訊,故在本實驗只使用 191 波段,共 有 7 個類別,分別是建築物(Roofs)、路面(Road)、小路(Trail)、草地(Grass)、樹林 (Trees)、水(Water)及陰影(Shadow)。

貳、Indian Pine Site 資料集

Indian Pine Site 為森林和農作物地區是 1992 年 6 月所收集的資料,取 Indiana 州西北 100 平方公里區域如圖 4-2,共 9 個類別,分別為玉米田己耕地 Corn-clean till)、玉米田未耕地(Corn-no till)、玉米略耕地(Corn-min till)、牧草地

(Grass/Pasture)、林地(Woods)、乾草地(Hay-windrowed)、大豆未耕地(Soybean no till)、大豆略耕地(Soybean-min till)和大豆己耕地(Soybean-clean till)

圖 4-2 Indian Pine Site 紅外線空拍圖

圖 4-1 Washington DC 紅外線空拍圖

參、教育測驗資料集

利用樣式辨識技術建立針對測驗資料之分類系統,作為補救教學分類之用,

有利補救教學的分群,可因材施教,縮短補救教學時間,而教學診斷的應用為小 樣本高維度的問題。採用擴分、約分教材是九十二學年國小六年級數學教材使用 的版本,依照民國 82 年新課程綱要編輯而成,配合施測學校使用的情形施測後,

進行試卷批閱及成績登錄,將學生作答情形根據「擴分、約分」單元教材專家知

識結構進行補救教學類型的分類。本研究「擴分、約分」單元紙筆測驗計有 27 題,有效樣本點數 1192 個,用以進行實驗,測試所得之學生側面圖,各錯誤類 型組別的學生人數,如表 4-1。

表 4-1 擴分、約分錯誤類型組別 組別 人數 需進行補救教學之概念

1 89 「兩異分母比較大小」

2 31 「兩異分母比較大小」、「通分」

3 186 「最簡分數」

4 154 「最簡分數」、「兩異分母比較大小」

5 62 「最簡分數」、「兩異分母比較大小」、「通分」

6 41 「約分」

7 80 「最簡分數」、「約分」、「兩異分母比較大小」

8 59 「最簡分數」、「約分」、「兩異分母比較大小」、「通分」

9 63 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分 母比較」、「通分」

10 59 需重新學習「最簡分數」、「約分」、「公因數」、「等值分數」、

「兩異分母比較」、「兩同分母比較」、「公倍數」

11 79 「最簡分數」、「約分」、「兩異分母比較」、「通分」、「兩同 分母比較

12 77 「最簡分數」、「約分」、「兩異分母比較」、「兩同分母比 較」、「公倍數」、「擴分」

13 35 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分 母比較」、「兩同分母比較」、「公倍數」、「擴分」

14 150 所以概念都需重新學習

15 27 加強練習(粗心犯錯)

合計 1192

第二節 實驗描述

在實驗中為了解不同訓練樣本點數的影響,從 2 種高維度資料中,抽取不同 數目的訓練樣本點數作為實驗資料集。在 Washington DC Mall 資料中,訓練樣本 點數分為每個類別各 20、40 及 100,分為實驗 1、實驗 2 及實驗 3,實驗抽取每 個類別各 100 個測試樣本點數,而在 Indian Pine Site 資料,抽取訓練樣本點數分 為每個類別各 20、40 及 100,分為實驗 4、實驗 5 及實驗 6,實驗抽取每個類別 各 200 個測試樣本點數。在教育測驗資料中,訓練樣本點數分為每個類別各 10 及 20,分為實驗 7 及實驗 8,測試樣本為除訓練樣本點數外的全部樣本。本研究 隨機選取 10 組訓練及測試樣本集進行實驗,Washington DC Mall 資料集的實驗樣 本點數如表 4-2,Indian Pine Site 資料集的實驗樣本點數如表 4-3,教育測驗資料 集的實驗樣本點數如表 4-4,而各實驗中所使用的 3 種分類器的設定、實驗的比 較基準和改良的演算法,列在表 4-5。在每一個實驗中的參數設定部份詳述如下。

本研究的核平滑化帶寬σ 設定為 5,為探討分類器個數 B 的影響,在 3 個實 驗中,針對 B 值為 20、50 和 100 的情形進行比較。高斯分類器、k 最近鄰法和支 撐向量分類器,各分類器的參數設定為,支撐向量分類器是使用 rbf(radial basis function) kernel,並以 5-fold cross-validation 法來選取參數,k 最近鄰法的 k 值設 為 1。在比較基準方面,本研究所提出的 3 種演算法將與使用單一基準分類器及 使用網格法的隨機子空間方法進行比較。網格法的範圍是由第 5 維閞始,每 5 維 建構原隨機子空間方法至每 1 類別的最大訓練樣本點數為止。

表 4-2 Washington DC Mall 資料集實驗設計

維度 191

類別數 7

實驗 實驗 1 實驗 2 實驗 3

訓練樣本點數

(個別類別) 20 40 100

總訓練樣本 140 280 700

測試樣本點數

(個別類別) 100

總測試樣本 700

表 4-3 Indian Pine Site 資料集實驗設計

維度 220

類別數 9

實驗 實驗 4 實驗 5 實驗 6

訓練樣本點數

(個別類別) 20 40 100

總訓練樣本 180 360 900

測試樣本點數

(個別類別) 200

總測試樣本 1800

表 4-4 教育測驗資料集實驗設計

維度 27

類別數 15

實驗 實驗 7 實驗 8

訓練樣本點數

(個別類別) 10 20

總訓練樣本 150 300

總測試樣本 1042 892

表 4-5 本研究比較之演算法

縮寫 說明

Single

高斯分類器(qdc)、k 最近鄰分類器(knnc, k=1)及支撐 向量分類器使用 rbf kernel(svc,用 5-fold 法取參數)。

RSM_grid

原隨機子空間方法使用網格法來找尋最佳辨識正確 率,Washington DC Mall 資料的實驗 1 至 3 中,維度 網格分別設為[5, 10, 15, 20]、[5, 10, ..., 40]及[5, 10, …, 100]。Indian Pine Site 的實驗 4 至 6 中,維度網格分 別設為[5, 10, 15, 20]、[5, 10, ..., 40]及[5, 10, …, 100]。教育測驗資料在實驗 7 維度網格為[5,10],在 實驗 8,為[5,10,...,20]。

RSM_KS

原隨機子空間方法由核平滑化法所估計的重要分佈 來自動選取維度。

WRSM_KS1 RSM_KS 用訓練樣本辨識正確率作為特徵加權。

WRSM_KS1 RSM_KS 用訓練樣本辨識正確率作為特徵加權。

相關文件