實驗描述

第四章研究設計

第二節實驗描述

在實驗中為了解不同訓練樣本點數的影響，從 2 種高維度資料中，抽取不同數目的訓練樣本點數作為實驗資料集。在 Washington DC Mall 資料中，訓練樣本點數分為每個類別各 20、40 及 100，分為實驗 1、實驗 2 及實驗 3，實驗抽取每個類別各 100 個測試樣本點數，而在 Indian Pine Site 資料，抽取訓練樣本點數分為每個類別各 20、40 及 100，分為實驗 4、實驗 5 及實驗 6，實驗抽取每個類別各 200 個測試樣本點數。在教育測驗資料中，訓練樣本點數分為每個類別各 10 及 20，分為實驗 7 及實驗 8，測試樣本為除訓練樣本點數外的全部樣本。本研究隨機選取 10 組訓練及測試樣本集進行實驗，Washington DC Mall 資料集的實驗樣本點數如表 4-2，Indian Pine Site 資料集的實驗樣本點數如表 4-3，教育測驗資料集的實驗樣本點數如表 4-4，而各實驗中所使用的 3 種分類器的設定、實驗的比較基準和改良的演算法，列在表 4-5。在每一個實驗中的參數設定部份詳述如下。

本研究的核平滑化帶寬σ 設定為 5，為探討分類器個數 B 的影響，在 3 個實 驗中，針對 B 值為 20、50 和 100 的情形進行比較。高斯分類器、k 最近鄰法和支 撐向量分類器，各分類器的參數設定為，支撐向量分類器是使用 rbf(radial basis function) kernel，並以 5-fold cross-validation 法來選取參數，k 最近鄰法的 k 值設 為 1。在比較基準方面，本研究所提出的 3 種演算法將與使用單一基準分類器及使用網格法的隨機子空間方法進行比較。網格法的範圍是由第 5 維閞始，每 5 維建構原隨機子空間方法至每 1 類別的最大訓練樣本點數為止。

表 4-2 Washington DC Mall 資料集實驗設計

維度 191

類別數 7

實驗實驗 1 實驗 2 實驗 3

訓練樣本點數

(個別類別) 20 40 100

總訓練樣本 140 280 700

測試樣本點數

(個別類別) 100

總測試樣本 700

表 4-3 Indian Pine Site 資料集實驗設計

維度 220

類別數 9

實驗實驗 4 實驗 5 實驗 6

訓練樣本點數

(個別類別) 20 40 100

總訓練樣本 180 360 900

測試樣本點數

(個別類別) 200

總測試樣本 1800

表 4-4 教育測驗資料集實驗設計

維度 27

類別數 15

實驗實驗 7 實驗 8

訓練樣本點數

(個別類別) 10 20

總訓練樣本 150 300

總測試樣本 1042 892

表 4-5 本研究比較之演算法

縮寫說明

Single

高斯分類器(qdc)、k 最近鄰分類器(knnc, k=1)及支撐 向量分類器使用 rbf kernel(svc,用 5-fold 法取參數)。

RSM_grid

原隨機子空間方法使用網格法來找尋最佳辨識正確率，Washington DC Mall 資料的實驗 1 至 3 中，維度網格分別設為[5, 10, 15, 20]、[5, 10, ..., 40]及[5, 10, …, 100]。Indian Pine Site 的實驗 4 至 6 中，維度網格分別設為[5, 10, 15, 20]、[5, 10, ..., 40]及[5, 10, …, 100]。教育測驗資料在實驗 7 維度網格為[5,10]，在實驗 8，為[5,10,...,20]。

RSM_KS

原隨機子空間方法由核平滑化法所估計的重要分佈來自動選取維度。

WRSM_KS1 RSM_KS 用訓練樣本辨識正確率作為特徵加權。

WRSM_KS2 RSM_KS 用線性區別分析類別分離量作為特徵加權。

在文檔中利用核平滑化自動選取參數於隨機子空間方法 (頁 37-40)

第四章 研究設計

第二節 實驗描述

第四章研究設計

第二節實驗描述