第三章 半監督式特徵萃取
第三節 結合叢集分析之半監督式無參數特徵萃
第二節所提出之半監督式無參數加權特徵萃取法在理論上是可行的,但在實 際進行時容易出現計算時間過長的問題,其主要原因在於無參數加權特徵萃取法 原先設計是在小樣本問題中進行特徵萃取,故在設計其方法並無考慮到當樣本點 數太大時,運算的負荷會太重,另外在公式中計算樣本間相互距離的部份,常超 過軟硬體的限制,需要將矩陣分割後才能進行計算。
有鑑於辨識流程中樣本點數的變化造成了特徵萃取方法效率的影響,本研究 加入了樣本選取策略來降低樣本點數,所採用的樣本選取策略有兩個:一是使用 叢集分析法,利用叢集分析後的各叢集的加權平均數來作為無參數加權特徵萃取 法的輸入,如此一來可以在儘可能保留樣本資訊的情況下降低無參數特徵萃取法 的運算量以及所需要的記憶體空間;另外一個方法是利用不同組別的樣本距離,
將距離較近的樣本選出,如此可選出距離邊界較近的樣本,有助於無參數加權特 徵萃取法的特徵萃取,不過此方法亦須計算樣本間距離,運算量也是會隨著樣本 點數增加而增加,故不適合單獨使用。
Class 2 Class 1
Q=4,Q表示叢集數
圖 3-3 叢集分析示意圖
圖 3-4 鄰近邊界的樣本選取示意圖
步驟 6:將此 K 個叢集平均數作為半監督式樣本。
步驟 7:進行半監督式無參數加權特徵萃取法,此時同時使用已知類別樣本與半 監督式樣本。
步驟 8:將已知類別資料與半監督式樣本轉換到步驟 7 所求得的新特徵空間。
步驟 9:更新最大概似分類器,此時同時使用已知類別資料與半監督式資料,公 式同(2-6)、(2-7)。
重複執行步驟 3 到步驟 9,直到結果收斂。
圖 3-5 加入樣本選取策略之半監督式無參數加權特徵萃取法
是否
穩定
結果 輸出 yes
no
利用初始訓練樣
本訓練無參數加 權特徵萃取法
將資料轉換到特 徵空間
訓練特徵空間中 的分類器
給定無類別資料的樣 本類別使之成為半監
督式樣本
利用樣本選取後樣本訓練無參數加權特徵 萃取分析
將資料轉換到特徵空間
利用初始訓練樣本與半監督式樣本訓練特 徵空間中的分類器
分類特徵空間中的 半監督式樣本
樣本選取策略
第四章 研究設計
第一節 實驗設計
設計本實驗的目的在於驗證本研究提出之兩種半監督式特徵萃取法在實際樣 本辨識上是否可行,而 adaptive classifier 與監督式無參數加權樣本選取法的效能 則作為本研究的比較基礎。
為評估研究所提方法是否有效,實驗一所採用的資料集與抽樣方式均與 Jackson & Langrebe (2002)相同,但由於抽出樣本無法保證完全相同,故比較基準 仍可能有部分的差異,此為實驗上的限制。
壹
Indian Pine site實驗樣本描述(實驗 1)
實驗 1 所使用的實驗樣本是高光譜的影像資料,該影像是 Indian Pine site 的 一小部分,Indian Pine site 資料集於 1992 年 6 月收集,,取 Indiana 西北 100 平方 公里區域,該實驗用的小區域上混合了森林與不同作物的農地。
本資料是由美國太空總署(National Aeronautics and Space Administration, NASA)的空載可見光及紅外線影像光譜儀(Airborne Visible/Infrared Imaging
Spectrometer, AVIRIS)提供,光譜儀波長從 400 nm 到 2500 nm,分為 224 個波段,
在實驗中,因部份波段被水吸收(104-108, 150-163, 220),這些波段已經被刪除,
剩下 191 個波段,在資料中共分為 6 個類別,各類別的樣本點數等資訊請見表 4-1。
由於此資料集中各類別均為各類作物,大部分的特徵相似,造成辨識上相當 大的挑戰,加上每個類別只選出 1%的樣本做為初始的訓練樣本,所以只利用初 始訓練樣本所訓練出的分類器,其辨識率相當的低,部分分類器在某一類別的辨
表 4-1 各類別資料名稱及樣本點數
各類別樣本點數 各類訓練樣本點數 Beans/Corn Residue 520 5
Corn/No Residue 450 5 Corn/Bean Residue 372 4 Beans/No Residue 490 5 Corn/Wheat Residue 388 4 Wheat/No Residue 301 3 Total Samples 2521 25
貳
Washington D.C.實驗樣本描述(實驗 2)
該資料集為 Washington D.C. 之高光譜影像,為 HYDICE (Hyperspectral Digital Imagery Collection Experiment) 影像,原始資料有 210 個波段,從 400nm 到 2500nm,但本研究所使用資料為 Signal Theory Methods in Multispectral Remote Sensing (Landgrebe, 2003) 中光碟所提供,經作者篩選部份維度後,所提供資料維 度數僅有 191。
另一點較為可惜的是書中並無提供地圖上之類別資料,僅能由使用者以目視 的方式選取資料集,在效果上可能有部分的誤差。
實驗所選取的資料集包含了七個類別,分別為屋頂、街道、小徑、草地、樹 木、水、陰影,受限於研究所使用的 Multispec 軟體功能,在圖例部分以英文方 式呈現,分別為 Roof、 Street、Path、Grass、Trees、Water、Shadow。
在此實驗中,由影像上所選取的樣本點數為各類別各 100 個樣本,而由 100 個樣本中隨機抽取 5 個樣本為訓練樣本,其餘樣本為測試樣本,也就是經判別後 會加入作為分類器訓練之用的半監督式樣本,共抽取 10 個資料集,求平均辨識 率。
參 教育測驗資料實驗樣本描述(實驗 3)
本測驗為康軒文教事業(2004)第八冊第一單元「整數四則」,單元之教學目標 經由七位具有教學及測驗編製經驗的國小教師與研究人員討論後,決定教材知識 結構如圖 4-1 所示。其中,「含括號四則運算」以題組方式出題,包含「加乘與減 除」和「加除與減乘」此兩類題組,這樣才能包含下方知識結構節點中的「加法 運算」、「減法運算」、「乘法運算」、「除法運算」。另外,由於應用問題學生解題 策略不一,加上題型是選擇題,無法確定學生是否使用併式填充題解題,故應用 問題解題並不屬於運算之上位概念。
含括號的四 以併式填充題紀錄
則運算 兩步驟應用問題
此外由於知識結構中「以 應用問題」與其他節點並無
上下
圖 4-1 整數四則運算
含括號的加 含括號的乘
減運算 除運算
加法運算 減法運算 乘法運算 除法運算
併式填充題記錄兩步驟
位關係,使用分類器分類時獨立使用另一分類器,分類器的分類最終結果是 由兩個分類器的結果交叉而成。第 1 分類器分類結果A={0,1},第 2 分類器分類
組
別 人數 需進行補救教學之概念
表 4-2 補救教學類型分類
0 426 精熟所有概念,不需進行補救教學
1 67 「含括號的四則運算」
2 6 「含括號的四則運算」、「含括號的加減運算」
3 23 「含括號的四則運算」、「含括號的加減運算」、「加法運算」、「減法運算」
4 8 「含括號的四則運算」、「含括號的乘除運算」
5 23 「含括號的四則運算」、「含括號的乘除運算」、「乘法運算」、「除法運算」
6 6 「含括號的四則運算」、「含括號的加減運算」法運算」、「除法運算」 、「含括號的乘除運算」、「乘
7 9 「含括號的四則運算」法運算」、「減法運算」、「含括號的加減運算」、「乘法運算」、「含、「除法運算」括號的乘除運算」、「加
8 203 「以併式填充題記錄兩步驟應用問題」
9 59 「以併式填充題記錄兩步驟應用問題」、「含括號的四則運算」
10 18 「以併式填充題記錄兩步驟應用問題」的加減運算」 、「含括號的四則運算」、「含括號
11 39 「以併式填充題記錄兩步驟應 括號的四則運算」、「含括號 的加減運算」、「加法運算」、
用問題」、「含
「減法運算」
12 23 「以併式填充題記錄兩步驟應用問題」的乘除運算」 、「含括號的四則運算」、「含括號
13 53 「以併式填充題記錄兩步驟應 括號的四則運算」、「含括號 的乘除運算」、「乘法運算」、
用問題」、「含
「除法運算」
14 35 「以併式填充題的加減運算」、記錄兩步驟應用問題」「含括號的乘除運算」、、「含括號的四則運「乘法運算」、「除法運算」 算」、「含括號
15 39 所有概念都需要重新學習
合
計 1037
本實驗資料抽樣方式為隨機選取了 10 個和 20 個訓練樣本以進行分類,各抽 取 10 個資料集,取其平均為實驗結果。
表 4-3 實驗 3-1 各組訓練樣本點數
分類器分類 1 2 3 4 5 6 7
專家 分類
1+9 2+10 3+11 4+12 5+13 6+14 7+15
訓練 樣本點數
10 10 10 10 10 10 10
測試 樣本點數
126 24 62 31 76 41 48
表 4-4 實驗 3-2 各組訓練樣本點數
分類器分類 1 2 3 4 5 6 7
專家 分類
1+9 2+10 3+11 4+12 5+13 6+14 7+15
訓練 樣本點數
20 20 20 20 20 20 20
測試 樣本點數
126 24 62 31 76 41 48
實驗中比較的演算法包含半監督式線性區別分析,以及半監督式無參數加權 特徵萃取法,這邊所指的半監督式無參數加權特徵萃取法是第三章第三節所指已
策略 參數 權特徵 取法,而半監督式線性區別分析
因無運算上之顧慮,並無加入樣本選取步驟。
督式無參數加權特徵萃取法的部份,因樣本選取策略的不同而有六個
演算 詳細如 ,選項部分 Q 叢集 叢集數 K 表示鄰近邊界之樣
本選取法選取樣本點數,當 Q=K(A1~A3 演算法)時表示沒有進行鄰近邊界之樣本 選取
表 4-5 比較演算法
演算法 代號 選項