第三章 研究方法
第一節 資料描述
壹、 UCI 資料
本研究利用柏克萊(Berkeley)大學 UCI(Machine Learning Repository)資 料庫(Blake, Merz, 1998),挑選數個著名資料,進行實驗分析,其資料描述 如表3-1:
表3-1 UCI 資料集,資料描述 資料名稱 類別數 樣本數 特徵數
Iris 3 150 4 Wine 3 178 13 WDBC 2 569 32 GLASS 7 214 9 HEART 2 187 44
貳、 高光譜影像資料實驗
本研究擬採用遙測領域相關期刊及研討會論文集內高光譜遙測影像辨 識研究中常採用之高光譜遙測影像,這些影像大多是免費可獲的,其中一 為農業用地影像(Indian Pine Site),另一為都市區域影像(Washington DC Mall),簡介如下。
一、 Indian Pine Site
Indian Pine Site 影像是由印第安那州西北部之農業用地中選取一百平 方英里範圍,並於 1992 年 6 月收集完成,為一混合森林和農業區域的 AVIRIS 空載高光譜影像,如圖 3-1 所示。此影像具有 220 個有效頻譜,包 含9 個類別,分別為:Corn-no till,Corn-min till,Grass/Pasture,Grass/Trees,
Hay-windrowed,Soybean-no till,Soybean-min till,Soybean-clean till 和 Woods。此影像中各類別所含有之圖素(pixels)如表 3-2 所示,本研究欲進
行之Indian Pine Site 影像實驗,乃由各類別中的圖素隨機選取所需之樣本 數,形成訓練樣本和測試樣本。
表3-2 Indian Pine Site 影像各類別 所含有之圖素
類別名稱 圖素數
1 Corn – no till 1428 2 Corn - min till 830 3 Grass / Pasture 483 4 Grass / Trees 730 5 Hay – windrowed 478 6 Soybean - no till 972 7 Soybean – min till 2455 8 Soybean – clean till 593
9 Woods 1265
全部 9234
圖3-1 Indian Pine Site 影像
二、 Washington DC Mall
Washington DC Mall 影像為一都市區域影像如圖 3-2 所示,為飛機搭 載高光譜儀低空拍攝而成。此影像具有220 個頻譜,但有些頻譜被水吸收 必須排除,因此僅具有191 個有效頻譜。此影像包含 7 個類別,分別為:
Buildings,Roads,Paths,Lawn,Trees,Water 和 Shadows,各類別所含 有之圖素(pixels)如表 3-3 所示,本研究欲進行之 Washington DC Mall 影像 實驗,乃由各類別中的圖素隨機選取所需之樣本數,形成訓練樣本和測試 樣本。
表3-3 Washington DC Mall 影像各類別所含有 之圖素
類別名稱 圖素數
1 Buildings 3834
2 Roads 680
3 Paths 616
4 Lawn 1928
5 Trees 919
6 Water 1224
7 Shadows 221
全部 9422
圖3-2 Washington DC Mall 影像
參、 教育測驗資料
本研究所使用的教育測驗資料為「行政院國家委員會補助專題研究計 畫-國小數學科電腦適性化診斷測驗」第一年施測之紙筆測驗資料,施測單 元為康軒文教事業主編之國小科第十一冊第二單元「擴分、約分」。
數學本身因具有樹狀組織結構,教材內容通常是依照各重點概念的層 級而建構,利用知識結構分析法,參考教育部編列之國民小學課程標準及 相關官方資料,並參考各家教科書出版社的教學指引及課本,最後交由學 科專家開會分析,匯編成一份紙筆診斷評量,表 3-4 是「擴分、約分」單 元的專家結構。
施測時所使用的考卷記錄於附錄當中,根據紙筆測驗施測時所得資 料,可將學生的錯誤類型分成15 種類型,表 3-5 是類別所對應需要進行補 救教學之概念。
所使用的教育測驗資料集中有 27 個維度,15 個類別(組別 1 到組別 15),共有 1192 個樣本。
表3-4 擴分、約分單元專家結構
1-1-1.等值分數 1-1-1-1.圖示等值分數 1. 最簡分數 1-1. 約分
1-1-2.公因數
2-1-1. 公倍數 2-1-1-1. 倍數 2-1. 通分
2-1-2. 擴分 2. 二個異分
母分數比較大 小
2-2. 兩個同分 母分數比較大小
表3-5 擴分約分單元的錯誤概念分類表 組別 人數 需進行補救教學之概念
1 89 「兩異分母比較大小」
2 31 「兩異分母比較大小」、「通分」
3 186 「最簡分數」
4 154 「最簡分數」、「兩異分母比較大小」
5 62 「最簡分數」、「兩異分母比較大小」、「通分」
6 41 「約分」
7 80 「最簡分數」、「約分」、「兩異分母比較大小」
8 59 「最簡分數」、「約分」、「兩異分母比較大小」、「通分」
9 63 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分母比 較」、「通分」
10 59 需重新學習「最簡分數」、「約分」、「公因數」、「等值分數」、「兩 異分母比較」、「兩同分母比較」、「公倍數」
11 79 「最簡分數」、「約分」、「兩異分母比較」、「通分」、「兩同分母 比較
12 77 「最簡分數」、「約分」、「兩異分母比較」、「兩同分母比較」、「公 倍數」、「擴分」
13 35 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分母比 較」、「兩同分母比較」、「公倍數」、「擴分」
14 150 所以概念都需重新學習 15 27 加強練習(粗心犯錯)
合計 1192
第二節 研究方法
本 研 究 訂 定 了 一 個 新 的 資 料 分 群 的 目 標 函 數 (cost function) , 並 且 訂 定 兩 個 新 的 分 群 適 切 性 指 標(validation index)。其 研 究 方 法 在 以 下 分 別 介 紹 。
壹、 Fuzzy Weighted C-Means
本研究引入無參數加權特徵萃取(NWFE)當中加權平均數(weighted mean) 的觀念。針對一個樣本點,在每一群聚,都會有一個相對的加權平 均數(weighted mean),也就是說,假設若有三個群聚,一個樣本點就會有 三個加權平均數,而在計算群聚的加權平均數時,在同一群聚,每一個樣 本點都給予不同的權重。其公式如下
∑
== nj
l
j l j i kl i
k
j x w x
M
1
) ( ) , ( )
( ) (
距離樣本點xk越遠的樣本點,權重越小,距離樣本點xk越近的樣本點,
權重越大。圖3-3 為樣本點xk在同一群組內,與其它樣本點計算距離後,
所得到的加權平均數,圖3-4 為樣本點xk在其它群組間,所得到的加權平 均數。
Weighted mean
Class 1
Weighted mean
Class 1 Class 2
圖3-3 群組內加權平均數 圖3-4 群組間加權平數
xk xk
有別於平均數(mean)每一個樣本點權重都相等概念,加權平均數繼承 NWFE 無參數(nonparametric)的特性,在非常態分佈資料時,更能表現出 資料的結構。所以本研究將加權平均數的概念,引入 FCM 當中時,改善 在非常態分佈資料時,效能較低和容易受離群值(outlier)影響的缺點。
假設預期的分群數目為c群(c1,c2,...,cc),有n個資料樣本點,則可以用
根據矩陣U ,其目標函數(object function )公式可以定義如下,使得下 面準則最小:
為了滿足上述隸屬度條件的先決條件,使用 Lagrange’s method,重新 定義新的目標函數:
{ }
(1 )Step 1:隨機產生初值隸屬度矩陣(membership matrix),值介於 0 和 1 之間,
並滿足隸屬度條件的先決條件。 Step 3:更新 Lagrange multipliers
{ }
(1 ) (certain tolerance value),則停止演算法。貳、 分群適切性指標
不論是在分群演算法,或是在分群適切性指標方面,其目的就是將相 似度高的資料分割至同一群聚中;而不同群聚間的資料越分離越好。因 此,Michael 和Gordon (Michael & Gordon, 1996) 提出兩個觀點,來判定群 聚效果:
1. 緊密度(compactness):在同一個群聚中的資料點越相似越好。
2. 分離度(separation):在不同群聚間的資料點應該越分離越好。
大部份分群適切性指標都依循這兩個概念來設計,所以我們將同時考 慮這兩個方向去建立一個新的分群適切性指標。本研究引入傳統上常使用 來 降 低 資 料 的 維 度Linear Discriminant Analysis (LDA)與Nonparametric Weigthed Feature Extraction (NWFE)的概念,
一、 ILDA (Index Linear discriminant analysis)
在本主題中,將利用LDA(linear discriminant analysis)分散矩陣的概念 訂定非監督式的組間與組內叢集分散矩陣,並搭配 Fisher criterion 來當作 新的分群適切性指標。
假設目前有n個 unlabel 的樣本,uij為第 j個樣本xj屬於第i類的隸屬 程度,且
n j
u
c
i
ij 1, 1,2,...,
1
=
∀
∑
==
組間叢集分散矩陣SbJFLDA與組內叢集分散矩陣SwJFLDA分別定義成下面兩式:
∑ ∑
=
= − −
= c
i
T i i
n
j ij JFLDA
b m m m m
n u S
1
1 ( )( )
與
∑∑
= = JFLDA ijw x m x m JFLDA i
b m m m m JFLDA ij
w
矩陣等同於在假定 n
Pi = ni 之下的LDA 組間與組內分散矩陣,即
LDA b JFLDA
b S
S = 與 SwJFLDA =SwLDA
本研究將利用上述所定義的組間與組內叢集分散矩陣搭配 Fisher criterion 當作新分群適切性指標,即等同於
max
[
bJFLDA]
JFLDA w
JFLDA tr S S
J = ( )−1
subject to 0≤uij ≤1, ∀i=1,2,...,c,
∑
= c =
i
uij 1
1, ∀j=1,2,...,n
另外(Kuo & Landgrebe, 2002)提出共變異數矩陣的對角線部分對組內 分散度矩陣有改善的效果,於是基於這樣的觀點本研究也將組內叢集分散 矩陣改成以下的形式
) (
5 . 0 5
.
0 wJFLDA wJFLDA
JFLDA
rw S diag S
S = +
這裡的diag(SwJFLDA)指的是矩陣SwJFLDA的對角線部份。上述之最佳化問題變
成
max
[
bJFLDA]
JFLDA rw
JFLDA tr S S
J = ( )−1
subject to 0≤uij ≤1, ∀i=1,2,...,c,
∑
= c =
i
uij 1
1, ∀j=1,2,...,n
在本研究中,將利用LDA 分散矩陣的概念訂定非監督式的組間與組內 叢集分散矩陣,並搭配Fisher criterion 來當作新分群適切性指標。
二 、 INWFE(Index Nonparametric Weighted Feature Extraction )
本研究引入傳統上常使用來降低資料的維度Nonparametric Weigthed Feature Extraction (NWFE)的概念。
假設目前有n個 unlabel 的樣本,uij為第 j個樣本xj屬於第i類的隸屬 JNWFE k
w x M x x M x JNWFE j
b x M x x M x criterion 當作叢集分析的目標函數,即等同於
max
[
bJNWFE]
JNWFE w
JNWFE tr S S
J = ( )−1
subject to 0≤uij ≤1, ∀i=1,2,...,c,
∑
= c =
i
uij 1
1, ∀j=1,2,...,n
另外( Kuo & Landgrebe, 2002 )提出共變異數矩陣的對角線部分對組內 分散度矩陣有改善的效果,於是基於這樣的觀點本研究也將組內叢集分散 矩陣改成以下的形式
) (
5 . 0 5
.
0 wJNWFE wJNWFE
JNWFE
rw S diag S
S = +
這裡的 指的是矩陣 的對角線部份。上述之最佳化問題變
成
max
[
bJNWFE]
JNWFE rw
JNWFE tr S S
J = ( )−1
subject to 0≤uij ≤1, ∀i=1,2,...,c,
∑
= c =
i
uij 1
1, ∀j=1,2,...,n
在本研究中,將利用NWFE 分散矩陣的概念訂定非監督式的組間與組 內叢集分散矩陣,並搭配Fisher criterion 來當作新分群適切性指標。