資料描述

第三章研究方法

第一節資料描述

壹、 UCI 資料

本研究利用柏克萊(Berkeley)大學 UCI(Machine Learning Repository)資料庫(Blake, Merz, 1998)，挑選數個著名資料，進行實驗分析，其資料描述如表3-1:

表3-1 UCI 資料集，資料描述資料名稱類別數樣本數特徵數

Iris 3 150 4 Wine 3 178 13 WDBC 2 569 32 GLASS 7 214 9 HEART 2 187 44

貳、高光譜影像資料實驗

本研究擬採用遙測領域相關期刊及研討會論文集內高光譜遙測影像辨識研究中常採用之高光譜遙測影像，這些影像大多是免費可獲的，其中一為農業用地影像(Indian Pine Site)，另一為都市區域影像(Washington DC Mall)，簡介如下。

一、 Indian Pine Site

Indian Pine Site 影像是由印第安那州西北部之農業用地中選取一百平方英里範圍，並於 1992 年 6 月收集完成，為一混合森林和農業區域的 AVIRIS 空載高光譜影像，如圖 3-1 所示。此影像具有 220 個有效頻譜，包含9 個類別，分別為：Corn-no till，Corn-min till，Grass/Pasture，Grass/Trees，

Hay-windrowed，Soybean-no till，Soybean-min till，Soybean-clean till 和 Woods。此影像中各類別所含有之圖素(pixels)如表 3-2 所示，本研究欲進

行之Indian Pine Site 影像實驗，乃由各類別中的圖素隨機選取所需之樣本數，形成訓練樣本和測試樣本。

表3-2 Indian Pine Site 影像各類別所含有之圖素

類別名稱圖素數

1 Corn – no till 1428 2 Corn - min till 830 3 Grass / Pasture 483 4 Grass / Trees 730 5 Hay – windrowed 478 6 Soybean - no till 972 7 Soybean – min till 2455 8 Soybean – clean till 593

9 Woods 1265

全部 9234

圖3-1 Indian Pine Site 影像

二、 Washington DC Mall

Washington DC Mall 影像為一都市區域影像如圖 3-2 所示，為飛機搭載高光譜儀低空拍攝而成。此影像具有220 個頻譜，但有些頻譜被水吸收必須排除，因此僅具有191 個有效頻譜。此影像包含 7 個類別，分別為：

Buildings，Roads，Paths，Lawn，Trees，Water 和 Shadows，各類別所含有之圖素(pixels)如表 3-3 所示，本研究欲進行之 Washington DC Mall 影像實驗，乃由各類別中的圖素隨機選取所需之樣本數，形成訓練樣本和測試樣本。

表3-3 Washington DC Mall 影像各類別所含有之圖素

類別名稱圖素數

1 Buildings 3834

2 Roads 680

3 Paths 616

4 Lawn 1928

5 Trees 919

6 Water 1224

7 Shadows 221

全部 9422

圖3-2 Washington DC Mall 影像

參、教育測驗資料

本研究所使用的教育測驗資料為「行政院國家委員會補助專題研究計畫-國小數學科電腦適性化診斷測驗」第一年施測之紙筆測驗資料，施測單元為康軒文教事業主編之國小科第十一冊第二單元「擴分、約分」。

數學本身因具有樹狀組織結構，教材內容通常是依照各重點概念的層級而建構，利用知識結構分析法，參考教育部編列之國民小學課程標準及相關官方資料，並參考各家教科書出版社的教學指引及課本，最後交由學科專家開會分析，匯編成一份紙筆診斷評量，表 3-4 是「擴分、約分」單元的專家結構。

施測時所使用的考卷記錄於附錄當中，根據紙筆測驗施測時所得資料，可將學生的錯誤類型分成15 種類型，表 3-5 是類別所對應需要進行補救教學之概念。

所使用的教育測驗資料集中有 27 個維度，15 個類別(組別 1 到組別 15)，共有 1192 個樣本。

表3-4 擴分、約分單元專家結構

1-1-1.等值分數 1-1-1-1.圖示等值分數 1. 最簡分數 1-1. 約分

1-1-2.公因數

2-1-1. 公倍數 2-1-1-1. 倍數 2-1. 通分

2-1-2. 擴分 2. 二個異分

母分數比較大小

2-2. 兩個同分母分數比較大小

表3-5 擴分約分單元的錯誤概念分類表組別人數需進行補救教學之概念

1 89 「兩異分母比較大小」

2 31 「兩異分母比較大小」、「通分」

3 186 「最簡分數」

4 154 「最簡分數」、「兩異分母比較大小」

5 62 「最簡分數」、「兩異分母比較大小」、「通分」

6 41 「約分」

7 80 「最簡分數」、「約分」、「兩異分母比較大小」

8 59 「最簡分數」、「約分」、「兩異分母比較大小」、「通分」

9 63 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分母比較」、「通分」

10 59 需重新學習「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分母比較」、「兩同分母比較」、「公倍數」

11 79 「最簡分數」、「約分」、「兩異分母比較」、「通分」、「兩同分母比較

12 77 「最簡分數」、「約分」、「兩異分母比較」、「兩同分母比較」、「公倍數」、「擴分」

13 35 「最簡分數」、「約分」、「公因數」、「等值分數」、「兩異分母比較」、「兩同分母比較」、「公倍數」、「擴分」

14 150 所以概念都需重新學習 15 27 加強練習（粗心犯錯）

合計 1192

第二節研究方法

本研究訂定了一個新的資料分群的目標函數（cost function），並且訂定兩個新的分群適切性指標(validation index）。其研究方法在以下分別介紹。

壹、 Fuzzy Weighted C-Means

本研究引入無參數加權特徵萃取(NWFE)當中加權平均數(weighted mean) 的觀念。針對一個樣本點，在每一群聚，都會有一個相對的加權平均數(weighted mean)，也就是說，假設若有三個群聚，一個樣本點就會有三個加權平均數，而在計算群聚的加權平均數時，在同一群聚，每一個樣本點都給予不同的權重。其公式如下

∑

= ⁿ^j

j l j i kl i

j x w x

) ( ) , ( )

( ) (

距離樣本點x_k越遠的樣本點，權重越小，距離樣本點x_k越近的樣本點，

權重越大。圖3-3 為樣本點x_k在同一群組內，與其它樣本點計算距離後，

所得到的加權平均數，圖3-4 為樣本點x_k在其它群組間，所得到的加權平均數。

Weighted mean

Class 1

Weighted mean

Class 1 Class 2

圖3-3 群組內加權平均數圖3-4 群組間加權平數

xk x_k

有別於平均數(mean)每一個樣本點權重都相等概念，加權平均數繼承 NWFE 無參數(nonparametric)的特性，在非常態分佈資料時，更能表現出資料的結構。所以本研究將加權平均數的概念，引入 FCM 當中時，改善在非常態分佈資料時，效能較低和容易受離群值(outlier)影響的缺點。

假設預期的分群數目為^c群⁽^c¹^,^c²^,...,^c^c⁾，有ⁿ個資料樣本點，則可以用

根據矩陣^U ，其目標函數(object function )公式可以定義如下，使得下面準則最小:

為了滿足上述隸屬度條件的先決條件，使用 Lagrange’s method，重新定義新的目標函數:

{ }

⁽¹ ⁾

Step 1：隨機產生初值隸屬度矩陣(membership matrix)，值介於 0 和 1 之間，

並滿足隸屬度條件的先決條件。 Step 3：更新 Lagrange multipliers

{ }

⁽¹ ⁾ (certain tolerance value)，則停止演算法。

貳、分群適切性指標

不論是在分群演算法，或是在分群適切性指標方面，其目的就是將相似度高的資料分割至同一群聚中；而不同群聚間的資料越分離越好。因此，Michael 和Gordon (Michael & Gordon, 1996) 提出兩個觀點，來判定群聚效果：

1. 緊密度(compactness)：在同一個群聚中的資料點越相似越好。

2. 分離度(separation)：在不同群聚間的資料點應該越分離越好。

大部份分群適切性指標都依循這兩個概念來設計，所以我們將同時考慮這兩個方向去建立一個新的分群適切性指標。本研究引入傳統上常使用來降低資料的維度Linear Discriminant Analysis (LDA)與Nonparametric Weigthed Feature Extraction (NWFE)的概念，

一、 ILDA (Index Linear discriminant analysis)

在本主題中，將利用LDA(linear discriminant analysis)分散矩陣的概念訂定非監督式的組間與組內叢集分散矩陣，並搭配 Fisher criterion 來當作新的分群適切性指標。

假設目前有n個 unlabel 的樣本，uij為第 j個樣本x_j屬於第i類的隸屬程度，且

n j

ij 1, 1,2,...,

∀

∑

組間叢集分散矩陣S_b^JFLDA與組內叢集分散矩陣S_w^JFLDA分別定義成下面兩式：

∑ ∑

= − −

= ^c

T i i

j ij JFLDA

b m m m m

n u S

1 ( )( )

與

∑∑

= = JFLDA ij

w x m x m JFLDA i

b m m m m JFLDA ij

矩陣等同於在假定 n

P_i = nⁱ 之下的LDA 組間與組內分散矩陣，即

LDA b JFLDA

b S

S = 與 S_w^JFLDA =S_w^LDA

本研究將利用上述所定義的組間與組內叢集分散矩陣搭配 Fisher criterion 當作新分群適切性指標，即等同於

max

[

b^JFLDA

]

JFLDA w

JFLDA tr S S

J = ( )⁻¹

subject to 0≤u_ij ≤1, ∀i=1,2,...,c,

∑

= c =

uij 1

1, ∀j=1,2,...,n

另外(Kuo & Landgrebe, 2002)提出共變異數矩陣的對角線部分對組內分散度矩陣有改善的效果，於是基於這樣的觀點本研究也將組內叢集分散矩陣改成以下的形式

) (

5 . 0 5

0 _w^JFLDA _w^JFLDA

JFLDA

rw S diag S

S = +

這裡的diag(S_w^JFLDA)指的是矩陣S_w^JFLDA的對角線部份。上述之最佳化問題變

成

max

[

b^JFLDA

]

JFLDA rw

JFLDA tr S S

J = ( )⁻¹

subject to 0≤u_ij ≤1, ∀i=1,2,...,c,

∑

= c =

uij 1

1, ∀j=1,2,...,n

在本研究中，將利用LDA 分散矩陣的概念訂定非監督式的組間與組內叢集分散矩陣，並搭配Fisher criterion 來當作新分群適切性指標。

二、 INWFE(Index Nonparametric Weighted Feature Extraction )

本研究引入傳統上常使用來降低資料的維度Nonparametric Weigthed Feature Extraction (NWFE)的概念。

假設目前有n個 unlabel 的樣本，uij為第 j個樣本x_j屬於第i類的隸屬 JNWFE k

w x M x x M x JNWFE j

b x M x x M x criterion 當作叢集分析的目標函數，即等同於

max

[

b^JNWFE

]

JNWFE w

JNWFE tr S S

J = ( )⁻¹

subject to 0≤u_ij ≤1, ∀i=1,2,...,c,

∑

= c =

uij 1

1, ∀j=1,2,...,n

另外( Kuo & Landgrebe, 2002 )提出共變異數矩陣的對角線部分對組內分散度矩陣有改善的效果，於是基於這樣的觀點本研究也將組內叢集分散矩陣改成以下的形式

) (

5 . 0 5

0 _w^JNWFE _w^JNWFE

JNWFE

rw S diag S

S = +

這裡的指的是矩陣的對角線部份。上述之最佳化問題變

成

max

[

b^JNWFE

]

JNWFE rw

JNWFE tr S S

J = ( )⁻¹

subject to 0≤u_ij ≤1, ∀i=1,2,...,c,

∑

= c =

uij 1

1, ∀j=1,2,...,n

在本研究中，將利用NWFE 分散矩陣的概念訂定非監督式的組間與組內叢集分散矩陣，並搭配Fisher criterion 來當作新分群適切性指標。

在文檔中模糊權重分群演算法 (頁 27-40)

第三章 研究方法

第一節 資料描述

壹、 UCI 資料

貳、 高光譜影像資料實驗

一、 Indian Pine Site

二、 Washington DC Mall

參、 教育測驗資料

第二節 研究方法

壹、 Fuzzy Weighted C-Means

∑

{ }

{ }

貳、 分群適切性指標

一、 ILDA (Index Linear discriminant analysis)

∑

∑ ∑

∑∑

[

]

∑

[

]

∑

二 、 INWFE(Index Nonparametric Weighted Feature Extraction )

[

]

∑

[

]

∑

第三章研究方法

第一節資料描述

貳、高光譜影像資料實驗

參、教育測驗資料

第二節研究方法

貳、分群適切性指標

二、 INWFE(Index Nonparametric Weighted Feature Extraction )