實驗結果 - 融入叢集分析之特徵萃取法在高維度資料辨識的應用

本章中的實驗結果分三個部份來看，第一個部份先以樣本點在 2 為空間中的散布圖來比較融入叢集分析法的特徵萃取對樣本點的散布情形是否有改善。第二部份則是比較本研究所提出的演算法與原始演算法各萃取1 到 15 個維度數，並比較最高的辨識率。第三部份是將原始地圖當作測試樣本，利用不同演算法判別出類別，並將地圖真實情形與類別呈現出。第四部份則是將1 到 15 個維度以折線圖的形式比較。

圖4-1 是使用 PCA 將 Indian Pine Site 資料從原始空間 220 維度空間萃取並且轉換到2 個維度空間後所映射出的樣本點分布情形，從圖中可以很明顯的發現在這個維度空間中class3 有比較明顯的差異存在。於是若將 class3 以叢集分析分成 2 個叢集並且將其各自視為新的類別融入PCA 中，同樣轉換到 PCA 萃取 2 個維度空間中並把散布情形顯示出來，如圖4-2。

因為 PCA 的主要重點是要將原始樣本的最大分量萃取出來，所以從圖 4-1 與 4-2 的比較之中並沒有發現到有較大的不同，這說明了融入叢集分析後對PCA 的轉換效能也許改變不大。

-12000 -10000 -8000 -6000 -4000 -2000 0 2000 4000 6000 8000

3.2

圖4-3 表示原始的 Indian Pine Site 資料使用 LDA 將原始的空間轉換到所萃取出的 2 個維度的空間下，樣本點的散布圖。從圖中可以很明顯的看出 class3 在這個維度空間中同樣是至少能在分成兩個以上的叢集，而且class3 的一個部份和 class9 是相疊在一起的。

因此，將class3 使用叢集分析法分成兩個叢集後融入 LDA 接著同樣萃取 2 個維度並將樣本點轉換到此維度空間中，樣本點散布的情形如圖4-4。從圖 4-4 中可以明顯的發現class3 此時明顯的被分成兩個叢集，並且原本其中一個叢集在圖 4-3 中是與 class9 有相互交疊在一起的情形，使用融入叢集分析的 LDA 在這個維度空間中，能夠將此兩類相互交疊的情形改善，藉以也能夠提升辨識率。

3000 3100 3200 3300 3400 3500 3600 3700 3800

600 800 1000 1200 1400 1600 1800 2000

-2900

Class 3

Class 9

Class 3 (Cluster1)

Class 9

Class 3

(Cluster2)

圖4-5 則是使用 NWFE 將 Indian Pine Site 資料同樣從原始空間 220 維度空間萃取並轉換到 2 個維度空間後所映射出的樣本點分布情形，在這圖中有與 LDA 相同的情形產生，就是class3 與 class9 重疊在一起的情形。

因此同樣將 class3 的樣本點以叢集分析法分成兩個叢集，這樣對於特徵萃取在計算組間分散度矩陣以及組內分散度矩陣時就能夠有相當地改善，而圖 4-6 則是將類別 3 的樣本點先以 fuzzy c-mean 叢集分析的方法分為兩個叢集並且將它們各自當成一個新的類別融入NWFE 的方法將原始的空間轉換到 2 維空間中，並且把樣本點的散布情形展示出來。圖4-6 發現到對於 class3(cluster2)與 class9 相互交疊的情形改善相當多，

藉此提升辨識率。

從以上的幾個圖來看，PCA 因為沒有計算組間分散度矩陣以及組內分散度矩陣，

所以融入叢集分析之特徵萃取方法對PCA 似乎是比較沒有效果的，但是對於 LDA 以及NWFE 的改善就不同了，融入叢集分析法的特徵萃取更能將類別之間拉開，這對於之後分類器處理時會有相當大的改善。

-200 -400 -600 -800 -1200 -1400 -1600 -1800 -2000 -2200

-2000 -1500 -1000 -500 0 500

1200

Class 3

Class 9

Class 3 (Cluster1)

Class 9

Class 3

(Cluster2)

表 4-1 到表 4-4 代表兩種分類器在對兩種資料集所產生的辨識率，以特徵萃取法取1 個維度到 15 個維度並比較各別辨識率，刮號內的數字表示該方法最高的辨識率的特徵數，叢集個數表示每個類別所分成固定幾個叢集個數。

表4-1 是使用 ML 分類器資料集則為 Indian Pine Site，從此表中可以看出使用 ML 分類器分類，特徵萃取法使用LDA 時，辨識率會提升最多，可由原本的 0.8181 提升至0.8747；若特徵萃取法是使用 NWFE 時也能提升一些效能由原本的 0.8763 提升至 0.8958；若使用 PCA 時則融入叢集分析法的效能也能相當接近原本的方法。

表4-1 Indian Pine Site 使用 ML 分類器的辨識率比較

特徵萃取叢集分析方法叢集個數最高辨識率(特徵數)

無 0.8725(14)

2 0.8708(13) k-mean

3 0.8640(13) 2 0.8723(14) PCA

Fuzzy c-mean

3 0.8668(13)

無 0.8181(7)

2 0.8729(9) k-means

3 0.8746(8) 2 0.8747(9) LDA

fuzzy c-mean

3 0.8732(9)

無 0.8763(10)

2 0.8941(9) k-mean

3 0.8965(9) 2 0.8958(9) NWFE

Fuzzy c-mean

3 0.8954(9)

表4-2 是使用 1NN 資料集為 Indian Pine Site，表中顯示當特徵萃取法使用 LDA 時效能可提升許多由原本的0.8445 提升至 0.8945，使用 NWFE 及 PCA 也能趨近至原本的辨識率。

表4-2 Indian Pine Site 使用 1NN 分類器的辨識率比較

特徵萃取叢集分析方法叢集個數最高辨識率(特徵數)

無 0.7920(15)

2 0.7920(15) k-mean

3 0.7919(15) 2 0.7919(15) PCA

Fuzzy c-mean

3 0.7919(15)

無 0.8445(7)

2 0.8908(10) k-means

3 0.8940(15) 2 0.8906(10) LDA

fuzzy c-mean

3 0.8945(12)

無 0.8993(14)

2 0.8797(12) k-mean

3 0.8848(12) 2 0.8810(9) NWFE

Fuzzy c-mean

3 0.8861(11)

表4-3 是分類器使用 ML 分類器，資料集為 Washington DC Mall 的辨識率，由此表可看出在不加入叢集分析的情況下已經能有相當高的辨識率，而融入叢集分析的方法後的效能也能相當趨近於原本的辨識率甚至稍為高一點。

表4-3 Washington DC Mall 使用 ML 分類器的辨識率比較特徵萃取叢集分析方法叢集個數最高辨識率(特徵數)

無 0.8440(15)

2 0.8491(15) k-mean

3 0.8412(13) 2 0.8528(15) PCA

Fuzzy c-mean

3 0.8510(15)

無 0.9380(5)

2 0.9341(10) k-means

3 0.9372(9) 2 0.9352(6) LDA

fuzzy c-mean

3 0.9340(6)

無 0.9410(15)

2 0.9375(13) k-mean

3 0.9414(9) 2 0.9412(12) NWFE

Fuzzy c-mean

3 0.9410(14)

表4-4 代表分類器使用 1NN 分類器對 Washington DC Mall 資料集所產生的辨識率，由表中發現原本的方法也是同樣就能達到相當高的效能，使用LDA 以及 NWFE 皆能提升一些效能，至於使用PCA 時也能相當趨近原本的效果。

表4-4 Washington DC Mall 使用 1NN 分類器的辨識率比較特徵萃取叢集分析方法叢集個數最高辨識率(特徵數)

無 0.8992(14)

2 0.8797(12) k-mean

3 0.8847(14) 2 0.8797(12) PCA

Fuzzy c-mean

3 0.8848(12)

無 0.9338(6)

2 0.9377(7) k-means

3 0.9400(7) 2 0.9374(7) LDA

fuzzy c-mean

3 0.9361(9)

無 0.9380(7)

2 0.9369(7) k-mean

3 0.9422(9) 2 0.9374(8) NWFE

Fuzzy c-mean

3 0.9381(7)

接下來這個部份是將原始的地圖當作測試樣本，並使用不同演算法將分類結果後地圖的類別以最直觀的方式呈現出，並比較新演算法與原始演算法的優劣。因為本研究在Indian Pine Site 資料上的表現效果是比較顯著的，於是將 Indian Pine Site 的圖形呈現出，在此部份每個圖形皆為以特徵萃取法萃取類別數減一個維度數來判別，圖4-7 為Indian Pine Site 地形的 9 個類別的原始類別分別散布的位置；圖 4-8 是以 ML 分類器利用LDA 萃取 8 個維度數後分類的情形；圖 4-9 與圖 4-10 則為以 ML 分類器利用融入FCM 之 LDA 萃取出 8 個維度數後分類的效果。

圖4-7 原始圖形真實類別

圖4-8 使用 ML 分類器利用 LDA 萃取後的圖形

圖4-9 使用 ML 分類器利用融入 FCM 之 LDA 萃取後圖形(# of clusters =2)

圖4-10 使用 ML 分類器利用融入 FCM 之 LDA 萃取後圖形(# of clusters =3)

從以上的圖4-8 到圖 4-10 可以看出利用融入叢集分析後的特徵萃取法的效果在紅圈標記的部分都是有改善的，新演算法所分類出的圖形在這些地方都是比較清晰而且比較正確的。在後面的圖中同樣是在紅圈處皆有比較好的效果。

圖4-11 是 ML 分類器利用原始 NWFE 萃取出 8 個維度數後分類的結果；圖 4-12 及圖4-13 則是以 ML 分類器利用融入 FCM 之 NWFE 萃取 8 個維度數後的分類結果。

圖4-14 到圖 4-16 則是以 1NN 分類器分類，特徵萃取法為 LDA，將 FCM 叢集分析法融入其中。

圖4-11 使用 ML 分類器利用 NWFE 萃取後的圖形

圖4-12 使用 ML 分類器利用融入 FCM 之 NWFE 萃取後圖形(# of clusters =2)

圖4-13 使用 ML 分類器利用融入 FCM 之 NWFE 萃取後圖形(# of clusters =3)

圖4-14 使用 1NN 分類器利用 LDA 萃取後的圖形

圖4-15 使用 1NN 分類器利用融入 FCM 之 LDA 萃取後圖形(# of clusters =2)

圖4-16 使用 1NN 分類器利用融入 FCM 之 LDA 萃取後圖形(# of clusters =3)

圖4-17 至圖 4-22 是 Indian Pine Site 的資料同樣用三種特徵萃取法取 1 至 15 個維

0.4

Washington DC Mall 的地圖同一類別中的差異性比較小，所以即使有融入叢集分析的方法也沒辦反改善許多，但是也能有相當好的效果。

0.4

0.4 0.5 0.6 0.7 0.8 0.9 1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

dim

acc

baseline Kmean_2 Kmean_3 FCM_2 FCM_3

圖4-27 Washington DC Mall 資料使用 1NN 分類器利用 LDA 萃取後辨識率

0.7 0.75 0.8 0.85 0.9 0.95 1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

dim

ac c

baseline Kmean_2 Kmean_3 FCM_2 FCM_3

圖4-28 Washington DC Mall 資料使用 1NN 分類器利用 NWFE 萃取後辨識率

因為教育測驗資料中的樣本數比較少，所以若同一個類別中分成較多個叢集時，

常常會有一個叢集裡的個數不足以至於整體的辨識率降低許多，因此教育測驗資料裡只將每個類別的叢集分為兩個叢集並比較。表4-5 以及 4-6 就是教育測驗資料 I「扇形」

單元使用三種特徵萃取及兩種分類器所計算出的辨識率、表 4-7 及 4-8 為教育測驗資料II「擴分、約分」單元使用各種特徵萃取及分類器所計算出的辨識率並加以比較。

表4-5 教育測驗資料 I 使用 ML 分類器的辨識率比較

特徵萃取叢集分析方法叢集個數最高辨識率(特徵數)

無 0.3234(2)

k-mean 2 0.3412(2) PCA

Fuzzy c-mean 2 0.3467(2)

無 0.8219(2)

k-means 2 0.7913(2) LDA

fuzzy c-mean 2 0.7829(2)

無 0.8088(2)

k-mean 2 0.7501(2) NWFE

Fuzzy c-mean 2 0.7370(2)

表4-6 教育測驗資料 I 使用 1NN 分類器的辨識率比較

特徵萃取叢集分析方法叢集個數最高辨識率(特徵數)

無 0.5181(8)

k-mean 2 0.5011(8) PCA

Fuzzy c-mean 2 0.5136(8)

無 0.8430(3)

k-means 2 0.8137(3) LDA

fuzzy c-mean 2 0.8255(3)

無 0.8379(3)

k-mean 2 0.8156(3) NWFE

Fuzzy c-mean 2 0.8214(3)

表4-7 教育測驗資料 II 使用 ML 分類器的辨識率比較

特徵萃取叢集分析方法叢集個數最高辨識率(特徵數)

無 0.4960(5)

k-mean 2 0.4520(4) PCA

Fuzzy c-mean 2 0.4128(3)

無 0.6956(6)

k-means 2 0.6007(4) LDA

fuzzy c-mean 2 0.6001(4)

無 0.6965(6)

k-mean 2 0.6834(6) NWFE

Fuzzy c-mean 2 0.6933(5)

表4-8 教育測驗資料 II 使用 1NN 分類器的辨識率比較

特徵萃取叢集分析方法叢集個數最高辨識率(特徵數)

無 0.5004(10)

k-mean 2 0.4984(10) PCA

Fuzzy c-mean 2 0.5031(10)

無 0.7511(7)

k-means 2 0.7410(8) LDA

fuzzy c-mean 2 0.7210(10)

無 0.7438(7)

k-mean 2 0.7381(7) NWFE

Fuzzy c-mean 2 0.7163(10)

在文檔中融入叢集分析之特徵萃取法在高維度資料辨識的應用 (頁 31-52)