資料庫操作與結果

第四章實驗結果與分析

4.2 資料庫操作與結果

以上資料庫之實驗相關條件，總實驗次數為20次，每次實驗迭代次數皆為200次，最後將20次實驗之結果平均來評估分群之績效。

人工資料庫之群集數目為根據人工資料庫之原始設定加以決定，實驗操作k-means與HSAKM所得知結果將以圖表所示以利判斷結果之正確性，其中包含群及數目、指標函數值、已集各個群及中心點所在位置及與資料量等資訊，以下為6種人工資料庫實驗之結果。

人工資料庫 1

表4-13和表4-14為針對工資料庫1分別以k-means與HSAKM模擬所呈現出之分群結果，其中表4-13和表4-14分別為k-means演算法以及HSAKM演算法採用相同的初始中心點模擬20次之其中一次之執行結果。 62 39.1440 30.4192 128 63.6221 54.6449

118 43.9433 67.1088 78 25.8769 20.3447 54 75.6820 43.0034 各個群集

人工資料庫 2

表4-15和表4-16為針對工資料庫2分別以k-means與HSAKM模擬所呈現出之分群結果，其中表4-15和表4-16分別為k-means演算法以及HSAKM演算法採用相同的初始中心點模擬20次之其中一次之執行結果。

表4-15人工資料庫 2 之k-means結果

群集數 5 群集分類結果表示圖

指標函數 382.372019 數量群集中心點

64 6.5258 9.8451 71 10.1588 6.4980 35 13.9019 10.4560 17 14.9283 8.7420 63 9.9001 13.0477 各個群集

50 14.4560 10.0380 44 9.6387 13.9731 50 5.9108 9.8541 57 10.1907 6.2610 49 9.8647 10.6096 各個群集

人工資料庫 3

表4-17和表4-18為針對工資料庫3分別以k-means與HSAKM模擬所呈現出之分群結果，其中表4-17和表4-18分別為k-means演算法以及HSAKM演算法採用相同的初始中心點模擬20次之其中一次之執行結果。

表4-17 人工資料庫 3 之 k-means 結果

群集數 9 群集分類結果表示圖

指標函數 761.576691 數量群集中心點 102 -1.7629 -0.6571 117 -1.2865 2.4366 86 0.7741 1.6426 71 -0.7997 -0.4227 117 1.8475 -2.4710 129 2.4800 1.7353 87 -2.5137 -1.5679 102 -0.5817 -2.1552 各個群集

94 -1.7322 -0.7682-116 -1.1692 2.5925

86 0.9165 1.2805 102 0.9125 0.5689 102 1.6985 -2.5373 126 2.5125 1.6816

87 -2.5675 -1.2617 137 -0.7013 -1.6677 各個群集

中心點位置與資料量

90 -2.7329 0.9558

-4 -3 -2 -1 0 1 2 3 4

人工資料庫 4

表4-19和表4-20為針對工資料庫4分別以k-means與HSAKM模擬所呈現出之分群結果，其中表4-19為k-means演算法之執行結果;表4-20為HSAKM 演算法之執行結果。

表4-19 人工資料庫 4 之 k-means 結果

群集數 3 群集分類結果表示圖

指標函數 146.141697 數量群集中心點

62 7.2184 3.1693 6.3562 106 5.5855 3.0673 4.3168 32 4.3031 3.2223 1.9353 各個群集

63 5.6293 3.0753 4.2474 107 7.2334 3.1642 6.3572 40 4.2985 3.2342 1.7559 各個群集 222 22 3333 33 333 3

人工資料庫 5

表4-21和表4-22為針對工資料庫5分別以k-means與HSAKM模擬所呈現出之分群結果，其中表4-21為K-means演算法之執行結果;表4-22為HSAKM 演算法之執行結果。 150 9.9893 8.9683 8.9683 82 9.0281 14.591 14.591 300 4.9942 4.9942 8.9517 150 15.001 6.0425 6.0425 各個群集 55555 5555 55555555 55 555 55 222

444 22

4444444 2 4444 2

444 22

44444 4

444444 22

444 2

444 2 3333 3

444 311 444 1

444444 4

150 9.0670 14.998 15.014 150 6.0588 4.0052 3.9503 150 4.0121 9.9664 9.9435 150 10.078 8.9604 8.9517 150 14.995 6.0525 6.0602 各個群集 55555 5555 55555555 55 555 55 555 55 444

222 44

2222222 4 2222 4

222 44

22222 2

222222 44

222 44

222 4 1111 1

333 111 111

3 11111

33 333 1

333333 3

人工資料庫 6

表4-23和表4-24為針對工資料庫6分別以k-means與HSAKM模擬所呈現出之分群結果，其中表4-23為K-means演算法之執行結果;表4-24為HSAKM 演算法之執行結果。

表4-23 人工資料庫 6 之 k-means 結果

群集數 5 群集分類結果表示圖

指標函數 26849.049374 數量群集中心點

187 76.578 109.81 109.67 74 79.598 -16.755 -25.830 76 59.508 -22.353 -16.926 176 1.1559 -58.110 -27.351 237 -39.053 50.619 17.203 各個群集

中心點位置與資料量

-100

-50 0 50

100 150

-100 0 100 200 -100 -50 0 50 100 150

22 222 33 444 3 1

4 333 4

444 4 111

44 444

4 1111

5 111111

555 55 555555 5

164 86.379 111.05 109.73 81 66.689 -20.597 -21.577 181 69.538 -18.937 -21.620 174 1.8709 -58.527 -35.009 216 -55.953 41.216 6.6195 各個群集

中心點位置與資料量

-100 -50

0 50

100 150

-100 0 100 200 -100 -50 0 50 100 150

33 333 3 3 33 333 33 333333 33 3 33 333 3 333333 3 333 4

444 4 111

44 444

4 1111

2 111111

555 55 555555 5

兩種方法之群誤差率以及距離總偏移值，如表 4-25 所示。觀察以上之群集分類結果表示，當群集大小相異時，兩種方法皆會發生誤判的情況，

距離總偏移值也會提升。雖然兩種方法皆無法找出正確之群集，然而 HSAKM 之誤判率與距離總偏移值依然低於k-mean。k-mean 在群集之間重疊程度之影響較低時能夠較為順利正確地分群；反之出現誤判之機率越高。k-means 雖然對這 6 種資料庫能快速的分群，但卻時常因為初始中心位置的關係導致無法保證每次皆能分成正確的群集，因而造成相當大的誤差。HSAKM 不受初始點的影響可收歛至最佳中心點位置的區域，並且距離總偏移值皆低於 k-means。因此驗證出 HSAKM 可順利地在人工資料庫進行分群，不論是誤差率、距離總偏移值的結果，皆比k-means 佳。

表 4-25 對人工資料庫進行平均20次之比較列表

誤判率距離總偏移值

資料庫編號

k-means HSAKM k-means HSAKM 1 12.94% 8.42% 3834.41 3687.73 2 9.62% 4.58% 386.38 377.05 3 45.44% 42.48% 767.01 749.14 4 0.95% 0% 146.14 145.49 5 31.64% 0% 1036.57 675.39 6 21.94% 12.47% 23595.07 22436.86

蝴蝶花資料庫

表4-26為四種方法對Iris Plants資料庫進行在20次迭代後之距離總偏移值值結果。單從最佳距離總偏移值觀察出除了k-means以外皆能收斂於最佳中心點的附近；就平均距離總偏移值而言，HSAKM的平均結果則優於其他三種方法。

圖4-1為其中一次之結果可觀察出以相同的初始中心點，k-means在數次迭代中就能快速收斂，KPSO和KGA與k-means收斂迭代數差異不大，

HSAKM雖花較多次數才收斂但可搜尋到最佳中心點附近。綜合以上結果，除了k-means最後落入區域解而導致到達最差距離總偏移值外，其他三種方法皆能順利跳脫。

表4-26 蝴蝶花資料庫平均20次之分群結果

K-means KGA KPSO HSAKM 最佳距離總偏移值 97.3259 97.2221 96.9521 96.6554 平均距離總偏移值 103.0313 97.2221 98.5096 96.6662 最差距離總偏移值 128.4042 97.2221 122.2788 96.6686

0 20 40 60 80 100 120 140 160 180 200 100

150 200 250 300

K-means HSAKM KPSO KGA

圖4-1 蝴蝶花資料庫其中一次之收斂結果

葡萄酒資料庫

表4-27為四種方法對Wine資料庫進行在20次迭代後之距離總偏移值結果。Wine此資料庫有維度空間較大且第13種維度範圍廣，因此對於此較為複雜的資料庫k-means無法很有效的分群。距離總偏移值觀察出除了 k-means以外皆能收斂於最佳中心點的附近；以平均距離總偏移值而言，

HSAKM的平均結果優於其他三種方法。

圖4-為其中一次之結果可觀察出以相同的初始中心點，除k-means落入區域解之外其它三種方法皆能快速收斂。KPSO、KGA與HSAKM彼此之收斂迭次數差異不大，而HSAKM卻能搜尋到最佳中心點附近。

表4-27 葡萄酒資料庫平均20次之分群結果

K-means KGA KPSO ^HSAKM 最佳距離總偏移值 16555.68 16496.53 16530.53 16292.18 平均距離總偏移值 17983.27 16532.61 16549.45 16292.67 最差距離總偏移值 18436.95 16538.96 16550.45 16300.53

0 20 40 60 80 100 120 140 160 180 200

1.6 1.65 1.7 1.75 1.8 1.85 1.9 1.95 2

x 10⁴

K-means HSAKM KPSO KGA

圖4-2 葡萄酒資料庫其中一次之收斂結果

乳癌資料庫

表4-28為四種方法對WBC資料庫進行在20次迭代後之距離總偏移值結果。可觀察出四種方法皆能收斂於最佳中心點的附近，最佳距離總偏移值皆差不多；以平均距離總偏移值而言，HSAKM的平均結果仍然優於其他三種方法。

圖4-3為其中一次之結果可觀察出以相同的初始中心點，除HSAKM其他方法皆能在10次內快速收歛到最佳中心點位置區域範圍附近，雖然 HSAKM花較多次數才收斂但比其他方法更能搜尋到最佳中心點附近，並且誤判率也較為低。

表4-28 乳癌資料庫平均20次之分群結果

K-means KGA KPSO ^HSAKM 最佳距離總偏移值 2986.96 2984.07 2984.89 2964.38 平均距離總偏移值 2988.13 2985.23 2984.98 2964.38 最差距離總偏移值 2988.43 2988.37 2985.93 2964.38

0 20 40 60 80 100 120 140 160 180 200

3000 3500 4000 4500 5000 5500 6000 6500

K-means HSAKM KPSO KGA

圖4-3 資料庫其中一次之收斂結果

避孕器資料庫

表4-29為四種方法對CMC資料庫進行在20次迭代後之距離總偏移值結果。可觀察出四種方法最佳距離總偏移值皆差不多；以平均距離總偏移值而言，HSAKM的平均結果仍然優於其他三種方法。

圖4-4為其中一次之結果可觀察出以相同的初始中心點，除HSAKM其他方法皆能在10次內快速收歛到最佳中心點位置區域範圍附近，KPSO和 KGA與k-means收斂迭代數差異不大，HSAKM雖花較多次數才收斂但比其他方法更能搜尋到最佳中心點附近。綜合以上結果，除了k-means最後落入區域解而導致到達最差距離總偏移值外，其他三種方法皆能順利跳脫。

表4-29 避孕器資料庫平均20次之分群結果

K-means KGA KPSO ^HSAKM 最佳距離總偏移值 5542.33 5542 5538.25 5532.18 平均距離總偏移值 5689.25 5542 5538.86 5532.18 最差距離總偏移值 7040.13 5542 5541.64 5532.18

0 20 40 60 80 100 120 140 160 180 200

5000 6000 7000 8000 9000 10000

11000 K-means

HSAKM KPSO KGA

圖4-4 避孕器資料庫其中一次之收斂結果

糖尿病資料庫

由表4-11可看出，由於Pima資料庫的重要性差異很大，而資料中又有大量且不合理的數值，造成資料分佈會有莫大影響，因此測試此資料庫時採取先將資料作正規化後再進行測試。表4-30為四種方法對Pima資料庫進行在20次迭代後之距離總偏移值結果。

圖4-5為其中一次之結果可觀察出以相同的初始中心點，除HSAKM其他方法皆能在10次內快速收歛到最佳中心點位置區域範圍附近，KPSO和 KGA與k-means收斂迭代數差異不大，HSAKM雖花較多次數才初步收斂但能夠搜尋到最佳中心點附近。綜合以上結果，k-means仍然有快速收歛的優點以及容易落入區域解的缺點。

表4-30 糖尿病資料庫平均20次之分群結果

K-means KGA KPSO HSAKM 最佳距離總偏移值 282.7102 282.6346 282.6364 281.9137 平均距離總偏移值 287.1988 282.6483 282.6455 281.9242 最差距離總偏移值 314.6554 282.6619 282.6856 281.9242

0 20 40 60 80 100 120 140 160 180 200 280

300 320 340 360 380 400 420 440 460 480

K-means HSAKM KPSO KGA

圖4-5 糖尿病資料庫其中一次之收斂結果

誤差率：

表4.31為以四種方法，對五個實際資料庫進行資料分群之誤差率結果，

包含了最佳和平均誤差率以及誤差率標準差，可以發現，以五種方法，對每一個資料庫分群後的誤差率都不盡相同，雖然HSAKM對每一個資料庫進行分群，以距離為評估函數之結果都是最好的，從中發現，對於誤差率的判斷能力較差，其原因是由於實際資料庫中，資料點與群體中心之間的距離，和分群結果沒有絕對的關係，而分割式分群法雖以群體中心點和資料點之距離為評估函數，雖有良好的結果，但是誤差率卻偏高。

表4-31 四種方法對實際資料庫進行平均20次之比較列表

資料庫名稱誤判率 K-means KGA KPSO HSAKM 最佳值 10.67% 10.00% 10.00% 10.00%

Iris

平均值 16.83% 10.00% 10.17% 10.28%

最佳值 29.21% 28.65% 29.21% 28.09%

Wine

平均值 36.89% 29.21% 29.21% 28.81%

最佳值 3.81% 3.22% 3.37% 3.51%

WBC 平均值 3.92% 3.23% 3.45% 3.51%

最佳值 54.45% 54.36% 54.33% 54.35%

CMC

平均值 54.51% 54.36% 54.39% 54.37%

最佳值 33.2% 32.07% 32.07% 32.07%

Pima

平均值 34.47% 32.15% 32.36% 32.12%

在文檔中整合退火演算法與正交實驗設計法改善K-Means演算法之分類 (頁 34-48)

第四章 實驗結果與分析

4.2 資料庫操作與結果

第四章實驗結果與分析