第四章 實驗結果與分析
4.2 資料庫操作與結果
以上資料庫之實驗相關條件,總實驗次數為20次,每次實驗迭代次數 皆為200次,最後將20次實驗之結果平均來評估分群之績效。
人工資料庫之群集數目為根據人工資料庫之原始設定加以決定,實驗 操作k-means與HSAKM所得知結果將以圖表所示以利判斷結果之正確 性,其中包含群及數目、指標函數值、已集各個群及中心點所在位置及與 資料量等資訊,以下為6種人工資料庫實驗之結果。
`
人工資料庫 1
表4-13和表4-14為針對工資料庫1分別以k-means與HSAKM模擬所呈現 出之分群結果,其中表4-13和表4-14分別為k-means演算法以及HSAKM演 算法採用相同的初始中心點模擬20次之其中一次之執行結果。 62 39.1440 30.4192 128 63.6221 54.6449
118 43.9433 67.1088 78 25.8769 20.3447 54 75.6820 43.0034 各個群集
人工資料庫 2
表4-15和表4-16為針對工資料庫2分別以k-means與HSAKM模擬所呈現 出之分群結果,其中表4-15和表4-16分別為k-means演算法以及HSAKM演 算法採用相同的初始中心點模擬20次之其中一次之執行結果。
表4-15人工資料庫 2 之k-means結果
群集數 5 群集分類結果表示圖
指標函數 382.372019 數量 群集中心點
64 6.5258 9.8451 71 10.1588 6.4980 35 13.9019 10.4560 17 14.9283 8.7420 63 9.9001 13.0477 各個群集
50 14.4560 10.0380 44 9.6387 13.9731 50 5.9108 9.8541 57 10.1907 6.2610 49 9.8647 10.6096 各個群集
人工資料庫 3
表4-17和表4-18為針對工資料庫3分別以k-means與HSAKM模擬所呈現 出之分群結果,其中表4-17和表4-18分別為k-means演算法以及HSAKM演 算法採用相同的初始中心點模擬20次之其中一次之執行結果。
表4-17 人工資料庫 3 之 k-means 結果
群集數 9 群集分類結果表示圖
指標函數 761.576691 數量 群集中心點 102 -1.7629 -0.6571 117 -1.2865 2.4366 86 0.7741 1.6426 71 -0.7997 -0.4227 117 1.8475 -2.4710 129 2.4800 1.7353 87 -2.5137 -1.5679 102 -0.5817 -2.1552 各個群集
94 -1.7322 -0.7682-116 -1.1692 2.5925
86 0.9165 1.2805 102 0.9125 0.5689 102 1.6985 -2.5373 126 2.5125 1.6816
87 -2.5675 -1.2617 137 -0.7013 -1.6677 各個群集
中心點位 置與資料 量
90 -2.7329 0.9558
-4 -3 -2 -1 0 1 2 3 4
人工資料庫 4
表4-19和表4-20為針對工資料庫4分別以k-means與HSAKM模擬所呈現 出之分群結果,其中表4-19為k-means演算法之執行結果;表4-20為HSAKM 演算法之執行結果。
表4-19 人工資料庫 4 之 k-means 結果
群集數 3 群集分類結果表示圖
指標函數 146.141697 數量 群集中心點
62 7.2184 3.1693 6.3562 106 5.5855 3.0673 4.3168 32 4.3031 3.2223 1.9353 各個群集
63 5.6293 3.0753 4.2474 107 7.2334 3.1642 6.3572 40 4.2985 3.2342 1.7559 各個群集 222 22 3333 33 333 3
人工資料庫 5
表4-21和表4-22為針對工資料庫5分別以k-means與HSAKM模擬所呈現 出之分群結果,其中表4-21為K-means演算法之執行結果;表4-22為HSAKM 演算法之執行結果。 150 9.9893 8.9683 8.9683 82 9.0281 14.591 14.591 300 4.9942 4.9942 8.9517 150 15.001 6.0425 6.0425 各個群集 55555 5555 55555555 55 555 55 222
4
444 22
4444444 2 4444 2
444 22
44444 4
444444 22
444 2
444 2 3333 3
444 311 444 1
444444 4
150 9.0670 14.998 15.014 150 6.0588 4.0052 3.9503 150 4.0121 9.9664 9.9435 150 10.078 8.9604 8.9517 150 14.995 6.0525 6.0602 各個群集 55555 5555 55555555 55 555 55 555 55 444
2
222 44
2222222 4 2222 4
222 44
22222 2
222222 44
222 44
222 4 1111 1
333 111 111
3 11111
33 333 1
333333 3
人工資料庫 6
表4-23和表4-24為針對工資料庫6分別以k-means與HSAKM模擬所呈現 出之分群結果,其中表4-23為K-means演算法之執行結果;表4-24為HSAKM 演算法之執行結果。
表4-23 人工資料庫 6 之 k-means 結果
群集數 5 群集分類結果表示圖
指標函數 26849.049374 數量 群集中心點
187 76.578 109.81 109.67 74 79.598 -16.755 -25.830 76 59.508 -22.353 -16.926 176 1.1559 -58.110 -27.351 237 -39.053 50.619 17.203 各個群集
中心點位 置與資料 量
-100
-50 0 50
100 150
-100 0 100 200 -100 -50 0 50 100 150
22 222 33 444 3 1
4 333 4
444 4 111
44 444
4 1111
5 111111
5
555 55 555555 5
164 86.379 111.05 109.73 81 66.689 -20.597 -21.577 181 69.538 -18.937 -21.620 174 1.8709 -58.527 -35.009 216 -55.953 41.216 6.6195 各個群集
中心點位 置與資料 量
-100 -50
0 50
100 150
-100 0 100 200 -100 -50 0 50 100 150
33 333 3 3 33 333 33 333333 33 3 33 333 3 333333 3 333 4
444 4 111
44 444
4 1111
2 111111
2
555 55 555555 5
兩種方法之群誤差率以及距離總偏移值,如表 4-25 所示。觀察以上之 群集分類結果表示,當群集大小相異時,兩種方法皆會發生誤判的情況,
距離總偏移值也會提升。雖然兩種方法皆無法找出正確之群集,然而 HSAKM 之誤判率與距離總偏移值依然低於k-mean。k-mean 在群集之間重 疊程度之影響較低時能夠較為順利正確地分群;反之出現誤判之機率越 高。k-means 雖然對這 6 種資料庫能快速的分群,但卻時常因為初始中心 位置的關係導致無法保證每次皆能分成正確的群集,因而造成相當大的誤 差。HSAKM 不受初始點的影響可收歛至最佳中心點位置的區域,並且距 離總偏移值皆低於 k-means。因此驗證出 HSAKM 可順利地在人工資料庫 進行分群,不論是誤差率、距離總偏移值的結果,皆比k-means 佳。
表 4-25 對人工資料庫進行平均20次之比較列表
誤判率 距離總偏移值
資料庫編號
k-means HSAKM k-means HSAKM 1 12.94% 8.42% 3834.41 3687.73 2 9.62% 4.58% 386.38 377.05 3 45.44% 42.48% 767.01 749.14 4 0.95% 0% 146.14 145.49 5 31.64% 0% 1036.57 675.39 6 21.94% 12.47% 23595.07 22436.86
蝴蝶花資料庫
表4-26為四種方法對Iris Plants資料庫進行在20次迭代後之距離總偏移 值值結果。單從最佳距離總偏移值觀察出除了k-means以外皆能收斂於最佳 中心點的附近;就平均距離總偏移值而言,HSAKM的平均結果則優於其 他三種方法。
圖4-1為其中一次之結果可觀察出以相同的初始中心點,k-means在數次 迭代中就能快速收斂,KPSO和KGA與k-means收斂迭代數差異不大,
HSAKM雖花較多次數才收斂但可搜尋到最佳中心點附近。綜合以上結 果,除了k-means最後落入區域解而導致到達最差距離總偏移值外,其他三 種方法皆能順利跳脫。
表4-26 蝴蝶花資料庫平均20次之分群結果
K-means KGA KPSO HSAKM 最佳距離總偏移值 97.3259 97.2221 96.9521 96.6554 平均距離總偏移值 103.0313 97.2221 98.5096 96.6662 最差距離總偏移值 128.4042 97.2221 122.2788 96.6686
0 20 40 60 80 100 120 140 160 180 200 100
150 200 250 300
K-means HSAKM KPSO KGA
圖4-1 蝴蝶花資料庫其中一次之收斂結果
葡萄酒資料庫
表4-27為四種方法對Wine資料庫進行在20次迭代後之距離總偏移值結 果。Wine此資料庫有維度空間較大且第13種維度範圍廣,因此對於此較為 複雜的資料庫k-means無法很有效的分群。距離總偏移值觀察出除了 k-means以外皆能收斂於最佳中心點的附近;以平均距離總偏移值而言,
HSAKM的平均結果優於其他三種方法。
圖4-為其中一次之結果可觀察出以相同的初始中心點,除k-means落入 區域解之外其它三種方法皆能快速收斂。KPSO、KGA與HSAKM彼此之收 斂迭次數差異不大,而HSAKM卻能搜尋到最佳中心點附近。
表4-27 葡萄酒資料庫平均20次之分群結果
K-means KGA KPSO HSAKM 最佳距離總偏移值 16555.68 16496.53 16530.53 16292.18 平均距離總偏移值 17983.27 16532.61 16549.45 16292.67 最差距離總偏移值 18436.95 16538.96 16550.45 16300.53
0 20 40 60 80 100 120 140 160 180 200
1.6 1.65 1.7 1.75 1.8 1.85 1.9 1.95 2
x 104
K-means HSAKM KPSO KGA
圖4-2 葡萄酒資料庫其中一次之收斂結果
乳癌資料庫
表4-28為四種方法對WBC資料庫進行在20次迭代後之距離總偏移值結 果。可觀察出四種方法皆能收斂於最佳中心點的附近,最佳距離總偏移值 皆差不多;以平均距離總偏移值而言,HSAKM的平均結果仍然優於其他 三種方法。
圖4-3為其中一次之結果可觀察出以相同的初始中心點,除HSAKM其他 方 法 皆 能 在10次內快速收歛到最佳中心點位置區域範圍附近,雖然 HSAKM花較多次數才收斂但比其他方法更能搜尋到最佳中心點附近,並 且誤判率也較為低。
表4-28 乳癌資料庫平均20次之分群結果
K-means KGA KPSO HSAKM 最佳距離總偏移值 2986.96 2984.07 2984.89 2964.38 平均距離總偏移值 2988.13 2985.23 2984.98 2964.38 最差距離總偏移值 2988.43 2988.37 2985.93 2964.38
0 20 40 60 80 100 120 140 160 180 200
3000 3500 4000 4500 5000 5500 6000 6500
K-means HSAKM KPSO KGA
圖4-3 資料庫其中一次之收斂結果
避孕器資料庫
表4-29為四種方法對CMC資料庫進行在20次迭代後之距離總偏移值結 果。可觀察出四種方法最佳距離總偏移值皆差不多;以平均距離總偏移值 而言,HSAKM的平均結果仍然優於其他三種方法。
圖4-4為其中一次之結果可觀察出以相同的初始中心點,除HSAKM其他 方法皆能在10次內快速收歛到最佳中心點位置區域範圍附近,KPSO和 KGA與k-means收斂迭代數差異不大,HSAKM雖花較多次數才收斂但比其 他方法更能搜尋到最佳中心點附近。綜合以上結果,除了k-means最後落入 區域解而導致到達最差距離總偏移值外,其他三種方法皆能順利跳脫。
表4-29 避孕器資料庫平均20次之分群結果
K-means KGA KPSO HSAKM 最佳距離總偏移值 5542.33 5542 5538.25 5532.18 平均距離總偏移值 5689.25 5542 5538.86 5532.18 最差距離總偏移值 7040.13 5542 5541.64 5532.18
0 20 40 60 80 100 120 140 160 180 200
5000 6000 7000 8000 9000 10000
11000 K-means
HSAKM KPSO KGA
圖4-4 避孕器資料庫其中一次之收斂結果
糖尿病資料庫
由表4-11可看出,由於Pima資料庫的重要性差異很大,而資料中又有大 量且不合理的數值,造成資料分佈會有莫大影響,因此測試此資料庫時採 取先將資料作正規化後再進行測試。表4-30為四種方法對Pima資料庫進行 在20次迭代後之距離總偏移值結果。
圖4-5為其中一次之結果可觀察出以相同的初始中心點,除HSAKM其他 方法皆能在10次內快速收歛到最佳中心點位置區域範圍附近,KPSO和 KGA與k-means收斂迭代數差異不大,HSAKM雖花較多次數才初步收斂但 能夠搜尋到最佳中心點附近。綜合以上結果,k-means仍然有快速收歛的優 點以及容易落入區域解的缺點。
表4-30 糖尿病資料庫平均20次之分群結果
K-means KGA KPSO HSAKM 最佳距離總偏移值 282.7102 282.6346 282.6364 281.9137 平均距離總偏移值 287.1988 282.6483 282.6455 281.9242 最差距離總偏移值 314.6554 282.6619 282.6856 281.9242
0 20 40 60 80 100 120 140 160 180 200 280
300 320 340 360 380 400 420 440 460 480
K-means HSAKM KPSO KGA
圖4-5 糖尿病資料庫其中一次之收斂結果
誤差率:
表4.31為以四種方法,對五個實際資料庫進行資料分群之誤差率結果,
包含了最佳和平均誤差率以及誤差率標準差,可以發現,以五種方法,對 每一個資料庫分群後的誤差率都不盡相同,雖然HSAKM對每一個資料庫 進行分群,以距離為評估函數之結果都是最好的,從中發現,對於誤差率 的判斷能力較差,其原因是由於實際資料庫中,資料點與群體中心之間的 距離,和分群結果沒有絕對的關係,而分割式分群法雖以群體中心點和資 料點之距離為評估函數,雖有良好的結果,但是誤差率卻偏高。
表4-31 四種方法對實際資料庫進行平均20次之比較列表
資料庫名稱 誤判率 K-means KGA KPSO HSAKM 最佳值 10.67% 10.00% 10.00% 10.00%
Iris
平均值 16.83% 10.00% 10.17% 10.28%
最佳值 29.21% 28.65% 29.21% 28.09%
Wine
平均值 36.89% 29.21% 29.21% 28.81%
最佳值 3.81% 3.22% 3.37% 3.51%
WBC 平均值 3.92% 3.23% 3.45% 3.51%
最佳值 54.45% 54.36% 54.33% 54.35%
CMC
平均值 54.51% 54.36% 54.39% 54.37%
最佳值 33.2% 32.07% 32.07% 32.07%
Pima
平均值 34.47% 32.15% 32.36% 32.12%