• 沒有找到結果。

(a)分群數為 2 (b)分群數為 3

(c)分群數為 4 (d)分群數為 5 圖 4-20 適切性評估式資料一(a)之分群結果

由表 4-2 可知本研究提出之群聚適切性評估式、Dunn 評估式及 DB 評估式,皆選擇符合實際的情況的分群數三群。

表 4-2 適切性評估式資料一(a)之評估值 分群數 I adapt Dunn’s DB

2 4.2511 0.35 1.009 33 55.1.15577 0.0.99992525 00.2.2881212

4 5.0068 0.0768 0.6265 5 5.1224 0.082 0.9028

圖4-19(b)由三個數量相似的群聚所構成,其中群聚間分隔的非 常明顯,並有明顯雜訊干擾;其合適的分群數量為三群。本研究使用 K-means 群聚演算法區分為二群、三群、四群、五群(圖 4-21 所示)。

(a)分群數為 2 (b)分群數為 3

(c)分群數為 4 (d)分群數為 5 圖 4-21 適切性評估式資料一(b)之分群結果

由表4-3 可知本研究之適切性評估式與 DB 評估式將會選擇分群數 量為三群,符合實際的情況;而Dunn 評估式將會選擇分群數量為四 群,不符合實際的情況。

表 4-3 適切性評估式資料一(b)之評估值 分群數 I adapt Dunn’s DB

2 3.5245 0.1377 0.899 33 44.3.377 0.1922 00.3.3666767

4 4.2388 0.0.22555757 2.4441

5 2.3075 0.014 0.815

圖4-22(a)由三個數量相異的群聚所構成,其中群聚間分隔的非 常明顯,並無明顯雜訊干擾;其合適的分群數量為三群。

本研究使用K-means 群聚演算法將圖 4-22(a)其區分為二群、三 群、四群、五群(如圖4-23 所示)。

(a)無雜訊影響 (b)有雜訊影響 圖 4-22 適切性評估式資料二之資料分佈

(a)分群數為 2 (b)分群數為 3

(c)分群數為 4 (d)分群數為 5 圖 4-23 適切性評估式資料二(a)之分群結果

由表4-4 可知利用本研究提出之適應型適切性評估式與 DB 評估式 將會選擇符合實際的情況的分群數量為三群;而Dunn 評估式將會選 擇不符合實際的分群數量為四群。

表 4-4 適切性評估式資料二(a)之評估值 分群數 I adapt Dunn’s DB

2 3.735 0.3114 1.2729 33 44.5.533339 9 0.3447 00.4.4663838 4 4.3344 1.1.00990303 0.5693 5 4.3882 0.0145 0.8833

圖 4-22(b)由三個數量相異的群聚所構成,其中群聚間分隔的 非常明顯,並有明顯雜訊干擾,其合適的分群數量為三群。本研究使 用K-means 群聚演算法將其區分為二群、三群、四群、五群,其結果 如圖4-24 所示。

(a)分群數為 2 (b)分群數為 3

(c)分群數為 4 (d)分群數為 5 圖 4-24 適切性評估式資料二(b)之分群結果

由表4-5 可知利用本研究提出適切性評估式與 DB 評估式將會選擇 符合實際情況的分群數量為三群;而Dunn 評估式將會選擇不符合實 際情況的分群數量為二群。

表 4-5 適切性評估式資料二(b)之評估值 分群數 I adapt Dunn’s DB

2 2.79 0.0.22226969 1.3393 33 22.8.855 0.2226 00.5.5002929 4 2.0102 0.001 0.6087 5 2.4849 0.0059 0.6551

圖4-25(a)由三個密度相異的群聚所構成,其中群聚間分隔的非 常明顯,並無明顯雜訊干擾;其合適的分群數量為三群。

(a)無雜訊影響 (b)有雜訊影響 圖4-25 適切性評估式資料三之資料分佈

本研究使用 K-means 群聚演算法將圖 4-25(a)區分為二群、三 群、四群、五群;其結果如圖4-26 所示。

(a)分群數為 2 (b)分群數為 3

(c)分群數為 4 (d)分群數為 5 圖 4-26 適切性評估式資料三(a)之分群結果

由表4-6 可知利用本研究提出之適切性評估式,將會選擇符合實際 的情況的分群數量為三群;而DB 評估式與 Dunn 評估式皆選擇不符 合實際的情況的分群數量為四群與二群。

表 4-6 適切性評估式資料三(a)之評估值 分群數 I adapt Dunn’s DB

2 2.91 0.0.33002 2 0.763 33 33.0.05555 0.2905 0.4917 4 3.001 0.0868 00.4.4339797 5 2.0752 0.0001 4.6524

圖 4-25(b)由三個密度相異的群聚所構成,其中群聚間分隔的 非常明顯,並有明顯雜訊干擾;其合適的分群數量為三群。本研究使 用K-means 群聚演算法將其區分為二群、三群、四群、五群;其結果 如圖4-27 所示。

(a)分群數為 2 (b)分群數為 3

(c)分群數為 4 (d)分群數為 5 圖 4-27 適切性評估式資料三(b)之分群結果

由表4-7 可知利用本研究提出之適切性評估式、DB 評估式及 Dunn 評估式皆同時選擇符合實際的情況的分群數量為三群。

表 4-7 適切性評估式資料三(b)之評估值 分群數 I adapt Dunn’s DB

2 2.15 0.0383 0.9612 33 22.7.799 0.0.11007575 00.5.5334848 4 2.2889 0.0005 1.4871 5 2.1431 0.0002 0.9456

以上實驗是將本研究所提出的群聚適切性評估式與傳統DB 評估 式及Dunn 評估式進行交互比較各種資料分佈,其中包含不同群聚外 型 不同群聚大小、不同群聚密度及群聚內不同密度及雜訊的各種資 料分佈,唯有本研究所提出的群聚適切性評估式適應任何資料分佈均 能選擇合適的群聚數量及群聚演算法輸入參數。

第伍章 結論

隨著群聚技術在各個領域被廣泛的運用,許多不足之處逐一浮 現,如部分維度與群聚演算法的選擇、群聚演算法參數的設定及合理 的應用領域等。本研究首先針對群聚相關演算法與群聚適切性評估式 進行詳細的討論,接著將對其特性作一番分析;接著本研究藉由群聚 相關技術的分析,提出提高群聚技術品質及實用性的兩個方法,其一 為利用輸入資料的密度、混亂度及分離度三個指標的配合,找尋出輔 助使用者選擇群聚演算法類型的方法;其二為根據群聚相互間與內部 資訊的量測方法,提出一較佳適應性的群聚適切性評估式。

本研究所提出的方法屬於較創新的方法,因此其中尚有許多待改 進及可繼續探討的空間,以下就對未來可改進及研究的方向做說明:

(1) 納入目前新興的群聚演算法類型進行分析:由於近期被提出群 聚演算法類型;如啟發式群聚演算法、競爭式群聚演算法類型 或熵函數為基礎的群聚演算法類型,皆具有不錯的群聚品質,

所以仍可加入新概念的指標使其架構適應其目前未納入的群聚 演算法類型。

(2) 引入真實資料庫並由中找出更具代表性的權重:藉由導入真實 資料庫的訓練,以得到適切性評估式中評估群聚間與群聚內兩 者間的權重比例,使得此適切性評估式獲得更佳的適應性。

參考文獻

[1] Ankerst M., Breunig M., Kriegel H.P.and Sander J., “optics:

Approach to Spatia1Data Mining”, VLDB'97, 1997, Vol 18, pp.

144-155.

[2] Berkhin P., Survey of Clustering Data Mining Techniques, Technical Report, 2002.

[3] Bezdek J.C. , Pal. N.R., “Some new indexes of cluster validity”, IEEE Transactions on Systems, Man, and Cybernetics Part B, 1998, Vol. 28(3) ,pp 301-315.

[4] Calinski T., Harabasz. J., “A dendrite method for cluster analysis”, Communications in Statistics, 1974, Vol. 3, pp.1-27.

[5] Davies, DL, Bouldin, D.W., “A cluster separation measure”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 1979, Vol. 1(2).

[6] Dunn .J.C., “A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters”, J. Cybernet., 1974, Vol.

3(3), pp. 32-57.

[7] Dunn J. C., “Well separated clusters and optimal fuzzy partitions”, J.Cybern, 1974, Vol. 4, pp. 95-104.

[8] Ester M., kriegel H.P., Sander J. and Xu X., “A Density-Based A1gorithm for Discovering C1usters in Large Spatia1Databases with Noise”, Knowledge Discovery and Data Mining, pp.226-231.

[9] Gokcay E., Principe J.C., “Information theoretic clustering”, PAMI, 2002, Vol. 24, pp. 158-171,

[10] Halkidi M., Batistakis Y. and Vazirgiannis M., “On Clustering Validation Techniques”, Journal of Intelligent Information Systems, 2001, Vol. 17(2), pp.107-145.

[11] Han J., Kamber M., Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2000.

[12] Jenssen R., Hild K. E., Erdogmus D., Principe J. C. and Eltoft T.,

“Clustering using Renyi's entropy”, IJCNN2003 ,2003, pp. 523-528 [13] Juha V., Esa A., “Clustering of the Self-Organizing Map”, IEEE

Transactions on Neural Networks, 2000, vol.11 (3), pp586-600

[14] Karypis G., Han E.H., “Chameleon: Hierarchical Clustering Using Dynamic Modeling”, IEEE Computer, 1999, Vol. 32(8).

[15] Kaufman L., Rousseeuw P.J., Finding Groups in data: an Introduction to clustering Analysis, John Wiley & Sons, 1990.

[16] Klir G. J., Ute S. C. and Bo Y., ”Fuzzy Set Theory: Foundations and Applications”, Prentice Hall ,1997

[17] Kohonen T., “Self-Organizing Formation of Topologically Correct Feature Maps”, Biological Cybernetics, 1982, Vol.43, pp. 59-69.

[18] Kolatch E., Clustering Algorithms for Spatial Databases: A Survey, Dept. of Computer Science, University of Maryland, College Park ,2000

[19] Lawrence H., Arabie P., “Comparing partitions”, Journal of Classification, 1985, vol. 2, pp.193-218.

[20] Li R.P., Mukaisono M., “A maximum-entropy approach to fuzzy clustering”, Fuzzy IEEE, 1995, pp.2227-2232

[21] Michael J. A., Gordon L., “Data Mining Techniques For marketing

相關文件