第肆章 實驗與結果

高時其群聚演算法計算的時間成本將隨之升高;換句話說一個優良的 群聚演算法必須有能力處理高筆數的資料分佈即密度高的資料分佈。

(二)資料混亂度指標

本實驗針對六個150 筆資料的二維正規化資料資料,其實驗結果 與分析,詳述如下。

資料一之資料分佈如圖 4-1,其分佈特性為完全隨機產生,所以 並無明顯的群聚產生,其混亂度為3.23。

圖4-1 混亂度資料一之資料分佈

資料二之資料分佈如圖 4-2,其分佈特徵為為四個分割不明顯且 高雜訊的資料分佈,其混亂度為3.06。

資料三之資料分佈如圖 4-3,其分佈特徵為一個分割不明顯且高 雜訊的資料分佈,其混亂度為2.84。

圖4-3 混亂度資料三之資料分佈

資料四之資料分佈如圖 4-4,其分佈特徵為一個分割不明確且高 雜訊但向內集中的資料分佈;如圖4-4,其混亂度為 2.45。

圖4-4 混亂度資料四之資料分佈

資料五之資料分佈如圖 4-5,其分佈特徵為三個分割明確且低雜 訊的資料分佈,其混亂度為2.28。

圖4-5 混亂度資料五之資料分佈

資料庫六之資料分佈如圖 4-6,其分佈特徵為三個分割不明確但 密度與外型大小相異的資料分佈,其混亂度為2.84。

圖4-6 混亂度資料六之資料分佈

由實驗中可得知,當資料中其群聚切割越明顯及雜訊越低時,其 混亂程度降低;換句話說一個優良的群聚演算法必須有能力處理群聚 切割不明顯及高雜訊的資料分佈即混亂程度高的資料分佈。

(三)資料分離度

本實驗共實驗了八個資料庫,皆為150 筆二維正規化資料,其實 驗內容與分析,詳述如下。

資料一之資料分佈如圖 4-7,其分佈特性為完全隨機產生,並無 明顯的群聚產生,其分離度為0.47。

圖4-7 分離度資料一之資料分佈

資料庫二的資料分佈如圖 4-8,其資料分佈為八個分割不明確且 高雜訊的,其分離度為0.48。

圖4-8 分離度資料二之資料分佈

資料庫三的資料分佈如圖 4-9,其分佈為四個分割不明確且高雜 訊的資料分佈,其分離度為0.48。

圖4-9 分離度資料三之資料分佈

資料庫四的資料分佈如圖4-10,其分佈為兩個分割不明確且高雜 訊的資料分佈,其分離度為0.57。

圖 4-10 分離度資料四之資料分佈

資料庫五為150 筆二維資料,其分佈為一個分割不明確且高雜訊 的資料分佈;如圖4-11,其分離度為 0.62。

圖4-11 分離度資料五之資料分佈

資料庫六為150 筆二維資料,其分佈為七個分割明確且低雜訊的 資料分佈;如圖4-12,其分離度為 0.51。

圖 4-12 分離度資料六之資料分佈

資料庫七為150 筆二維資料,其分佈為三個分割明確且低雜訊的 資料分佈;如圖4-13,其分離度為 0.62。

圖 4-13 分離度資料七之資料分佈

資料庫八為150 筆二維資料,其分佈為三個分割不明確且低雜訊 的資料分佈;如圖4-14,其分離度為 0.7。

圖 4-14 分離度資料八之資料分佈

由以上實驗中可知當原始資料分佈中的群聚間,分割越明顯即群 聚彼此間分離的越遠時,其分離度越大。

(四)實驗範例

本實驗以群聚演算法效能與品質為前提下,以本研究提出的資料 密度、分散度與混亂度指標,針對欲分群之原始資料進行分析,再以 [2][18]所提出的各群聚演算法類型的特性為基礎所建立的規則,如表 4-2,以輔助使用者選擇合宜的群聚演算法;其範例架構圖如圖 3-5。

本實驗模擬兩組資料分佈;其一為二維資料分佈,其資料筆數為150,

合適分群數為三群而每個群聚的大小與密度皆相似,同時並有雜訊發 生;其資料分佈如圖4-15。

圖 4-15 範例一資料分佈

經由資料分析後,其密度為 160.26、混亂度為 2.52、分離度為 0.539,經由本研究所提出之群聚演算法選擇模型發現其適用的演算 法類型為切割式群聚演算法,接著本研究採用切割式群聚演算法與階 層式群聚演算法進行分群,獲得分群結果如圖4-16。

(a)切割式群聚演算法結果 (b)階層式群聚演算法結果 圖4-16 範例一分群結果示意圖

由圖 4-16(a)中可以發現切割式群聚演算法結果在輸入正確的 群聚參數(分群數為3)下,其分群結果皆為正確;但是階層式群聚 演算法結果圖 4-16(b)在輸入正確的群聚參數(分群數為 3)下,

其分群結果出現大量不適合的群聚結果。

另一組為二維資料分佈,其資料筆數為150,合適分群數為三群 每個群聚的大小與密度皆不相同,同時並有雜訊發生;其資料分佈如 圖4-17。

圖 4-17 範例二資料分佈

經由資料分析後,其密度為 155.65、混亂度為 2.8、分離度為 0.56,

經由本研究所提出之群聚演算法選擇模型發現其適用的演算法類型 為階層式群聚演算法,接著本研究採用階層式群聚演算法與切割式群 聚演算法進行分群,獲得分群結果如圖4-18。

(a)切割式群聚演算法結果 (b)階層式群聚演算法結果 圖4-18 範例二分群結果示意圖

由圖 4-18(a)中可以發現切割式群聚演算法結果在輸入正確的 群聚參數(分群數為3)下,出現大量不適合的群聚結果;但是階層 式群聚演算法結果圖4-18(b)在輸入正確的群聚參數(分群數為 3)

下,其分群結果皆為正確。

In document 群聚參數與群聚適切性的分析與應用 The Analysis and Applications of Cluster Parameters (Page 60-71)

Related documents