其他非監督式分群演算法比較

第四章，實驗與討論

4.3 實驗

4.3.1 非監督式分群演算法比較

4.3.1.2 其他非監督式分群演算法比較

我們將經過相似度轉換後的全新屬性帶入 freq K-medoids 演算法，接著再與另外數種常見的分群演算法做比較，它們分別是 K-means[1]、K-medoids[4]、

CLUTO[5](一種實作 Chameleon[5]演算法的工具)以及 DBSCAN[6]。

K-means 使用由 R statistics[23]提供的函式，其所需的參數僅有分群個數 K；

CLUTO[5]使用作者公布的原始碼，其所需的參數相當多種，包含：分群方法 (clmethod)、相似度函式(sim)和 K 最近鄰個數(nnbrs)。此部分的實驗將分群方法 (clmethod)設為 graph、相似度函式(sim)設為歐式距離，由於 CLUTO[5]採用 K 最近鄰圖動態調整相鄰半徑，最主要影響分群結果的參數即是 K 最近鄰個數(nnbrs)，

我們分別測試了三種不同的參數值，分別是：10、25、40(CLUTO 之預設值)；

DBSCAN[6]採用 2001 年由 Daszykowski 等[27]提出的改進方法。由於 DBSCAN 對輸入的兩項參數(半徑ε 和 MinPts)非常敏感，尤其是半徑 ε，因此 Daszykowski 等[27]提出一種新的方法，經由設定的 MinPts 來尋找更為適當的半徑ε，降低輸入的參數個數並同時減少演算法對參數的依賴性，在此我們分別將 MinPts 設定為 3、5、10。接下來的實驗我們將分別比較人工設計資料集與真實世界資料集。

人工設計資料集的實驗部分，我們同樣依照 3.3 節提出的流程尋找相似度轉換的最佳解，針對每一組資料集尋找適當的相似度轉換次數，如表 4-2。接著將經過相似度轉換後產生的新屬性應用至 freq K-medoids 演算法中，並使用 20 組隨機抽取的測試集同步評量其他 3 種非監督式分群演算法，實驗結果如圖 4-4 和表 4-4。上個小節已說明以可互相包函最近鄰(MI-nn)為區域最近鄰的相似度轉換方法在處理分群資料大小不均衡、密度不均衡的凸狀圖形或凹狀圖形時，都能夠較接近正確的分群，而在與其他分群的比較實驗中，其結果亦顯示我們所提出的方法優於其餘三種演算法。接著觀察 K-means 和 K-medoids 演算法產生的結果，

由於兩者設計的目標都是解決凸性最佳化問題(convex optimization problem)，因此並不擅於處理上述的情況，特別是凹狀形狀的資料集 d5 和 d7，它僅能將圖形

水平一分為二，難以找出一內一外的兩個分群。繼續觀察 CLUTO 的實驗結果，

雖然 CLUTO 已被實驗證明能夠解決任意形狀分布的資料集，然而 CLUTO 對於參數的設定是相當敏感的。實驗結果顯示 CLUTO 的確受到參數 nnbrs 的影響，

雖然部分資料集在特定的參數 nnbrs 可以接近正確，我們仍然無法找出一個適當的參數 nnbrs 應用於所有資料集。由於分群的過程是一種非監督式學習法，對於參數的設定往往只能透過反覆測試，進而尋找出一個足以讓使用者信服的答案。

與此篇論文提出的方法相比，可互相包含最近鄰(MI-nn)為基礎的相似度轉換方法對於參數的依賴程度遠低於 CLUTO。最後觀察 DBSCAN 的實驗結果，

DBSCAN 是一種以密度為基礎的演算法，其弱點便是在處理分群密度不均衡的情況，實驗結果證實 DBSCAN 應用至四組密度不均衡的資料集(d1、d2、d3、d4)，

分群準確率較低，而應用至凹狀資料集中(d5、d6、d7)，在特定的參數下仍然能獲得正確的分群結果。綜合以上結果，以可互相包含最近鄰(MI-nn)為基礎的相似度轉換方法能處理任意形狀的群集，且參數的依賴程度較低。

觀察 10 組來自於 UCI 資料庫的資料集，我們使用其提供的資料類別做為資料的正確分群。由於 UCI 資料集來自於真實世界，大多數擁有較高的資料維度，

而高維度空間內的資料分布通常更為鬆散，難以預期其分布特性。我們希望藉由相似度轉換的幫助，突顯資料分布的特性和集群邊界。

在 UCI 資料集的實驗中，我們同樣依照 3.3 節提出的流程尋找相似度轉換的最佳解，針對每一組資料集，尋找適當的相似度轉換次數，如表 4-5。將經由相似度轉換後產生的新屬性代入至 freq K-medoids 演算法中，並使用 20 組隨機抽取的測試集同步評量其他 3 種不同的分群分法，實驗結果如圖 4-5 和表 4-6。實驗結果說明在多數的情況下，採用以可互相包函最近鄰(MI-nn)為區域最近鄰的相似度轉換方法都能獲得相對高的分群準確率，特別是 iris、glass、balance、WDBC、

soybean，此五組資料集是顯著高於其他三種分群方法。

41 圖 4-4. 非監督式分群演算法，7 組人工資料集的 RI 比較

說明：由左至右：MI-nn based transform and freq K-medoids、K-means、K-medoids、CLUTO (nnbrs=10) 、CLUTO (nnbrs=25) 、CLUTO (nnbrs=40)、DBSCAN (MinPts=3)、DBSCAN (MinPts=5)、

DBSCAN (MinPts=10)

MI-nn + freq K-edoids K-means K-medoids CLUTO (nnbrs=10) CLUTO (nnbrs=25) CLUTO (nnbrs=40) DBSCAN (MinPts=3) DBSCAN (MinPts=5) DBSCAN (MinPts=10)

0.4

MI-nn + freq K-edoids K-means K-medoids CLUTO (nnbrs=10) CLUTO (nnbrs=25) CLUTO (nnbrs=40) DBSCAN (MinPts=3) DBSCAN (MinPts=5) DBSCAN (MinPts=10)

表 4-4. 非監督式分群演算法，7 組人工資料集之 RI 平均值與 Wilcoxon signed rank test 分析

Method Average RI MI-nn + freq K-edoids 0.995

K-means 0.597 K-medoids 0.595 CLUTO (nnbrs=10) 0.868 CLUTO (nnbrs=25) 0.745 CLUTO (nnbrs=40) 0686 DBSCAN (MinPts=3) 0.749 DBSCAN (MinPts=5) 0.802 DBSCAN (MinPts=10) 0.615

Method comparison p-Value MI-nn + freq K-edoids vs. K-means 0.0156 MI-nn + freq K-edoids vs. K-medoids 0.0156 MI-nn + freq K-edoids vs. CLUTO (nnbrs=10) 0.0625 MI-nn + freq K-edoids vs. CLUTO (nnbrs=25) 0.0313 MI-nn + freq K-edoids vs. CLUTO (nnbrs=40) 0.0156 MI-nn + freq K-edoids vs. DBSCAN (MinPTS=3) 0.0313 MI-nn + freq K-edoids vs. DBSCAN (MinPTS=5) 0.0313 MI-nn + freq K-edoids vs. DBSCAN (MinPTS=10) 0.0313

43 表 4-5. 10 組 UCI 資料集之相似度轉換次數

Dataset Iris Wine Glass Balance Ionosphere

0 1 5 13 0

Dataset Breast cancer WDBC Soybean Segmentation Pima diabetes

1 0 0 2 5

圖 4-5. 非監督式分群演算法，10 組 UCI 資料集的 RI 比較

說明：由左至右：MI-nn based transform and freq K-medoids、K-means、K-medoids、CLUTO (nnbrs=10) 、CLUTO (nnbrs=25) 、CLUTO (nnbrs=40)、DBSCAN (MinPts=3)、DBSCAN (MinPts=5)、

DBSCAN (MinPts=10)

0.4

MI-nn + freq K-edoids K-means K-medoids CLUTO (nnbrs=10) CLUTO (nnbrs=25) CLUTO (nnbrs=40) DBSCAN (MinPts=3) DBSCAN (MinPts=5) DBSCAN (MinPts=10)

0.4

MI-nn + freq K-edoids K-means K-medoids CLUTO (nnbrs=10) CLUTO (nnbrs=25) CLUTO (nnbrs=40) DBSCAN (MinPts=3) DBSCAN (MinPts=5) DBSCAN (MinPts=10)

表 4-6. 非監督式分群演算法，10 組 UCI 資料集之 RI 平均值與 Wilcoxon signed rank test 分析

Method Average RI MI-nn + freq K-edoids 0.812

K-means 0.768 K-medoids 0.774 CLUTO (nnbrs=10) 0.761 CLUTO (nnbrs=25) 0.773 CLUTO (nnbrs=40) 0.759 DBSCAN (MinPts=3) 0.569 DBSCAN (MinPts=5) 0.568 DBSCAN (MinPts=10) 0.566

Method comparison p-Value MI-nn + freq K-edoids vs. K-means 0.2324 MI-nn + freq K-edoids vs. K-medoids 0.2969 MI-nn + freq K-edoids vs. CLUTO (nnbrs=10) 0.0273 MI-nn + freq K-edoids vs. CLUTO (nnbrs=25) 0.375 MI-nn + freq K-edoids vs. CLUTO (nnbrs=40) 0.2031 MI-nn + freq K-edoids vs. DBSCAN (MinPTS=3) 0.0098 MI-nn + freq K-edoids vs. DBSCAN (MinPTS=5) 0.0098 MI-nn + freq K-edoids vs. DBSCAN (MinPTS=10) 0.0098

在文檔中以區域性鄰集為基礎之相似度轉換方法應用於分群演算法 (頁 48-54)

第四章 ，實驗與討論

4.3 實驗

4.3.1 非監督式分群演算法比較

4.3.1.2 其他非監督式分群演算法比較

第四章，實驗與討論