• 沒有找到結果。

其他非監督式分群演算法比較

第四章 ,實驗與討論

4.3 實驗

4.3.1 非監督式分群演算法比較

4.3.1.2 其他非監督式分群演算法比較

我們將經過相似度轉換後的全新屬性帶入 freq K-medoids 演算法,接著再與 另外數種常見的分群演算法做比較,它們分別是 K-means[1]、K-medoids[4]、

CLUTO[5](一種實作 Chameleon[5]演算法的工具)以及 DBSCAN[6]。

K-means 使用由 R statistics[23]提供的函式,其所需的參數僅有分群個數 K;

CLUTO[5]使用作者公布的原始碼,其所需的參數相當多種,包含:分群方法 (clmethod)、相似度函式(sim)和 K 最近鄰個數(nnbrs)。此部分的實驗將分群方法 (clmethod)設為 graph、相似度函式(sim)設為歐式距離,由於 CLUTO[5]採用 K 最 近鄰圖動態調整相鄰半徑,最主要影響分群結果的參數即是 K 最近鄰個數(nnbrs),

我們分別測試了三種不同的參數值,分別是:10、25、40(CLUTO 之預設值);

DBSCAN[6]採用 2001 年由 Daszykowski 等[27]提出的改進方法。由於 DBSCAN 對輸入的兩項參數(半徑ε 和 MinPts)非常敏感,尤其是半徑 ε,因此 Daszykowski 等[27]提出一種新的方法,經由設定的 MinPts 來尋找更為適當的半徑ε,降低輸 入的參數個數並同時減少演算法對參數的依賴性,在此我們分別將 MinPts 設定 為 3、5、10。接下來的實驗我們將分別比較人工設計資料集與真實世界資料集。

人工設計資料集的實驗部分,我們同樣依照 3.3 節提出的流程尋找相似度轉 換的最佳解,針對每一組資料集尋找適當的相似度轉換次數,如表 4-2。接著將 經過相似度轉換後產生的新屬性應用至 freq K-medoids 演算法中,並使用 20 組 隨機抽取的測試集同步評量其他 3 種非監督式分群演算法,實驗結果如圖 4-4 和 表 4-4。上個小節已說明以可互相包函最近鄰(MI-nn)為區域最近鄰的相似度轉換 方法在處理分群資料大小不均衡、密度不均衡的凸狀圖形或凹狀圖形時,都能夠 較接近正確的分群,而在與其他分群的比較實驗中,其結果亦顯示我們所提出的 方法優於其餘三種演算法。接著觀察 K-means 和 K-medoids 演算法產生的結果,

由於兩者設計的目標都是解決凸性最佳化問題(convex optimization problem),因 此並不擅於處理上述的情況,特別是凹狀形狀的資料集 d5 和 d7,它僅能將圖形

40

水平一分為二,難以找出一內一外的兩個分群。繼續觀察 CLUTO 的實驗結果,

雖然 CLUTO 已被實驗證明能夠解決任意形狀分布的資料集,然而 CLUTO 對於 參數的設定是相當敏感的。實驗結果顯示 CLUTO 的確受到參數 nnbrs 的影響,

雖然部分資料集在特定的參數 nnbrs 可以接近正確,我們仍然無法找出一個適當 的參數 nnbrs 應用於所有資料集。由於分群的過程是一種非監督式學習法,對於 參數的設定往往只能透過反覆測試,進而尋找出一個足以讓使用者信服的答案。

與此篇論文提出的方法相比,可互相包含最近鄰(MI-nn)為基礎的相似度轉換方 法對於參數的依賴程度遠低於 CLUTO。最後觀察 DBSCAN 的實驗結果,

DBSCAN 是一種以密度為基礎的演算法,其弱點便是在處理分群密度不均衡的 情況,實驗結果證實 DBSCAN 應用至四組密度不均衡的資料集(d1、d2、d3、d4),

分群準確率較低,而應用至凹狀資料集中(d5、d6、d7),在特定的參數下仍然能 獲得正確的分群結果。綜合以上結果,以可互相包含最近鄰(MI-nn)為基礎的相 似度轉換方法能處理任意形狀的群集,且參數的依賴程度較低。

觀察 10 組來自於 UCI 資料庫的資料集,我們使用其提供的資料類別做為資 料的正確分群。由於 UCI 資料集來自於真實世界,大多數擁有較高的資料維度,

而高維度空間內的資料分布通常更為鬆散,難以預期其分布特性。我們希望藉由 相似度轉換的幫助,突顯資料分布的特性和集群邊界。

在 UCI 資料集的實驗中,我們同樣依照 3.3 節提出的流程尋找相似度轉換的 最佳解,針對每一組資料集,尋找適當的相似度轉換次數,如表 4-5。將經由相 似度轉換後產生的新屬性代入至 freq K-medoids 演算法中,並使用 20 組隨機抽 取的測試集同步評量其他 3 種不同的分群分法,實驗結果如圖 4-5 和表 4-6。實 驗結果說明在多數的情況下,採用以可互相包函最近鄰(MI-nn)為區域最近鄰的 相似度轉換方法都能獲得相對高的分群準確率,特別是 iris、glass、balance、WDBC、

soybean,此五組資料集是顯著高於其他三種分群方法。

41 圖 4-4. 非監督式分群演算法,7 組人工資料集的 RI 比較

說明:由左至右:MI-nn based transform and freq K-medoids、K-means、K-medoids、CLUTO (nnbrs=10) 、CLUTO (nnbrs=25) 、CLUTO (nnbrs=40)、DBSCAN (MinPts=3)、DBSCAN (MinPts=5)、

DBSCAN (MinPts=10)

MI-nn + freq K-edoids K-means K-medoids CLUTO (nnbrs=10) CLUTO (nnbrs=25) CLUTO (nnbrs=40) DBSCAN (MinPts=3) DBSCAN (MinPts=5) DBSCAN (MinPts=10)

0.4

MI-nn + freq K-edoids K-means K-medoids CLUTO (nnbrs=10) CLUTO (nnbrs=25) CLUTO (nnbrs=40) DBSCAN (MinPts=3) DBSCAN (MinPts=5) DBSCAN (MinPts=10)

42

表 4-4. 非監督式分群演算法,7 組人工資料集之 RI 平均值與 Wilcoxon signed rank test 分析

Method Average RI MI-nn + freq K-edoids 0.995

K-means 0.597 K-medoids 0.595 CLUTO (nnbrs=10) 0.868 CLUTO (nnbrs=25) 0.745 CLUTO (nnbrs=40) 0686 DBSCAN (MinPts=3) 0.749 DBSCAN (MinPts=5) 0.802 DBSCAN (MinPts=10) 0.615

Method comparison p-Value MI-nn + freq K-edoids vs. K-means 0.0156 MI-nn + freq K-edoids vs. K-medoids 0.0156 MI-nn + freq K-edoids vs. CLUTO (nnbrs=10) 0.0625 MI-nn + freq K-edoids vs. CLUTO (nnbrs=25) 0.0313 MI-nn + freq K-edoids vs. CLUTO (nnbrs=40) 0.0156 MI-nn + freq K-edoids vs. DBSCAN (MinPTS=3) 0.0313 MI-nn + freq K-edoids vs. DBSCAN (MinPTS=5) 0.0313 MI-nn + freq K-edoids vs. DBSCAN (MinPTS=10) 0.0313

43 表 4-5. 10 組 UCI 資料集之相似度轉換次數

Dataset Iris Wine Glass Balance Ionosphere

0 1 5 13 0

Dataset Breast cancer WDBC Soybean Segmentation Pima diabetes

1 0 0 2 5

圖 4-5. 非監督式分群演算法,10 組 UCI 資料集的 RI 比較

說明:由左至右:MI-nn based transform and freq K-medoids、K-means、K-medoids、CLUTO (nnbrs=10) 、CLUTO (nnbrs=25) 、CLUTO (nnbrs=40)、DBSCAN (MinPts=3)、DBSCAN (MinPts=5)、

DBSCAN (MinPts=10)

0.4

MI-nn + freq K-edoids K-means K-medoids CLUTO (nnbrs=10) CLUTO (nnbrs=25) CLUTO (nnbrs=40) DBSCAN (MinPts=3) DBSCAN (MinPts=5) DBSCAN (MinPts=10)

0.4

MI-nn + freq K-edoids K-means K-medoids CLUTO (nnbrs=10) CLUTO (nnbrs=25) CLUTO (nnbrs=40) DBSCAN (MinPts=3) DBSCAN (MinPts=5) DBSCAN (MinPts=10)

44

表 4-6. 非監督式分群演算法,10 組 UCI 資料集之 RI 平均值與 Wilcoxon signed rank test 分析

Method Average RI MI-nn + freq K-edoids 0.812

K-means 0.768 K-medoids 0.774 CLUTO (nnbrs=10) 0.761 CLUTO (nnbrs=25) 0.773 CLUTO (nnbrs=40) 0.759 DBSCAN (MinPts=3) 0.569 DBSCAN (MinPts=5) 0.568 DBSCAN (MinPts=10) 0.566

Method comparison p-Value MI-nn + freq K-edoids vs. K-means 0.2324 MI-nn + freq K-edoids vs. K-medoids 0.2969 MI-nn + freq K-edoids vs. CLUTO (nnbrs=10) 0.0273 MI-nn + freq K-edoids vs. CLUTO (nnbrs=25) 0.375 MI-nn + freq K-edoids vs. CLUTO (nnbrs=40) 0.2031 MI-nn + freq K-edoids vs. DBSCAN (MinPTS=3) 0.0098 MI-nn + freq K-edoids vs. DBSCAN (MinPTS=5) 0.0098 MI-nn + freq K-edoids vs. DBSCAN (MinPTS=10) 0.0098

45