• 沒有找到結果。

相似度轉換方法與非監督式分群演算法合併之比較

第四章 ,實驗與討論

4.3 實驗

4.3.1 非監督式分群演算法比較

4.3.1.3 相似度轉換方法與非監督式分群演算法合併之比較

相似度轉換方法可以被當作一種資料前處理的步驟。在此小節中,我們首先 使用相似度轉換方法產生一組全新的屬性關係,接著將新的屬性關係代入至 K-means[1]、CLUTO[5]和 DBSCAN[6],三種非監督式的分群演算法,比較原始 資料屬性和經由相似度轉換方法求出的新屬性關係,兩者的分群準確率。

人工資料集的實驗結果如圖 4-6 和表 4-7。首先觀察 K-means 的實驗結果,

我們已知 K-means 演算法的目標在於處理凸性最佳化問題(convex optimization problem),在 4.3.1.1 小節中已經證實相似度轉換方法能夠凸顯集群之間的邊界(如 圖 4-2),有利於 K-means 演算法尋找正確分群,進而提高分群的準確率;實驗結 果顯示,在七組人工設計資料集中,扣除 d4 資料集,我們都能找出正確的分群。

接著觀察 CLUTO 和 DBSCAN 的實驗結果,由於兩者對於參數的設定都是相當 敏感的,我們認為對採用相似度轉換方法改變資料的分布情形,能夠降低演算法 對參數的依賴程度;實驗結果顯示,DBSCAN 方法在七組人工資料集中,對於 實驗所採用的三組參數都能同時提高分群準確率,而少部分資料集例如:d1 和 d3 更能找出正確的分群;對於 CLUTO 的實驗部分,扣除 d1 和 d4 二組資料集,

在剩餘的資料集中仍然可以得到接近甚至更佳的分群準確率。

UCI 資料集的實驗結果如圖 4-7 和表 4-8。由於 UCI 資料集式搜集自真實世 界,資料的分布通常是更加散亂的,我們較難預測集群的分布情形。實驗結果顯 示,相似度轉換並不能增加準確性,僅僅能維持相近的結果。

46

1 2

3 4

5 6

7

圖 4-6. 相似度轉換方法應用至 K-means、K-medoids、CLUTO 和 DBSCAN 方法,和未使用相似 度轉換之 7 組人工資料集的 RI 比較

說明:由左至右,上至下分別是:1. d1, 2. d2, 3. d3, 4. d4, 5. d5, 6. d6, 7. d7

說明:藍色長條表示使用原始資料,紅色長條表示使用 MI-nn 轉換所產生之新屬性

說明:由左至右:K-means、K-medoids、CLUTO (nnbrs=10) 、CLUTO (nnbrs=25) 、CLUTO (nnbrs=40)、DBSCAN (MinPts=3)、DBSCAN (MinPts=5)、DBSCAN (MinPts=10)

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

47

表 4-7. 相似度轉換方法應用至 K-means、K-medoids、CLUTO 和 DBSCAN 方法,和未使用相似 度轉換之 7 組人工資料集之 RI 平均值與 Wilcoxon signed rank test 分析

Method Average RI Original MI-nn K-means 0.597 0.943 K-medoids 0.595 0.972 CLUTO (nnbrs=10) 0.868 0.839 CLUTO (nnbrs=25) 0.745 0.819 CLUTO (nnbrs=40) 0.686 0.839 DBSCAN (MinPts=3) 0.749 0.911 DBSCAN (MinPts=5) 0.802 0.954 DBSCAN (MinPts=10) 0.615 0.972

Original vs. MI-nn p-Value K-means 0.0313 K-medoids 0.0156 CLUTO (nnbrs=10) 0.3125 CLUTO (nnbrs=25) 0.6875 CLUTO (nnbrs=40) 0.2188 DBSCAN (MinPts=3) 0.0313 DBSCAN (MinPts=5) 0.0313 DBSCAN (MinPts=10) 0.0313

48

圖 4-7. 相似度轉換方法應用至 K-means、K-medoids、CLUTO 和 DBSCAN 方法,和未使用相似 度轉換之 10 組 UCI 資料集 RI 比較

說明:由左至右,上至下分別是:1. Iris, 2. Wine, 3. Glass, 4. Balance, 5. Ionosphere, 6. Breast cancer, 7. WDBC, 8. Soybean, 9. Segmentation, 10. Diabetes

說明:藍色長條表示使用原始資料,紅色長條表示使用 MI-nn 轉換所產生之新屬性

說明:由左至右:K-means、K-medoids、CLUTO (nnbrs=10) 、CLUTO (nnbrs=25) 、CLUTO (nnbrs=40)、DBSCAN (MinPts=3)、DBSCAN (MinPts=5)、DBSCAN (MinPts=10)

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

0.4

Original MI-nn

49

表 4-8. 相似度轉換方法應用至 K-means、K-medoids、CLUTO 和 DBSCAN 方法,和未使用相似 度轉換之 10 組 UCI 資料集之 RI 平均值與 Wilcoxon signed rank test 分析

Method Average RI Original MI-nn K-means 0.768 0.743 K-medoids 0.774 0.724 CLUTO (nnbrs=10) 0.761 0.715 CLUTO (nnbrs=25) 0.773 0.751 CLUTO (nnbrs=40) 0.759 0.748 DBSCAN (MinPts=3) 0.569 0.53 DBSCAN (MinPts=5) 0.568 0.531 DBSCAN (MinPts=10) 0.566 0.529

Original vs. MI-nn p-Value K-means 0.0938 K-medoids 0.4375 CLUTO (nnbrs=10) 0.0938 CLUTO (nnbrs=25) 0.4375 CLUTO (nnbrs=40) 0.6875 DBSCAN (MinPts=3) 0.0938 DBSCAN (MinPts=5) 0.125 DBSCAN (MinPts=10) 0.1563

50