第四章 ,實驗與討論
4.3 實驗
4.3.1 非監督式分群演算法比較
4.3.1.1 以 K 最近鄰(K-nn)和可互相包函最近鄰(MI-nn)為基礎之相
我們分別使用 K 最近鄰(K-nn)和可互相包函最近鄰(MI-nn)做為尋找區域性 鄰集的方法,藉由 3.3 節中提出的相似度轉換流程重新找出屬性關係。相似度轉 換的目標在於辨別任意形狀的資料分布,我們先對七組人工資料集進行實驗,其 中 d1 至 d5 是分布在二維空間,而 d6 和 d7 則是分布在三維空間內。觀察七組人 工設計資料集,d1、d2 是屬於凸狀(convex)圖形,但是 d1 存在分群大小不均衡 的情況,而 d1 和 d2 同時存在分群密度不均衡的情況;d3 至 d7 則是屬於凹狀 (concave)圖形,其中 d4、d5 和 d7 同樣存在分群大小不均衡的情況,而 d3 和 d4 亦同時存在分群密度不均衡的情況。
以 K 最近鄰為基礎的相似度轉換方法在執行前必須設定參數 K,參數 K 的 設定非常敏感,此部分的實驗我們分別嘗試 K=1、3、10,三種不同的數值。
我們依照 3.3 節提出的流程尋找相似度轉換的最佳解,針對每一組資料集,
尋找適當的相似度轉換次數,如表 4-2。完成相似度轉換後,將產生的新屬性代 入至 freq K-medoids 演算法中,並使用 20 組隨機抽取的測試集評估分群準確性,
實驗結果如圖 4-2 和表 4-3。實驗結果顯示以 K 最近鄰為基礎之相似度轉換方法
36
確實會受到參數 K 的影響,少部分資料集雖然在某個特別的參數 K 可以正確分 群,但所有資料集未必適用於同個參數 K,尋找合適的參數 K 成為難題。
表 4-2. 7 組人工資料集,使用以 MI-nn、1-nn、3-nn、10-nn 為基礎之相似度轉換次數
Dataset d1 d2 d3 d4 d5 d6 d7
MI-nn 1 1 1 4 1 1 1
1-nn 1 3 0 2 1 5 1
3-nn 2 2 0 4 4 2 1
10-nn 1 2 0 3 1 2 1
最後,我們觀察 d6 和 d7 兩組分布於三維空間的資料集,資料分布經由可互 相包函最近鄰(MI-nn)為基礎之相似度轉換的變化情況,如圖 4-3。
d6 和 d7 兩組資料集的分布形態如圖 4-3(a),我們首先依照 3.3 節提出的流 程,對原始資料進行一次的相似度轉換,新產生的屬性分布形態如圖 4-3(b);接 著比較轉換前(圖 4-3(a))與轉換後(圖 4-3(b))的分群相似程度,將兩者進行分群後 產生的兩組分群結果並不相似,Cohen’s Kappa 一致性數必定小於門檻值。我們 的目標是找出一組恰當的相似度轉換次數,新的屬性關係必需不受相似度轉換而 產生劇烈變化,因此,再進行第二次的相似度轉換,新的屬性分布形態如圖 4-3(c)。
我們同樣比較轉換前(圖 4-3(b))與轉換後(圖 4-3(c))的分群相似程度,兩者的分群 結果呈現高度相似且 Cohen’s Kappa 一致性數符合設定之門檻值,因此我們認為 d6 和 d7 所需的相似度轉換迭代次數皆為一次,選擇圖 4-3(b)之屬性關係做為相 似度轉換的最佳解。
圖 4-3 說明,經過相似度轉換後,可以明顯的改變資料分布情形,使得新的 資料分布關係不僅能夠符合正確分群,同時凸顯集群之間的邊界。
37
圖 4-2. 使用以 MI-nn、1-nn、3nn、10nn 為基礎之相似度轉換應用至 freq K-medoids 演算法,7 組人工資料集的 RI 比較
38
表 4-3. 使用以 MI-nn、1-nn、3nn、10nn 為基礎之相似度轉換應用至 freq K-medoids 演算法,7 組人工資料集之 RI 平均值與 Wilcoxon signed rank test 分析
Method Average RI MI-nn 0.995
1-nn 0.751 3-nn 0.854 10-nn 0.911
Method comparison p-Value MI-nn vs. 1-nn 0.0313
39