以 K 最近鄰(K-nn)和可互相包函最近鄰(MI-nn)為基礎之相

第四章，實驗與討論

4.3 實驗

4.3.1 非監督式分群演算法比較

4.3.1.1 以 K 最近鄰(K-nn)和可互相包函最近鄰(MI-nn)為基礎之相

我們分別使用 K 最近鄰(K-nn)和可互相包函最近鄰(MI-nn)做為尋找區域性鄰集的方法，藉由 3.3 節中提出的相似度轉換流程重新找出屬性關係。相似度轉換的目標在於辨別任意形狀的資料分布，我們先對七組人工資料集進行實驗，其中 d1 至 d5 是分布在二維空間，而 d6 和 d7 則是分布在三維空間內。觀察七組人工設計資料集，d1、d2 是屬於凸狀(convex)圖形，但是 d1 存在分群大小不均衡的情況，而 d1 和 d2 同時存在分群密度不均衡的情況；d3 至 d7 則是屬於凹狀 (concave)圖形，其中 d4、d5 和 d7 同樣存在分群大小不均衡的情況，而 d3 和 d4 亦同時存在分群密度不均衡的情況。

以 K 最近鄰為基礎的相似度轉換方法在執行前必須設定參數 K，參數 K 的設定非常敏感，此部分的實驗我們分別嘗試 K=1、3、10，三種不同的數值。

我們依照 3.3 節提出的流程尋找相似度轉換的最佳解，針對每一組資料集，

尋找適當的相似度轉換次數，如表 4-2。完成相似度轉換後，將產生的新屬性代入至 freq K-medoids 演算法中，並使用 20 組隨機抽取的測試集評估分群準確性，

實驗結果如圖 4-2 和表 4-3。實驗結果顯示以 K 最近鄰為基礎之相似度轉換方法

確實會受到參數 K 的影響，少部分資料集雖然在某個特別的參數 K 可以正確分群，但所有資料集未必適用於同個參數 K，尋找合適的參數 K 成為難題。

表 4-2. 7 組人工資料集，使用以 MI-nn、1-nn、3-nn、10-nn 為基礎之相似度轉換次數

Dataset d1 d2 d3 d4 d5 d6 d7

MI-nn 1 1 1 4 1 1 1

1-nn 1 3 0 2 1 5 1

3-nn 2 2 0 4 4 2 1

10-nn 1 2 0 3 1 2 1

最後，我們觀察 d6 和 d7 兩組分布於三維空間的資料集，資料分布經由可互相包函最近鄰(MI-nn)為基礎之相似度轉換的變化情況，如圖 4-3。

d6 和 d7 兩組資料集的分布形態如圖 4-3(a)，我們首先依照 3.3 節提出的流程，對原始資料進行一次的相似度轉換，新產生的屬性分布形態如圖 4-3(b)；接著比較轉換前(圖 4-3(a))與轉換後(圖 4-3(b))的分群相似程度，將兩者進行分群後產生的兩組分群結果並不相似，Cohen’s Kappa 一致性數必定小於門檻值。我們的目標是找出一組恰當的相似度轉換次數，新的屬性關係必需不受相似度轉換而產生劇烈變化，因此，再進行第二次的相似度轉換，新的屬性分布形態如圖 4-3(c)。

我們同樣比較轉換前(圖 4-3(b))與轉換後(圖 4-3(c))的分群相似程度，兩者的分群結果呈現高度相似且 Cohen’s Kappa 一致性數符合設定之門檻值，因此我們認為 d6 和 d7 所需的相似度轉換迭代次數皆為一次，選擇圖 4-3(b)之屬性關係做為相似度轉換的最佳解。

圖 4-3 說明，經過相似度轉換後，可以明顯的改變資料分布情形，使得新的資料分布關係不僅能夠符合正確分群，同時凸顯集群之間的邊界。

圖 4-2. 使用以 MI-nn、1-nn、3nn、10nn 為基礎之相似度轉換應用至 freq K-medoids 演算法，7 組人工資料集的 RI 比較

表 4-3. 使用以 MI-nn、1-nn、3nn、10nn 為基礎之相似度轉換應用至 freq K-medoids 演算法，7 組人工資料集之 RI 平均值與 Wilcoxon signed rank test 分析

Method Average RI MI-nn 0.995

1-nn 0.751 3-nn 0.854 10-nn 0.911

Method comparison p-Value MI-nn vs. 1-nn 0.0313

在文檔中以區域性鄰集為基礎之相似度轉換方法應用於分群演算法 (頁 44-48)

以 K 最近鄰(K-nn)和可互相包函最近鄰(MI-nn)為基礎之相

第四章 ，實驗與討論

4.3 實驗

4.3.1 非監督式分群演算法比較

4.3.1.1 以 K 最近鄰(K-nn)和可互相包函最近鄰(MI-nn)為基礎之相

第四章，實驗與討論