半監督式分群演算法比較

第四章，實驗與討論

4.3 實驗

4.3.2 半監督式分群演算法比較

將 3.4 節提出的代價函式與 freq K-medoids 演算法合併，使得 freq K-medoids 演算法從非監督式變更成半監督式。由於此篇論文提出的方法涉及相似度轉換，

與 similarity-based 的半監督式分群法更為接近，因此在本章節的實驗中，我們將經過相似度轉換後的全新屬性帶入至 freq K-medoids with cost function 演算法，

同時與另外三種一樣屬於 similarity-based 的半監督式分群法：Xing[11]、RCA[12]

和 LMNN[16]做比較。Xing[11]和 RCA[12]提出的兩種半監督式分群法在學習一組新的相似度函式後，都會和屬於 search-based 的 Cop K-means[8]方法結合，在尋找分群的過程重複利用配對限制(pairwise constraints)，再次提升分群準確率。

LMNN[16]在學習相似度函式的過程中使用 K 最近鄰(K-nn)建構最大化邊界 (large margin)，與此篇論文提出的方法使用相似的概念，因此我們將其納入比較。

然而，LMNN[16]的原始目標是應用於分類(classification)領域而非分群，除了給予配對限制的類型外，尚須給予配對限制所包含的資料之類別(class)。與 Xing[11]

和 RCA[12]方法相同，在利用 LMNN[16]方法學習一組新的相似度函式後，我們比較經由 K-medoids 演算法產生之結果的準確率。由於此篇論文提出的方法是以 K-medoids 演算法為基礎，基於公平性，我們對 Cop K-means 稍做修改，將分群演算法由 K-means 更換成 K-medoids，而 Cop K-means 的主要目標仍然不變。

半監督式分群法的目標在於將使用者或專家提供的配對限制整合至演算法中。我們從訓練集中隨機挑選固定數量的鏈結用以模擬配對限制，並使用測試集評量分群的準確率。在配對限制的抽取過程中，我們盡可能平均的抽出 MUST-link 和 CANNOT-link 的數量，避免受到其中一種型態的配對限制影響。

實驗設計上，分別自資料集中抽出三種固定數量的配對限制，數量分別是 50 組、

100 組和 200 組，每當完成配對限制的抽取，將遵循眾多學者的作法，進一步對 MUST-link 和 CANNOT-link 建構遞移包(transitive closure)，藉此尋找更多的配對限制。

人工資料集的結果顯示，經過相似度轉換後的資料集，即便缺少專家提供的意見的協助(例如：配對限制)，我們的分群結果仍可達到近乎完全正確的結果。

反觀其餘三組方法，如圖 4-8 和表 4-9 所示，即便將原始的配對限制個數提供至二百對，除了資料分布相對規律的 d2 之外，Xing [11]、RCA[12]、 LMNN[16]

對於其他分布較為特殊的資料集仍然無法完整區分，僅能有限度的提升準確性。

反觀 UCI 資料集的實驗結果，如圖 4-9 和表 4-10 所示。Xing[11]、RCA[12]

和 LMNN[16]三種方法憑藉著配對限制的幫助重新學習相似關係，因此可以預期新的相似度函式所描述的相似關係可以滿足多數的配對限制，進而提升整體的分群準確率。我們的實驗結果顯示，先利用可互相包含最近鄰(MI-nn)作為基礎之相似度轉換方法找出新的屬性關係，再採用 freq K-medoids with cost function 演算法找出的分群，其準確性不但接近其餘三種方法，甚至在部分資料集的分群結果上擁有更佳的表現。比較非監督式和半監督式分群法的實驗結果，將經過相似度轉換的新屬性分別應用至非監督式的 freq K-medoids 或半監督式的 freq K-medoids with cost function 演算法，兩者的差異並不是非常顯著。我們認為將相似度轉換方法應用於目前實驗所使用的資料集，都能完整描述資料間真實的相似關係，同時符合專家提供的配對限制，因此較難突顯配對限制在改進分群準確率的優點。若是應用於其他資料集的分群上，專家的意見仍然可以被用來彌補相似度轉換所無法涵蓋的範圍，以提升分群的效能。

說明：圖表中由左至右： MI-nn based transformation and freq K-medoids with cost function、Cop K-medoids[2] over the feature space suggested by Xing[11]、Cop K-medoids[2] over the feature space suggested by RCA[12]、K-medoids over the feature space suggested by LMNN[16]

0.4

表 4-9. 半監督式分群演算法，7 組人工資料集之 RI 平均值與 Wilcoxon signed rank test 分析

Number of

piarwise constraints Method Average RI

MI-nn 0.995 Xing 0.608 RCA 0.686 LMNN 0.667

100

MI-nn 0.995 Xing 0.617 RCA 0.694 LMNN 0.671

200

MI-nn 0.995 Xing 0.618 RCA 0.695 LMNN 0.673

Number of

pairwise constraints Method comparison p-Value

MI-nn vs. Xing 0.0156 MI-nn vs. RCA 0.0313 MI-nn vs. LMNN 0.0156

100

MI-nn vs. Xing 0.0156 MI-nn vs. RCA 0.0313 MI-nn vs. LMNN 0.0156

200

MI-nn vs. Xing 0.0156 MI-nn vs. RCA 0.0313 MI-nn vs. LMNN 0.0156

說明：由左至右，上至下分別是：1. Iris, 2. Wine, 3. Glass, 4. Balance, 5. Ionosphere, 6. Breast cancer, 7. WDBC, 8. Soybean, 9. Segmentation, 10. Diabetes

0.4

表 4-10. 半監督式分群演算法，10 組 UCI 資料集之 RI 平均值與 Wilcoxon signed rank test 分析

Number of

pairwise constraints Method Average RI

MI-nn 0.813 Xing 0.779 RCA 0.747 LMNN 0.806

100

MI-nn 0.809 Xing 0.785 RCA 0.782 LMNN 0.816

200

MI-nn 0.81 Xing 0.787 RCA 0.804 LMNN 0.82

Number of

pairwise constraints Method comparison p-Value

MI-nn vs. Xing 0.3984 MI-nn vs. RCA 0.0977 MI-nn vs. LMNN 0.9219

100

MI-nn vs. Xing 0.5781 MI-nn vs. RCA 0.6953 MI-nn vs. LMNN 0.5566

200

MI-nn vs. Xing 0.7344 MI-nn vs. RCA 0.9219 MI-nn vs. LMNN 0.4922

在文檔中以區域性鄰集為基礎之相似度轉換方法應用於分群演算法 (頁 59-65)

第四章 ，實驗與討論

4.3 實驗

4.3.2 半監督式分群演算法比較

第四章，實驗與討論