第二章 ,相關方法與文獻
2.2 半監督式分群演算法(semi-supervised clustering)
分群演算法是在未知資料分群型態的情況下進行,只能依據特定的假設將資 料分成多個子分群。在真實世界的應用上,若是能透過領域專家(domain expert) 的幫助從中獲得少數資訊,將這些資訊與非監督式演算法結合,可以大幅提升分 群演算法的準確性。這樣的合併方式稱為半監督式分群法。
專家所提供的資訊可以分為二類:配對限制(pairwise constraints)和少數已被 標記過的資料,兩者的獲取成本通常是高且困難的。配對限制可以用來說明成對 資料之間的關係,主要可以再分為二類:MUST-link 和 CANNOT-link:
1. MUST-link:若某兩筆資料 x、y 的關係可使用 MUST-link 描述,則 x 和 y 屬於相同分群。
2. CANNOT-link:若某兩筆資料 x、y 的關係可使用 CANNOT-link 描述,則 x 和 y 必定分布在不同分群。
MUST-link 擁 有 遞 移 性 (transitive) , 我 們 可 以 藉 著 建 構 遞 移 包 (transitive closure)產生更多的 MUST-link。例如:x 和 y 形成 MUST-link 且 y 和 z 形成 MUST-link,根據遞移性,x 和 z 必定形成 MUST-link;雖然 CANNOT-link 並不
10
具備遞移性,例如:x 和 y、y 和 z 的關係皆是 CANNOT-link,並不保證 x 和 z 的關係是 CANNOT-link。我們仍可以利用特殊方法建構出更多的 CANNOT-link。
假設 M、N 分別是兩個獨立的 MUST-link 連通單元(connected component),若是 在 M、N 之間存在一個 CANNOT-link,那麼由 M、N 所形成的任意配對關係都 會具備 CANNOT-link 性質。將配對限制應用至分群演算法,多數學者都會遵循 上方提出的特性延展配對限制的數量。
如何將配對限制整合至分群演算法中,主要可以分為二類:search-based 和 similarity-based[2]。
2.2.1 Search-based
Search-based 方法修改屬於非監督式的分群演算法,使分群演算法在最佳化 目標函數的過程中,利用配對限制將分群引導至更接近真實的分群結果。修改分 群演算法的方式主要有下列三種方式:
1. 利用配對限制建立初始分群[7]。
2. 分群的過程不可違反配對限制,亦即將資料被分配至任何一個分群,都必須 盡量滿足所有配對限制[8]。
3. 更改衡量分群結果的目標函數,使得在尋找最佳化目標函式數值的分群過程 中,同時能最小化違反配對限制的資料數量[9, 10]。
2002 年 Basu 等的研究中[7] 修改 K-means 演算法抽取初始中心的方法。
K-means 演算法是隨機抽出初始中心,由 Basu 等提出的方法則是將少數已標記 過的資料作為種子集(seed set),對種子集進行分群產生種子分群(seed clustering),
從中挑選出更合適的初始中心位置。完成挑選初始中心後,剩餘的資料則是依據 K-means 演算法分配分群的方式完成分群,其中,種子集中的資料其分群情況在 完成分群後不再更動。建立種子分群可以引導分群結果至更接近少數已標記過資 料的分布情形,同時能降低分群結果陷入區域最佳解的機率。
2001 年 Wagstaff 等[8] 提出 constrains K-means 方法,它整合配對限制至原
11
始的 K-means 演算法中,藉由修改分群分配的方法,直接影響分群的過程與結 果。當資料被分類至任何一個分群時,都不可違背配對限制。分群結果和配對限 制有極大的相關,提供的配對限制越多,準確性越高。然而,當使用者提供的配 對限制中存在錯誤,容易引導演算法至錯誤的結果,與其他方法相比彈性較低、
更加依賴配對限制。
1999 年 Demiriz 等的研究中[9] 結合非監督式和監督式演算法。他們使用非 監督式分群演算法來最佳化一種用來評估監督式演算法準確率的分數,提出一組 全新的目標函式:min β × Cluster_dispersion + α × Cluster_impurity。當 α 為 零,產生的結果相當於非監督式演算法;當β 為零,產生的結果相當於監督式演 算法。Cluster dispersion 通常使用 DBI (Davis-Bouldin index)或 MSE (mean square error),採用 MSE 則和 K-means 演算法的目標函數相同,而 Cluster impurity 則是 使用 Gini index。Demiriz 等提出的方法使用非監督式分群法建構分群,藉此計算 cluster dispersion;使用已標記過的資料做為訓練集建立分類器,以未標記過的資 料做為測試集,藉此計算 cluster impurity,終極目的都是最佳化目標函式。
2004 年 Basu 等的研究中[10] 將違反配對限制的代價函式合併至目標函式之 中 , 定 義 代 價 函 式 為 :w 𝕀�ℓi≠ ℓj� + w� 𝕀�ℓi= ℓj� , 其 中 w 和 w� 分 別 是 違 反 MUST-link 和 CANNOT-link 的權重。違反配對限制會獲得一定代價,造成目標 函數值增加,因此,在最佳化目標函式尋找分群最佳解的過程中,同時能最小化 違反配對限制的資料數量,達到與 Cop K-means[8]相同的目標。
2.2.2 Similarity-based
Similarity-based 方法通常搭配一個以相似度函式為基礎的分群演算法,相似 度函式會被重新訓練,使其盡可能不違反配對限制。在訓練的過程中,屬於 MUST-link 的成對資料將被重新描述得更加相似,使這組成對資料越有可能被分 類至同個分群;相反的,屬於 CANNOT-link 的成對資料會被描述得更加相異,
越有可能被歸類至不同分群。重新訓練相似度函式之目的是盡可能滿足數量較為
12
稀 少 的 配 對 限 制 , 然 而 多 數 資 料 的 分 群 仍 然 是 未 知 的 , 若 是 進 一 步 將 similarity-based 方法與 search-based 方法結合,成為一種二階段模型,更能增進 分群的準確性[11, 12, 13, 14, 15,16]。
2002 年 Xing 等的研究中[11] 將如何學習合適的相似度矩陣視為一種凸性最 佳 化 問 題 (convex optimization problem) 。 他 們 透 過 半 正 定 規 劃 (semidefinite programming)學習馬式距離的共變數矩陣,目標是最小化已標記資料中屬於相同 分群的資料與其中心的距離總和,使得經過相似度轉換後的新屬性能夠遵循配對 限制,改善整體的分群準確率。使用新的共變數矩陣作距離轉換後,額外與 Cop K-means[8]結合,實驗結果說明能增進分群的準確性。
2003 Bar-Hillel 等的研究中[12] 使用 RCA(relevant component analysis)建構 出馬式距離的共變數矩陣。RCA 能重新描述資料的特徵空間,利用已標記過的 資料來估量各個維度的重要性。透過線性轉換將較重要的維度給予更高的權重,
較不重要的維度給予更低的權重。RCA 類似 PCA(principal component analysis) 和 LDA(linear discriminant analysis),目標是尋找合適的投影方向,將一群已分類 的資料投影至更低維度空間,使得相同分群的資料更為集中,而不同分群的資料 更為遠離。RCA 已被證明可以用來最佳化分群與其中心的距離總和。
2003 年 Basu 等[13] 提出一種將 similarity-based 和 search-based 兩種方法合 併的演算法,預期能同時享有此二種方法的優點。合併的方式如下:1. 使用 2002 年 Basu 等[8] 提出的方法,透過已標記過的資料建構出初始的分群;2. 採用 2002 年 Xing 等[11] 提出的方法,修改馬式距離的共變數矩陣,重新描述相似度;3. 使 用 由 2004 年 Basu 等 [10] 提 出 的 方 法 , 整 合 代 價 函 式 至 目 標 函 數 中 。 Similarity-based 往往需要充足的配對限制或已被標記過的資料才能有更接近真 實的分群結果,與 search-based 方法合併能夠大幅提升分群的準確率。
2004 年 Basu 等[14] 提出一種基於隱藏式馬可夫隨機領域(hidden Markov random field)的機率模型之半監督式分群法,將配對限制與 K-means 演算法結合,
13
同時允許多樣的相似度函式,例如:餘弦相似度(cosine similarity)和 KL 距離 (Kullback-Leibler Divergence)。藉由修改 K-means 的目標函式,定義一組違反配 對限制的代價函式與目標函式結合,進而影響分群的過程和結果。
2002 年 Klein 等[15] 提出傳播限制(propagation constraints)的概念。傳播限 制主要的意涵在於:若是存在兩點 x、y 相似,任何一點 z 與 x 相似,同時會與 y 相似;若是存在兩點 x、y 不相似,任何一點 z 與 x 相似,則 z 與 y 不相似。 觀 察配對限制所包含的資料,將關係屬於 MUST-link 的兩個資料其相似度設為最 低,通常以 0 表示,恣意修改相似關係將無法滿足賦距空間(metric space)中的三 角不等式,因此改以最短路徑重新計算相似度。Klein 等[15] 說明以最短路徑表 示仍然可以擁有賦距空間的特性;將關係屬於 CANNOT-link 的兩個資料其相似 度設為最高,通常以資料集中的最大值加 1 表示,與 MUST-link 不同,改以一 種用來描述資料關係的計量分數,例如 complete-link,重新描述修改後的相似關 係。上述的方式能夠依照增殖配對限制的目標重新描述資料彼此的相似關係,實 驗 指 出 , 採 用 修 改 後 的 相 似 關 係 , 能 夠 顯 著 的 增 進 完 整 連 結 聚 合 演 算 法 (complete-linkage agglomerative algorithm)的準確性。
2006 年 Weinberger 等提出一種稱為 LMNN 的方法[16],藉由觀察少數已被 標記的資料中任一筆資料的 K 最近鄰,使用類似 SVM(support vector machine)的 做法,重新訓練相似度函式,目標是讓任何一筆資料的 K 最近鄰擁有相同分群,
而不同的分群資料彼此會有較大的區隔。K 最近鄰的效能與採用的相似度函式有 強烈的相依性,根據已被標記的資料重新學習的相似度函式能夠明顯改善分群準 確率。Weinberger 等[16]提出的方法,其原始目標是應用於分類(classification)領 域,輸入的監督資訊是資料類別(class)而非配對限制,資料類別所提供的資訊強 度明顯高於配對限制。與 Xing 等[11]、Bar-Hillel 等[12]和 Basu 等[13]提出的方 法最大的差異在於最佳化的目標並非是少數已被標記過的資料彼此的相似度,而 是彼此的鄰居關係。
14