C O -C LUSTERING 雙分群

第五章語句斷詞與雙分群演算法

5.2 C O -C LUSTERING 雙分群

5.2 Co-Clustering 雙分群

分群(Clustering)，一種將資料根據其相似度分組的過程，透過分群法，我們能夠在空間中找出資料分佈的疏密，進而理解資料之間的關係，應用範圍廣泛，舉凡圖形辨識、基因研究、市場調查、城市規劃等等都能應用。而包含的方法有許多種，主要有 Partitioning methods 、 Hierarchy methods 、 Model-based methods、Density-based methods、Grid-based methods 五種類型。Partitioning methods，分割式分群，是需要事先定義分群數的方法，經過不斷的迭代來決定資料的最佳群，其中最具代表性的就是 K-means 演算法，將資料的平均值視為群的中心，重複計算各點，找出最接近的群集。Hierarchy methods，分層式分群，

其中又分成兩種，凝聚式(Agglomerative)，是一種由下而上(Bottom-Up)的分群方法，一開始每一筆資料都是一的群體，由下往上慢慢的聚合在一起；分裂式 (Divisive)，與凝聚式相反是由上而下(Top-Down)的分群方式，將所有資料視為一群體，再經由距離判斷進行分割，和 Partitioning methods 不同，不需要考慮中心位置。Model-based methods，模組導向式分群，將統計模組設定在群集中，考量資料應歸類於哪個群集，可以同時雜訊(noise)和極端值(outlier)。

Density-based methods，密度導向分群，該分群方法是以資料的密度作為計算考量，觀察鄰近的資料數目是否超過門檻，去進行合併與否。Grid-based

‧

雙分群，Co-Clustering 又稱 Biclustering，採用同時對行、列的資料進行分群的方式，因此也被稱為 Two-mode Clustering。一般分群演算法僅針對列

（行）進行分群而忽略了資料與行(列)之間的關係，可能導致一些重要的結果被遺落，透過雙分群法可以同時考慮列與行，讓研究者能夠從資料中找出潛在的特徵(latent local patterns)[17]，另外，透過此法亦可大量的縮減進行分群的時間，提升分群的效能。這種分群方式常被有效應用於文字探勘(text mining)、

維陣列分析(microarray analysis)、推薦系統(recommender system)等等。

此概念最早是 Hartigan 在 1972 年所提出的直接分群 (Direct Clustering)，1996 年在 Mirkin 所撰寫的「數學分類與分群」中被介紹[14]，

直接分群是種採取 Partitioning 的方式將資料矩陣切割成數個子矩陣的演算法，經由變異數計算去評估每個雙分群的品質[11]，就像是將大方塊進行切割的方式，因此也有人將雙分群稱為 Block Clustering。到了 2000 年，Y. Cheng 和 G.M Church 提出了應用於生物基因的雙分群演算法[20]，生物基因是種複雜的

‧

(Information Theoretic Co-Clustering,ITCC)[16]兩個演算法。二元分割頻譜圖劃分雙分群，透過 Spectral Co-Clustering 取得資料的奇異值(singular vectors)去縮放文章與字詞的矩陣，得到資料的二元分割(bipartitionings)，

每個集合中會包含著兩個子集合，分別代表文章與字詞，且兩者之間有著相互呼應的關係。資訊理論雙分群，此研究利用遞減函數同時對 row 與 column 的文字做分群，並依據 mutual information 作為其分群結果的標準，以「原始的 row 與 column 所計算出的 mutual information 數值」扣除「分群後的 row 與 column 之 mutual information 數值」，當差值極小時，代表分群結果優異。實驗結果顯示，Dhillon 所提出的雙分群理論，能夠十分有效的應用於文字分析上。

本研究使用了三種雙分群演算法，Euclidean Co-Clustering Algorithm、

Information Theoretic Co-Clustering Algorithm 和 Minimum Squared Residue Co-Clustering Algorithm 來對文字矩陣進行分析，以下小節是針對此三種演算法的介紹。

5.2.1 Information Theoretic Co-Clustering Algorithm 資訊理論是一種對於訊息傳遞的概念描述，探討如何提高傳遞信息的能力和可靠性，是應用數學、計算機科學的一個分支。美國數學家 Claude Elwood Shannon 於 1948 年出版「通信的數學理論」、1949 年出版「雜訊中的通信」為資訊理論奠定了基礎，該理論主要被用於找出訊號處理的基本限制。²²現今被廣泛應用於

22資料來源：http://wiki.mbalib.com/zh-tw/%E4%BF%A1%E6%81%AF%E8%AE%BA

‧

中。以 mutual information 當作是衡量分群結果的標準，Mutual information 是用於討論兩者之間關係的一種計算方法，藉由最小化分群前的 mutual information 與分群後的 mutual information 之差，「mutual information lost」

作為分群優劣的評斷標準，每多執行一次 iteration，差值就會越小(decreases monotonically)，經過多次執行 iteration 便使得雙分群的結果達到最佳。[16]

其演算法進行的步驟如下：1.初始化一個雙分群矩陣，矩陣隨機切割，當作一開始的分群 2.使用 Kullback-Leibler(KL) divergence 計算 row 的中心，依據 K-L 距離將 row 分配入新的 row cluster 中，3.使用新的 row cluster 和舊的 column cluster 做 K-L 距離計算 column 的中心，4.依據 K-L 距離，將 column 分配入新的 cluster 中，5.重複步驟 2 至 5，直到收斂。[16]

5.2.2 Minimum Squared Residue Co-Clustering Algorithm 本研究所使用的 Minimum Squared Residue Co-Clustering（MSSRCC）是由 Hyuk Cho 與 Dhillon 所提出的方法，此方法被他們使用來研究生物基因分群[18]以及人類癌症維陣列分群[19]上。MSSRCC 是基於[20]所提出的 Squared Residue 找出連續的趨勢值，透過 Cluster 中「每個項目和平均值的差之平方和」和「每個項目對應的行(列)差之平方和」來進行雙分群的計算。依據[19]，在進行分群前會先對行、列進行標準化(CS/RS)，接著計算雙中心以及使用[18]Iterative Algorithm 做正規化，減少目標函數並持續計算直到收斂，解決 NP-hard 問題。

23資料來源：https://zh.wikipedia.org/wiki/%E4%BF%A1%E6%81%AF%E8%AE%BA

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

在文檔中結合中文斷詞系統與雙分群演算法於音樂相關臉書粉絲團之分析：以KKBOX為例 - 政大學術集成 (頁 63-67)

第五章 語句斷詞與雙分群演算法

5.2 C O -C LUSTERING 雙分群

‧

‧

‧

‧ 國

立 政 治 大 學

‧

第五章語句斷詞與雙分群演算法

立政治大學