• 沒有找到結果。

第五章 語句斷詞與雙分群演算法

5.2 C O -C LUSTERING 雙分群

5.2 Co-Clustering 雙分群

分群(Clustering),一種將資料根據其相似度分組的過程,透過分群法,我們能 夠在空間中找出資料分佈的疏密,進而理解資料之間的關係,應用範圍廣泛,舉 凡圖形辨識、基因研究、市場調查、城市規劃等等都能應用。而包含的方法有許 多 種 , 主 要 有 Partitioning methods 、 Hierarchy methods 、 Model-based methods、Density-based methods、Grid-based methods 五種類型。Partitioning methods,分割式分群,是需要事先定義分群數的方法,經過不斷的迭代來決定 資料的最佳群,其中最具代表性的就是 K-means 演算法,將資料的平均值視為群 的中心,重複計算各點,找出最接近的群集。Hierarchy methods,分層式分群,

其中又分成兩種,凝聚式(Agglomerative),是一種由下而上(Bottom-Up)的分群 方法,一開始每一筆資料都是一的群體,由下往上慢慢的聚合在一起;分裂式 (Divisive),與凝聚式相反是由上而下(Top-Down)的分群方式,將所有資料視為 一群體,再經由距離判斷進行分割,和 Partitioning methods 不同,不需要考 慮中心位置。Model-based methods,模組導向式分群,將統計模組設定在群集 中,考量資料應歸類於哪個群集,可以同時雜訊(noise)和極端值(outlier)。

Density-based methods,密度導向分群,該分群方法是以資料的密度作為計算 考量,觀察鄰近的資料數目是否超過門檻,去進行合併與否。Grid-based

雙分群,Co-Clustering 又稱 Biclustering,採用同時對行、列的資料進 行分群的方式,因此也被稱為 Two-mode Clustering。一般分群演算法僅針對列

(行)進行分群而忽略了資料與行(列)之間的關係,可能導致一些重要的結果被 遺落,透過雙分群法可以同時考慮列與行,讓研究者能夠從資料中找出潛在的特 徵(latent local patterns)[17],另外,透過此法亦可大量的縮減進行分群的 時間,提升分群的效能。這種分群方式常被有效應用於文字探勘(text mining)、

維陣列分析(microarray analysis)、推薦系統(recommender system)等等。

此 概 念 最 早 是 Hartigan 在 1972 年 所 提 出 的 直 接 分 群 (Direct Clustering),1996 年在 Mirkin 所撰寫的「數學分類與分群」中被介紹[14],

直接分群是種採取 Partitioning 的方式將資料矩陣切割成數個子矩陣的演算 法,經由變異數計算去評估每個雙分群的品質[11],就像是將大方塊進行切割的 方式,因此也有人將雙分群稱為 Block Clustering。到了 2000 年,Y. Cheng 和 G.M Church 提出了應用於生物基因的雙分群演算法[20],生物基因是種複雜的

(Information Theoretic Co-Clustering,ITCC)[16]兩個演算法。二元分割頻譜 圖劃分雙分群,透過 Spectral Co-Clustering 取得資料的奇異值(singular vectors)去縮放文章與字詞的矩陣,得到資料的二元分割(bipartitionings),

每個集合中會包含著兩個子集合,分別代表文章與字詞,且兩者之間有著相互呼 應的關係。資訊理論雙分群,此研究利用遞減函數同時對 row 與 column 的文字 做分群,並依據 mutual information 作為其分群結果的標準,以「原始的 row 與 column 所計算出的 mutual information 數值」扣除「分群後的 row 與 column 之 mutual information 數值」,當差值極小時,代表分群結果優異。實驗結果顯 示,Dhillon 所提出的雙分群理論,能夠十分有效的應用於文字分析上。

本研究使用了三種雙分群演算法,Euclidean Co-Clustering Algorithm、

Information Theoretic Co-Clustering Algorithm 和 Minimum Squared Residue Co-Clustering Algorithm 來對文字矩陣進行分析,以下小節是針對此三種演算 法的介紹。

5.2.1 Information Theoretic Co-Clustering Algorithm 資訊理論是一種對於訊息傳遞的概念描述,探討如何提高傳遞信息的能力和可靠 性,是應用數學、計算機科學的一個分支。美國數學家 Claude Elwood Shannon 於 1948 年出版「通信的數學理論」、1949 年出版「雜訊中的通信」為資訊理論 奠定了基礎,該理論主要被用於找出訊號處理的基本限制。22現今被廣泛應用於

22資料來源:http://wiki.mbalib.com/zh-tw/%E4%BF%A1%E6%81%AF%E8%AE%BA

中。以 mutual information 當作是衡量分群結果的標準,Mutual information 是 用 於 討 論 兩 者 之 間 關 係 的 一 種 計 算 方 法 , 藉 由 最 小 化 分 群 前 的 mutual information 與分群後的 mutual information 之差,「mutual information lost」

作為分群優劣的評斷標準,每多執行一次 iteration,差值就會越小(decreases monotonically),經過多次執行 iteration 便使得雙分群的結果達到最佳。[16]

其演算法進行的步驟如下:1.初始化一個雙分群矩陣,矩陣隨機切割,當作 一開始的分群 2.使用 Kullback-Leibler(KL) divergence 計算 row 的中心,依 據 K-L 距離將 row 分配入新的 row cluster 中,3.使用新的 row cluster 和舊的 column cluster 做 K-L 距離計算 column 的中心,4.依據 K-L 距離,將 column 分配入新的 cluster 中,5.重複步驟 2 至 5,直到收斂。[16]

5.2.2 Minimum Squared Residue Co-Clustering Algorithm 本研究所使用的 Minimum Squared Residue Co-Clustering(MSSRCC)是由 Hyuk Cho 與 Dhillon 所提出的方法,此方法被他們使用來研究生物基因分群[18]以及 人類癌症維陣列分群[19]上。MSSRCC 是基於[20]所提出的 Squared Residue 找 出連續的趨勢值,透過 Cluster 中「每個項目和平均值的差之平方和」和「每個 項目對應的行(列)差之平方和」來進行雙分群的計算。依據[19],在進行分群前 會先對行、列進行標準化(CS/RS),接著計算雙中心以及使用[18]Iterative Algorithm 做正規化,減少目標函數並持續計算直到收斂,解決 NP-hard 問題。

23資料來源:https://zh.wikipedia.org/wiki/%E4%BF%A1%E6%81%AF%E8%AE%BA

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

56