D OCUMENT C LUSTERING

第二章文獻探討

2.2 D OCUMENT C LUSTERING

著高聚類係數（Clustering Coefficient）和資料間的平均距離短的問題，聚類係數高代表社區結構強且複雜，無法輕易給予明確的定義。他們考量了許多研究方法，像是 Newman 關於社區結構的研究，以及圖分割的概念，但這些方法應用於此皆為 NP-hard，最後他們採取了 Dhillon 等人[15]將文件和字詞共同考量的策略，將用戶與標籤建構成二分圖，與相比在計算上較不耗費時間。

2.2 Document Clustering

文字探勘是一種能從非結構化的文字中找出隱含資訊或知識的研究，透過資料擷式大不相同，英語系語言是採單字成詞的概念，去除「Stop Word」後可以輕鬆擷取單字，並且進行像是歧義詞之類的處理，但中文的字詞卻有可能是數個單

https://zh.wikipedia.org/wiki/%E6%96%87%E5%AD%97%E6%8E%A2%E5%8B%98

‧

章分群的研究，其中網誌的分群模組是透過向量空間模組（vector space model）

計算文章之間的相似度，接著採取階層式分群法，在該研究上，前處理的部分便

硬式分群指的是在結果上每一篇文件只會被分到一個群集中，如 K-means 分群法；而軟式分群則是可能將一篇文件同時分到一個以上的群集中，如 fuzzy clustering。而依據資料的部分可分成靜態與動態兩種類型，靜態分群是在分群前必須搜集到所有資料，倘若新增資料便要重新分群；而動態分群則是能夠動態調整新進文件內容。而結果呈現部分，扁平分群是依據維度以二維或三維呈現的方式；階層分群則是以樹或階層方式來呈現。

‧

硬式分群（Hard Clustering）

軟式分群（Soft Clustering）

是否需要完整資料集

靜態分群（Static Clustering）

動態分群（Dynamic Clustering）

分群結果呈現

扁平分群（Flat Clustering）

階層分群（Hierarchical Clustering）

文件分群的運用十分廣泛，如[9]是將文件分群運用於搜尋引擎相關的研究，其研究表示，搜尋引擎通常不會對搜尋結果進行過濾篩選，而資訊爆炸的時代要如何將使用者所要的資料精確的找出，便是一個能夠使用到文件分群的議題，該研究提出以關鍵字分群的方式來進行處理，其選用的方法是特徵選擇與特徵關係之建立以及最後的特徵分群，透過建立特徵語意網路圖的方式，將關係度較高的文字連結，計算相似度向量後以 Bisecting K-means 演算法進行文件分群。K-means 是一種常見於分群研究的方法，[9]所採用的 Bisecting K-means 是 [41]所提出的一個基於 K-means 方法的研究，研究中探討階層式分群與 K-means 的利弊，階層式分群法以往被認為優於 K-means 演算法，原因在於階層式分群對於資料分群的能力較佳，但比起 K-means 演算法，階層式的分群法效率較差。因此在該研究嘗試了一種綜合以上兩者優點的分群法，也就是 Bisecting K-means，其研究在基本的 K-means 方法裡加入了相似度的計算，以群的內聚率

（Cluster Compactness）與分離度（Cluster Separation）來作為分群準則，

概念類似於本研究的凝聚率與鑑別率，[41]最後證實了 K-means 對於文件分群有著比階層分群更加的效果，另外亦證實兩者合併的方式結果更佳。

‧

[36]之 Single Pass Clustering 便是一種非階層式的分群法，另外在[44]中亦針對 Single Pass 演算法與 K-means 演算法進行了比較，研究中指出 Single Pass Clustering 是在 Topic detection and tracking（TDT）研究中使用最多的演算法，優點在於運算速度極快且原理簡單，不過在文本輸入時，一旦順序發生變化，

‧

此在研究中提出了自行開發的中文斷詞系統（Chinese Corpus Segmentation），配合國家圖書館主題標目來進行文件分群的前處理，其研究結果證實使用專業詞

WordNet 最初是由 George Miller 所提出的自動化辭典概念，其搜集的字詞皆為常見的英文單字，可針對一個概念用各種同義詞來描述。¹¹透過這個方式，

再回到文件分群中的分群內容，除以上提及之分群法外，co-clustering 、 fuzzy clustering、clustering based on matrix factorization concept(NMF)、

model-based clustering、spectral clustering 等方法亦是近年文件分群受到注目的方法[46]，在[46]中表示這些眾多的方法裡又以雙分群（co-clustering）

能夠針對文件與字詞進行分群，有效率處理高維度矩陣最為有效。 fuzzy clustering 模糊分群，又稱為軟分群，其概念與 K-means 十分相似，但在 K-means 這類硬分群上，兩個群之間的關聯度呈現會是 1 或 0，而模糊分群中關聯度則可能是 0 到 1 之間的所有數值[48]。在[46]的文獻中提及，fuzzy co-clustering 方法比起 fuzzy-c means 表現來的更佳，且時間複雜度也比 Non-negative matrix

11 資料來源：https://zh.wikipedia.org/wiki/WordNet

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

factorization（NMF）來的低。因此該研究提出了一種結合模糊分群、雙分群與半監督分群的方法， semi-supervised fuzzy co-clustering algorithm

（SS-HFCR），建造一個文件域（document domain）來約束文件「必須」或「不能」分在同一類別中，透過用戶或其他資源來判斷文件的相似與不相似。

上述文獻提及了眾多的分群方法，階層式分析時間複雜度較高，而 Single Pass 則會有順序問題產生，K-means 是與之相比看似較佳的選擇，但考量文件分群與社交媒體的特性，最後本研究選擇雙分群法來進行嘗試，而在 6.3.4 將會針對 K-means 與 Minimum Squared Residue Co-Clustering 進行實驗比較。

在文檔中結合中文斷詞系統與雙分群演算法於音樂相關臉書粉絲團之分析：以KKBOX為例 - 政大學術集成 (頁 24-29)

第二章 文獻探討

2.2 D OCUMENT C LUSTERING

‧

‧

‧

‧

‧ 國

立 政 治 大 學

‧

第二章文獻探討

立政治大學