• 沒有找到結果。

第二章 文獻探討

2.2 D OCUMENT C LUSTERING

著高聚類係數(Clustering Coefficient)和資料間的平均距離短的問題,聚類 係數高代表社區結構強且複雜,無法輕易給予明確的定義。他們考量了許多研究 方法,像是 Newman 關於社區結構的研究,以及圖分割的概念,但這些方法應用 於此皆為 NP-hard,最後他們採取了 Dhillon 等人[15]將文件和字詞共同考量的 策略,將用戶與標籤建構成二分圖,與相比在計算上較不耗費時間。

2.2 Document Clustering

文字探勘是一種能從非結構化的文字中找出隱含資訊或知識的研究,透過資料擷 式大不相同,英語系語言是採單字成詞的概念,去除「Stop Word」後可以輕鬆 擷取單字,並且進行像是歧義詞之類的處理,但中文的字詞卻有可能是數個單

https://zh.wikipedia.org/wiki/%E6%96%87%E5%AD%97%E6%8E%A2%E5%8B%98

章分群的研究,其中網誌的分群模組是透過向量空間模組(vector space model)

計算文章之間的相似度,接著採取階層式分群法,在該研究上,前處理的部分便

硬式分群指的是在結果上每一篇文件只會被分到一個群集中,如 K-means 分群法;而軟式分群則是可能將一篇文件同時分到一個以上的群集中,如 fuzzy clustering。而依據資料的部分可分成靜態與動態兩種類型,靜態分群是在分群 前必須搜集到所有資料,倘若新增資料便要重新分群;而動態分群則是能夠動態 調整新進文件內容。而結果呈現部分,扁平分群是依據維度以二維或三維呈現的 方式;階層分群則是以樹或階層方式來呈現。

硬式分群(Hard Clustering)

軟式分群(Soft Clustering)

是否需要完整資料集

靜態分群(Static Clustering)

動態分群(Dynamic Clustering)

分群結果呈現

扁平分群(Flat Clustering)

階層分群(Hierarchical Clustering)

文件分群的運用十分廣泛,如[9]是將文件分群運用於搜尋引擎相關的研 究,其研究表示,搜尋引擎通常不會對搜尋結果進行過濾篩選,而資訊爆炸的時 代要如何將使用者所要的資料精確的找出,便是一個能夠使用到文件分群的議 題,該研究提出以關鍵字分群的方式來進行處理,其選用的方法是特徵選擇與特 徵關係之建立以及最後的特徵分群,透過建立特徵語意網路圖的方式,將關係度 較高的文字連結,計算相似度向量後以 Bisecting K-means 演算法進行文件分 群。K-means 是一種常見於分群研究的方法,[9]所採用的 Bisecting K-means 是 [41]所提出的一個基於 K-means 方法的研究,研究中探討階層式分群與 K-means 的利弊,階層式分群法以往被認為優於 K-means 演算法,原因在於階層式分群對 於資料分群的能力較佳,但比起 K-means 演算法,階層式的分群法效率較差。因 此 在 該 研 究 嘗 試 了 一 種 綜 合 以 上 兩 者 優 點 的 分 群 法 , 也 就 是 Bisecting K-means,其研究在基本的 K-means 方法裡加入了相似度的計算,以群的內聚率

(Cluster Compactness)與分離度(Cluster Separation)來作為分群準則,

概念類似於本研究的凝聚率與鑑別率,[41]最後證實了 K-means 對於文件分群有 著比階層分群更加的效果,另外亦證實兩者合併的方式結果更佳。

[36]之 Single Pass Clustering 便是一種非階層式的分群法,另外在[44]中亦 針對 Single Pass 演算法與 K-means 演算法進行了比較,研究中指出 Single Pass Clustering 是在 Topic detection and tracking(TDT)研究中使用最多的演算 法,優點在於運算速度極快且原理簡單,不過在文本輸入時,一旦順序發生變化,

此在研究中提出了自行開發的中文斷詞系統(Chinese Corpus Segmentation), 配合國家圖書館主題標目來進行文件分群的前處理,其研究結果證實使用專業詞

WordNet 最初是由 George Miller 所提出的自動化辭典概念,其搜集的字詞 皆為常見的英文單字,可針對一個概念用各種同義詞來描述。11透過這個方式,

再回到文件分群中的分群內容,除以上提及之分群法外,co-clustering 、 fuzzy clustering、clustering based on matrix factorization concept(NMF)、

model-based clustering、spectral clustering 等方法亦是近年文件分群受到 注目的方法[46],在[46]中表示這些眾多的方法裡又以雙分群(co-clustering)

能 夠 針 對 文 件 與 字 詞 進 行 分 群 , 有 效 率 處 理 高 維 度 矩 陣 最 為 有 效 。 fuzzy clustering 模糊分群,又稱為軟分群,其概念與 K-means 十分相似,但在 K-means 這類硬分群上,兩個群之間的關聯度呈現會是 1 或 0,而模糊分群中關聯度則可 能是 0 到 1 之間的所有數值[48]。在[46]的文獻中提及,fuzzy co-clustering 方法比起 fuzzy-c means 表現來的更佳,且時間複雜度也比 Non-negative matrix

11 資料來源:https://zh.wikipedia.org/wiki/WordNet

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

18

factorization(NMF)來的低。因此該研究提出了一種結合模糊分群、雙分群與 半 監 督 分 群 的 方 法 , semi-supervised fuzzy co-clustering algorithm

(SS-HFCR),建造一個文件域(document domain)來約束文件「必須」或「不 能」分在同一類別中,透過用戶或其他資源來判斷文件的相似與不相似。

上述文獻提及了眾多的分群方法,階層式分析時間複雜度較高,而 Single Pass 則會有順序問題產生,K-means 是與之相比看似較佳的選擇,但考量文件分 群與社交媒體的特性,最後本研究選擇雙分群法來進行嘗試,而在 6.3.4 將會針 對 K-means 與 Minimum Squared Residue Co-Clustering 進行實驗比較。