第二章 文獻探討
第二節 探勘技術
2.2. 文字探勘
3. 分群分析(Clustering Analysis)
透過觀察將大量資料分割、分群,使群集內資料的相似度提高,而群集間的 相似度降低,分群以統計的基礎對資料做分析,由於分群時目標值並不存在,屬 於非監督式學習。Han & Kamber(2006)將分群法分成五大類:分隔式分群
(Partitioned)、階層式分群(Hierarchical)、密度基礎分群(Density-based)、網 等關聯,期待能從中尋找文件趨勢,甚至進一步進行預測(Han & Kamber, 2001)。
袁立安(2007)將文字探勘分成三個步驟:文件準備、文件處理與文件分析‧
‧
代表性的詞彙,找出特徵值(Liu & Motoda, 1998)。常見的特徵值的選擇方式包 括:文件頻率(Document Frequency)挑選出現於文件數量較高的字詞,將其當 效較佳(Yang & Pedersen, 1997;Aas & Eikvil, 1999)。‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
10
3. 權重值計算
縱然文件準備後能得到斷詞結果,卻難以評斷哪些字詞具有文件代表性,而 權重值計算則是為了此目的產生。根據 Popescu(2001)研究整理,權重值可由 三個部分組成,包括區域權重(𝐿𝑖𝑗)、全域權重(𝐺𝑖)及文件之正規化因子(𝑁𝑗), 區域權重以字詞於「特定文件」中出現的頻率為基礎,而全域權重則以字詞於「所 有文件」中出現的頻率為基礎,正規化因子則是為了讓不同字詞的權重得以比較 而產生。
舉例來說,Jing 等學者(2002)研究中權重值之區域函數為字詞於一篇文章 中出現的次數,全域函數為字詞於所有文章出現次數之倒數值,並給予對數以做 調整,最後則採用餘弦正規化。此方法即為 TFIDF(Term Frequency–Inverse Document Frequency),也是常被使用的權重計算方式之一。
2.2.2. 文件處理
1. 向量空間模型
向量空間模型是目前資訊檢索中效果較好的方式(Salton, 1988),也是目前 最廣泛使用的資訊檢索模型(戴尚學,2003)。每篇文件以一組向量表示,維度 代表的是關鍵字詞,而維度的數值則代表該字詞的權重,如圖 2.2.2 所示。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
11
圖 2.2.2 向量空間模型 資料來源:Salton et al., 1975
此外,為了使文件間能互相比較,使用向量空間模型時必頇轉化為單位向量,
以避免文件長短不一所造成的誤差。當文件數量增加時,可利用「詞彙─文件矩 陣」表達詞彙與文件間的關係。以圖 2.2.3 為例,文件集選出 i 個特徵字,而每 一列則代表一篇文章中各個特徵字的權重值。
圖 2.2.3 詞彙─文件矩陣 資料來源:Salton & Gill, 1983
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
12
2. 相似度計算
將文件以向量空間模型表達後,可藉由相似度計算實現分群或分類技術。常 用的相似度計算方式有 Jaccard 係數及 Cosine 係數(Salton, 1988),前者計算文 件字詞出現於交集之機率意即|𝑥|∪|𝑦||𝑥∩𝑦|,而後者則計算兩向量間之餘弦值。
3. 分類、分群技術
(1) 貝氏分類器
此分類器以貝氏定理為基礎,且假設屬性間彼此獨立下,以事前機率計算事 後機率,再判斷資料屬於哪個類別(黃孝文,2010;章秉純、許清琦,2001)。
透過大量的學習,能有效處理欲分類的資料。
(2) kNN分類器
此演算法搜尋與新文件最相似的 k 份文件,並比較兩者之相似度,選擇各分 類中相似度最高的類別,因此演算過程中,最重要的即為 k 值大小之決定。一般 採用 M-way kNN,演算步驟如下(戴尚學,2003):
Step1、將文件以向量空間模型表示。
Step2、取出前 k 份與新文件相似度最高之文件,此 k 份文件之類別則為候選類 別。
Step3、將文件與新文件之相似度以類別為基礎做加總,分數最高之類別則為新 文件之所屬類別。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
13
(3) 支援向量機
支援向量機(Support Vector Machines, SVM)由 Vapnik 於 1979 年提出,分 類方式是在多維度空間中,以超帄面(Hyperplane)對資料作分割,使分類邊界 最大(章秉純、許清琦,2001)。
(4) K-means分群
此演算法由 J. B. MacQueen 於 1967 年所提出,分群之前頇先設定群集數量 k,以質心的概念對群集做迭代,直到質心趨於穩定,群集收斂為止(A Tutorial on Clustering Algorithms, 2011)。K-means 雖然能得到較佳的分群結果,質心的概念 卻容易受到資料的離散程度影響,分析者在事前未必能正確決定群集數量,若資 料量龐大將造成整體效率降低。圖 2.2.4 為群集及群集質心之示意圖。
圖 2.2.4 分群與群集質心示意圖 資料來源:Salton et al., 1975
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
14
K-means 分群步驟(A Tutorial on Clustering Algorithms, 2011)如下:
Step1、隨機選取 k 個資料當作質心。
Step2、將資料與此 k 個質心計算相似度,選擇較近的分為同一群,最後再計算 k 群資料所產生的新質心。
Step3、若質心產生變動,意即尚未收斂,則重複 Step2,直到質心收斂為止。
2.2.3. 文件分析
通常,文字處理後需透過客觀的方法評估其效用,根據 Sebastiani(2002)的整 理,評估方法較常使用的有 Accuracy、Precision、Recall,以及 F-measure 等,其 中,Accuracy 評估預測結果中分類預測結果的機率;Precision 評估預測結果正確 中分類預測結果亦為正確的機率;Recall 評估預測結果與分類預測結果相同中,
預測結果正確之機率;F-measure 綜合 Precision 及 Recall 之評估方式而成。此四 種為資訊擷取領域中常用之評估指標(Sebastiani, 2002)。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
15