第二章 文獻探討
第二節 文字探勘
2.2.2 斷詞處理與權重計算
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
性。叢集內資料的屬性越相似越好,而叢集間彼此的差異性則是越 大越好。目前常用的分群方法有k-means、LSH,或是利用模糊理 論(Fuzzy Theory)來進行叢聚探勘的分析(Krishnapuram et al.,2001 ; Rousseeuwet al, 1996)等。
第二節 文字探勘
2.2.1
文字探勘定義有別於傳統資料探勘,文字探勘(Text Mining)所處理的通常為半結構化或者 非結構化等以自然語言撰寫出來的文件;資料探勘(Data Mining)技術則主要針對 於結構化的表格資料,卻難以處理半結構化與非結構化的文件(Feldman, 1995;
Singh, 1997)。文字探勘試圖從文件中找出重要的字詞(Term)或片語(Phase)、字詞 間的關聯強度(Association Degree)、分類或推論規則等(Classification or Prediction Rule)(巫啟台,2002),結合數學、統計、機率、人工智慧、資料檢索及資料庫等 相關知識,用於從大量的資料中萃取出有用的資訊。為了增加結果的有效性與準 確性,文字探勘必須嘗試讓機器瞭解文件的本意,因此要透過字詞處理技術來分 析與表達文件以便做進一步的運用。目前較常被使用的字詞處理技術含斷詞處理、
字詞權重計算、向量空間模型表示等。
2.2.2
斷詞處理與權重計算斷詞處理的目的在於將文件斷成各個有意義字詞(Term)的集合,而中文斷詞 的斷詞過程有別於印歐語系,印歐語系文件在詞與詞間以空白隔開,因此斷詞僅 需以空白相隔即可斷出獨立詞彙(Nie,1996);相較之下,中文文件中詞與詞間並 無明顯區隔可用於斷詞。目前在中文斷詞領域大致有三種方法,分別是:詞庫式 斷詞法 (Chen,1992)、統計式斷詞法 (Fan,1988; Sproat,1990)及混合式斷詞法
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(Nie,1996),說明如下:
1. 詞庫式斷詞法
為目前普遍使用的斷詞方式,其演算法相當直覺且實作容易。然而斷 詞的品質和詞庫的大小有相當的關係,因此必須時常對詞庫的內容加 以維護。有學者將詞庫斷詞法輔以一些詞性的結構,發展出規則式斷 詞法,以提昇斷詞的品質(陳克健,1986)。
2. 統計式斷詞法
統計式斷詞法 (Sproat,1990)乃參考一大型語料庫(Corpus)上的統計資 訊,單純以鄰近字元同時出現頻率高低作為斷詞的依據。由於語料庫 屬於領域相關(Domain dependent),不同語料庫間的統計資訊不適合互 用 (Nie,1996)。再者,統計式斷詞常受限於一階馬可夫模式(First-order Markov models) (Li, 1991),進一步擴充此模式會提高演算法的時間複 雜度 (Nie,1996),因此統計式斷詞法大多只針對兩字詞進行處理,超 過兩字詞以上的詞語就無法有效擷取。
3. 混合式斷詞法
混合式斷詞法整合了詞庫斷詞法及統計斷詞法。(Nie,1996)利用詞庫斷 出不同組合的詞彙,然後以字詞的統計資訊,找出最佳的斷詞組合。
此法仍需要大型的語料庫提供統計資訊。
由於每篇文件中各個字詞的重要程度並不相同,因此在經過斷詞處理後,各 個字詞可透過權重(Weight)來表達其在文件中的重要性。而權重又可分為在文件 中的重要性(Local Weight)(表 2-1)及在整個文件集中的重要性(Global Weight)(表 2-2)。
‧
Within-document frequency(term frequency, tf)
,
Augmented normalized term frequency
0.5 0.5 , ⁄ , 0 0 , 0
資料來源: Popescu(2001)整理
表2-2 常見 Global Weight 計算方式
公式名稱
Globa l Weight 公
式 Inverse document frequency log ⁄Probabilistic inverse log ⁄ Entropy
1
, log ,
log Global frequency IDF ⁄
No global weight 1
資料來源: Popescu(2001)整理
k 為文件 j 中的字詞數, , 為字詞i 於文件 j 中出現的次數, , 為字詞i 在 文件j 出現的頻率(Term Frequency,詞頻)。 為文件 j 中所有字詞詞頻的平均數,
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
為文件j 中出現次數最多的字詞數,N 為整個文件集中的文件總數, 為字詞 i 在文件集中所出現頻率(Document Frequency,文件頻率), 為字詞 i 在整個文 件集中所出現的總次數。
欲表達字詞在一文件中的重要程度,最常用的字詞權重計算方式為 TF-IDF(Term Frequency – Inverse Document Frequency),計算方式為取 local weight 中的詞頻 ( ) 乘上 global weight 中的逆向文件頻率 (Inverse Document frequency),即:
, ∑ , , log ⁄ , ··· (公式 1)
其中 , 為字詞i 在文件 j 中的權重, , 為字詞i 在文件 j 中的詞頻, 為 字詞i 出現在整個文件集的文件數,N 為整個文件集的文件數。TF-IDF 的涵義 為字詞在文件中的重要性是與其在文件中出現的次數成正比,但與其在所有文件 集中出現的文件數成反比,原因在於若字詞出現於其他文件的頻率越高,則對於 能代表本文件的識別力就越低。
為了避免因文件長度差異而影響文件集中各字詞之權重比較,可將TF-IDF 所算出的字詞權重做正規化處理,方法為將權重除以文件向量中所有元素(權重) 平方和再開根號,即文件長度 ,正規化權重如公式2。
, , ··· (公式 2)