• 沒有找到結果。

第二章  文獻探討

第二節  文字探勘

2.2.2  斷詞處理與權重計算

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

性。叢集內資料的屬性越相似越好,而叢集間彼此的差異性則是越 大越好。目前常用的分群方法有k-means、LSH,或是利用模糊理 論(Fuzzy Theory)來進行叢聚探勘的分析(Krishnapuram et al.,2001 ; Rousseeuwet al, 1996)等。

第二節 文字探勘

2.2.1

文字探勘定義

有別於傳統資料探勘,文字探勘(Text Mining)所處理的通常為半結構化或者 非結構化等以自然語言撰寫出來的文件;資料探勘(Data Mining)技術則主要針對 於結構化的表格資料,卻難以處理半結構化與非結構化的文件(Feldman, 1995;

Singh, 1997)。文字探勘試圖從文件中找出重要的字詞(Term)或片語(Phase)、字詞 間的關聯強度(Association Degree)、分類或推論規則等(Classification or Prediction Rule)(巫啟台,2002),結合數學、統計、機率、人工智慧、資料檢索及資料庫等 相關知識,用於從大量的資料中萃取出有用的資訊。為了增加結果的有效性與準 確性,文字探勘必須嘗試讓機器瞭解文件的本意,因此要透過字詞處理技術來分 析與表達文件以便做進一步的運用。目前較常被使用的字詞處理技術含斷詞處理、

字詞權重計算、向量空間模型表示等。

2.2.2

斷詞處理與權重計算

斷詞處理的目的在於將文件斷成各個有意義字詞(Term)的集合,而中文斷詞 的斷詞過程有別於印歐語系,印歐語系文件在詞與詞間以空白隔開,因此斷詞僅 需以空白相隔即可斷出獨立詞彙(Nie,1996);相較之下,中文文件中詞與詞間並 無明顯區隔可用於斷詞。目前在中文斷詞領域大致有三種方法,分別是:詞庫式 斷詞法 (Chen,1992)、統計式斷詞法 (Fan,1988; Sproat,1990)及混合式斷詞法

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(Nie,1996),說明如下:

1. 詞庫式斷詞法

為目前普遍使用的斷詞方式,其演算法相當直覺且實作容易。然而斷 詞的品質和詞庫的大小有相當的關係,因此必須時常對詞庫的內容加 以維護。有學者將詞庫斷詞法輔以一些詞性的結構,發展出規則式斷 詞法,以提昇斷詞的品質(陳克健,1986)。

2. 統計式斷詞法

統計式斷詞法 (Sproat,1990)乃參考一大型語料庫(Corpus)上的統計資 訊,單純以鄰近字元同時出現頻率高低作為斷詞的依據。由於語料庫 屬於領域相關(Domain dependent),不同語料庫間的統計資訊不適合互 用 (Nie,1996)。再者,統計式斷詞常受限於一階馬可夫模式(First-order Markov models) (Li, 1991),進一步擴充此模式會提高演算法的時間複 雜度 (Nie,1996),因此統計式斷詞法大多只針對兩字詞進行處理,超 過兩字詞以上的詞語就無法有效擷取。

3. 混合式斷詞法

混合式斷詞法整合了詞庫斷詞法及統計斷詞法。(Nie,1996)利用詞庫斷 出不同組合的詞彙,然後以字詞的統計資訊,找出最佳的斷詞組合。

此法仍需要大型的語料庫提供統計資訊。

由於每篇文件中各個字詞的重要程度並不相同,因此在經過斷詞處理後,各 個字詞可透過權重(Weight)來表達其在文件中的重要性。而權重又可分為在文件 中的重要性(Local Weight)(表 2-1)及在整個文件集中的重要性(Global Weight)(表 2-2)。

Within-document frequency

(term frequency, tf)

,

Augmented normalized term frequency

0.5 0.5 ,, 0 0 , 0

資料來源: Popescu(2001)整理

表2-2 常見 Global Weight 計算方式

公式名稱

Globa l Weight 公

Inverse document frequency log ⁄

Probabilistic inverse log ⁄ Entropy

1

, log ,

log Global frequency IDF ⁄

No global weight 1

資料來源: Popescu(2001)整理

k 為文件 j 中的字詞數, , 為字詞i 於文件 j 中出現的次數, , 為字詞i 在 文件j 出現的頻率(Term Frequency,詞頻)。 為文件 j 中所有字詞詞頻的平均數,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

為文件j 中出現次數最多的字詞數,N 為整個文件集中的文件總數, 為字詞 i 在文件集中所出現頻率(Document Frequency,文件頻率), 為字詞 i 在整個文 件集中所出現的總次數。

欲表達字詞在一文件中的重要程度,最常用的字詞權重計算方式為 TF-IDF(Term Frequency – Inverse Document Frequency),計算方式為取 local weight 中的詞頻 ( ) 乘上 global weight 中的逆向文件頻率 (Inverse Document frequency),即:

, , , log ⁄ , ··· (公式 1)

其中 , 為字詞i 在文件 j 中的權重, , 為字詞i 在文件 j 中的詞頻, 為 字詞i 出現在整個文件集的文件數,N 為整個文件集的文件數。TF-IDF 的涵義 為字詞在文件中的重要性是與其在文件中出現的次數成正比,但與其在所有文件 集中出現的文件數成反比,原因在於若字詞出現於其他文件的頻率越高,則對於 能代表本文件的識別力就越低。

為了避免因文件長度差異而影響文件集中各字詞之權重比較,可將TF-IDF 所算出的字詞權重做正規化處理,方法為將權重除以文件向量中所有元素(權重) 平方和再開根號,即文件長度 ,正規化權重如公式2。

, , ··· (公式 2)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件