• 沒有找到結果。

第二章、 文獻探討

第二節、 文字探勘

2.2.3. 文字探勘的相關技術

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.2.3. 文字探勘的相關技術

(一) 文章斷詞

對於任何語言來說,詞(Word)是最小有意義且可以自由使用的語言單位,所 以任何語言處理的系統都必須先能分辨文本中的詞才能作進一步的處理,例如:

機器翻譯、語言分析、資訊抽取等,因此自動斷詞處理便成了語言處理中不可或 缺的技術。

而由於各種語言系統在結構及文法上的規則不盡相同,使得中、英文斷詞在 本質與技術上存在非常大的差異。在英文的斷詞方面,是以字為單位,字與字之 間以空格或是其他符號作區隔,故每個字即可以代表所含的意義及語意;但中文 若以字為斷詞單位,則無法清楚得知所含的語意,故在中文文字上通常是以兩個 字以上所組成的詞為單位,才具有明顯語意。也因為中文的詞與詞之間沒有一定 的界線,相較於英文斷詞而言顯得複雜許多。

1. 常見的中文斷詞法

常見的中文斷詞法可分為詞庫斷詞法(Chen & Liu, 1992)、統計斷詞法(Sproat

& Shih, 1990)及混和斷詞法(Nie, Brisebois, & Ren, 1996),下列為各斷詞法的介 紹:

(1) 詞庫斷詞法:

詞庫斷詞法是現今使用最廣泛的斷詞方式。需事先建立一個詞庫,再將文件 中所出現的詞彙與詞庫中的詞彚互相比對,以找出有可能的分隔點。在比對的過 程中通常使用「長詞優先法」來保留最完整的語意。此法具有直覺、易懂的優點,

但若是新生詞不存在詞庫中或是無法掌握合適的詞庫大小時,則會降低斷詞的正 確率,因此在詞庫的控制與維護上成為斷詞是否正確的關鍵。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(2) 統計斷詞法:

統計斷詞法需先經由大量文件或大型語言資料庫(Corpus)的訓練,取得足夠 的統計參數(詞頻、門檻值)以作為斷詞的依據。由於不需人工定義詞彚,所以可 解決複合詞、新生詞的問題,也省去了維護詞庫的負擔。但經由統計運算並無法 考慮語意的正確性,因此在整個文句的表達上容易具有錯誤的可能性。且因為語 言資料庫所屬的領域有所不同,故各領域的語言資料庫之間的統計參數也無法互 相流通使用。

(3) 混和斷詞法:

混合斷詞法結合了詞庫斷詞法與統計斷詞法,先利用詞庫斷詞法找出許多不 同組合的詞彙,再利用詞彙的統計參數來找出最佳的斷詞組合。此方法結合了上 述兩個方法的優點,以增加斷詞的正確性與效率。

2. 中央研究院 CKIP 斷詞系統

CKIP 斷詞系統是由我國中央研究院詞庫小組所研發,採用的是混和斷詞法,

其包含大約 10 萬多個常用中文詞彙,具有新詞辨識能力與附加詞類標記的選擇 性功能。詞庫中所收錄的詞彙包含一般用詞、常用專有名詞、成語、慣用語等等。

而在此系統中,斷詞的處理分為兩部分:

(1) 斷詞:將文章根據中研院詞庫小組所維護的 10 萬多個詞彙,以一個句子為 單位,把文字切割成數個獨立的詞。

(2) 標記詞性:將每一個斷詞後所產生的詞彙標記上所屬的詞性,詞性種類分別 有動詞(V)、名詞(N)、連接詞(C)、語助詞(T)、副詞(D)、介詞(P)、感嘆詞(I)」、… 等。該步驟有助於後續對各個詞彙的詞性之掌握與使用。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(二) 文件特徵選取

對文件進行斷詞處理後,便需篩選出具有代表性的特徵詞來表示該文件特徵。

在技術上可利用統計方法去計算每個詞彙在文件中佔的權重,將權重較低的詞彙 先剔除,留下的詞彙所形成的集合就能代表該文件之特徵。本研究希望能藉由此 特徵集合,將資料群透過映射(Mapping)的方式將高維度的空間投影到低維度的 空間,如此不僅能簡化資料分析時的計算,也能幫助我們更方便地去瞭解資料特 徵間的關係。

最常見的特徵詞挑選方法為 TF-IDF(Term Frequency – Inverse Document Frequency)(Salton & Buckley, 1988):

1. TF (詞彙頻率,Term Frequency)

在一份給定的文件中,TF 表示某一個特定詞彙在該文件中出現的次數,以 代表其在文件中的重要性,而愈是重要的概念愈容易重覆出現在文件中,故在文 件中出現頻率愈高的詞彙愈能代表文件所要表達的概念。

對於在某一特定文件裡的詞彙 i 來說,其重要性可表示為:

(式 2-1)

其中, 是詞彙 i 在文件 j 中的出現次數,而 ∑ 則是在文件 j 中所有 詞彙的出現次數之總和。

2. IDF (反向文件頻率, Inverse Document Frequency)

而因為出現頻率較高的詞彙可能在每一篇文件中均會出現,則其所代表重要 性便相對少於出現在較少文件內容中的詞彙,於是可透過 IDF 來修正此缺點。IDF 是一個詞彙普遍重要性的衡量標準。某一特定詞彙的 IDF,可以由總文件數除上 含有該詞彙之文件數,再取對數來得出:

出的向量空間模型(Vector Space Model, VSM)。

向量空間模型的主要概念是:在一個文件集中,每一個特徵詞即代表空間中 的一個維度,而每個維度上的值則代表該特徵詞在文件中的重要程度,即為該維 度的「權重」,其可透過文件的詞彙統計資料計算而得,而最常用的權重計算方 式為前述之 TF-IDF 計算方法。由這些權重所組合而成的特徵向量(Feature Vector)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

則代表在向量空間中的一篇文件。以圖 2-3 為例,在一個三維空間中,文件皆由 三個不同特徵詞所組成,每個文件中特徵詞的權重皆不相同,在空間中的位置亦 然不同。

圖 2-3 向量空間模型示意圖

(資料來源:Salton et al., 1975)

若將上述此例子延伸到多維度,可以數學矩陣的方式表達及運算,如圖 2-4 所示:

[

]

圖 2-4 向量空間模型矩陣

(資料來源:本研究整理)

其中, 表示第 i 篇文件; 表示第 j 個特徵詞在第 i 篇文件的權重值,即 該矩陣是一個具有 i 篇文件與 j 個相異特徵詞的向量空間模型。

D1=(w11、w12、w13)

D2=(w21、w22、w23)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(四) 文件相似度計算

將文件以向量空間模型表達之後,文件與文件間相似的程度可透過相似度的 計算以進行後續文件群集分析、分類等處理。常用的相似度計算方法為餘弦相似 度(Cosine Similarity)計算法,其計算向量空間模型中兩文件所對應的向量之餘弦 值,透過兩組相同基底(Base)與維度(Dimension)向量間的角度(Angle)差距來計算 兩向量間的距離(You & Chen, 2006;Teng & Lee, 2007)。

其計算結果會介於 0 到 1 之間。當兩個向量間的角度差距愈小時,表示其餘 弦角度愈小,餘弦值愈接近 1,即兩篇文件的相似程度愈高;反之,則相似程度 愈低(陳崇正, 2009)。

如圖 2-5 所示,A、B 兩文件之向量間之餘弦相似度為 θ,而在 n 維空間的 夾角公式如下:

( )

‖ ‖ ‖ ‖

√∑ ( ) √∑ ( ) (式 2-5)

圖 2-5 二維空間中之餘弦相似度

(資料來源:陳崇正,2009) Y-axis

C=(X0、Y0) X-axis A=(X1、Y1)

B=(X2、Y2)

θ

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件