第二章 文獻回顧
2.2 文字探勘技術
2.2.7 資訊擷取(Information Extraction)
一、向量空間模型(Vector Space Model)
由於文件中的文字資料不具結構性,因此無法直接由分類器讀入進行分類或處理,
要處理非結構化或半結構化的文件資料,必頇將文件資料轉化成可以用來比較判斷的 表示方式,通常使用向量空間模型的方式表示一個文件。向量空間模型的概念由 G.Salton(1983)[34]提出。在進行文字探勘之前,必頇先對資料做預處理,抽離出重要 的資訊進行探勘與分析。G.Salton 提出自動索引理論,利用索引來表示文件的內容,
並給每個索引一個權重以表達該索引在文件內容識別的重要性與價值。索引的建立方 式:針對系統中所有的文件所構成之集合 D,找出一組屬性(A1,A2,A3…An),使得在 D 中每一文件 dj 能有一組屬性值(aj1,aj2,…ajn)具有足夠的資訊代表該文件,該組屬性 值即稱為文件 dj的索引向量。
由於每篇文件是由許多詞彙所組成,因此可以將較具代表意義的詞彙找出當作索 引,並把文件集合中每篇文件所找出的詞彙組合起來,當作整個向量空間的維度,最 後再計算每篇文件中所有詞彙出現的頻率,並將其當作權重,而這些權重即組合成該 篇文件的文件向量,此文件向量在向量空間模型中即代表一篇文件。利用向量表示一 篇文件,不但可以方便的表達出各個文件之間的關係,在計算相似度上也較容易。
計算關鍵詞或詞對的權重。在決定關鍵詞或詞對方面,最典型的即使用一個英文字當 關鍵詞,利用空白即可切割出單一的關鍵詞。而關鍵詞對則可以利用文法上的片語或 是以幾個字一起出現頻率的統計方式來決定,然而不管是文法上的片語還是單單利用 統計的方式決定關鍵詞對都具有缺點,因此,Tzeras(1993)[37]提出結合文法上片語與 統計方式來決定關鍵詞對的方式,以文法上合法的片語為基礎,如果該片語在文件中 出現的次數沒有超過門檻值,則去除這個關鍵詞對,反之則留下這個關鍵詞對。
在計算關鍵詞或詞對的權重方面,最常使用的計算公式是由 G.Salton(1983) 提出 的 TFIDF(Term Frequency Inverse Document Frequency)公式:
k r
r j
j T t
d T t d
t , # , log #
TFIDF k k (2-8) 其中
tk:單一關鍵詞,k = 1~m dj:單一篇文件,j = 1~n
Tr:訓練文件集的文件數量
詞彙頻率(Term Frequency):某一詞彙出現在一篇文件的次數,出現次數愈多通 常代表重要性愈高,愈能做為該文件的代表,如上述公式中的#(tk,dj),代表在文件 dj
中關鍵字 tk 出現的次數[34]。
文件頻率(Document Frequency):某一詞彙在文件集合中出現的文件篇數,如果 出現的文件篇數愈多,表示這個詞彙較不具差異性,較不能做為關鍵字,反之出現篇 數愈少,表示愈能利用來區隔文件,則較適合當作關鍵字,如上述公式中的#Tr(tk),
代表在訓練文件集中,tk 這個關鍵字出現的文件篇數。
雖然,當某個詞彙在單一一篇文件中出現很多次時,表示這個詞彙很重要,但若 這個詞彙同時出現在許多篇文件中,則由於這個詞彙出現的頻率太頻繁,使得這個詞 彙 變得 很普遍而 不具代表性 , 因此, 必 頇考 慮反向 文件頻率 (Inverse Document
件中,則這個詞彙將具有較高的權重。反之,如果一個詞彙雖然在單一文件中出現很 多次,但出現在很多文件中,則這個詞彙的權重將會降低。
二、維度縮減(Dimensionality Reduction)
以向量空間模型來表示文件時,一個常發生之問題,即是維度太高,造成計算太 複雜,使得整個分類處理效能不佳,甚至因為凿含太多的雜訊,使得分類的效果變差。
因此,有學者便提出在儘量不影響分類有效性的條件下,降低向量空間模型維度的方 法,希望能減少計算上的複雜度,提升執行時的效率,其減少關鍵資訊中的雜訊,稱 為維度縮減。Fabrizio Sebastiani (2002)[38]將維度縮滅分成下列兩種類型:
(一)選擇詞(Term Selection)
在選擇詞類型中,新的關鍵字屬於原有關鍵字的子集合,即新的關鍵字都是從原 有的關鍵字集合中挑選出來的。這類型的方法據 Yang(1997)實驗結果,依降低精確度 由大到小分別為:Oddsratio、NGL coefficient、GSS coefficient、Chi-square 、Information gain 及 Mutual information。Li-Ping Jing、Hou-Kuan Huang 及 Hong-BoShi 等人,在 2002 年利用 Mutual Information 方法調整原本 TFIDF 公式取出的關鍵資訊,除了讓 關鍵資訊的數量變少外,最後的分類效果,甚至較原來利用 TFIDF 公式的好。
(二)擷取詞(Term Extraction)
在擷取詞類型中,新關鍵字並非從原有關鍵字中挑選出來,但卻是從原有的關鍵 字集合中擷取出,因此新關鍵字集合中的關鍵字未必會出現在原有的關鍵字集合中,
因為擷取詞類型的方法在取得新關鍵字集合時,是以字義的方式將新關鍵字從原有關 鍵字集合中擷取出來,如:叢集詞(Term Clustering),這類型的維度縮減方法,主要 可以使用來解決一些同義字的問題,例如在原有關鍵字集合中可能有幾個字詞意義相 同,則最後只會有一個字來代表這些字詞。
透過維度縮減的方式,一方面可以有效的降低利用 TFIDF 公式所選取出的關鍵 資訊數量,另一面可以過濾掉隱藏在關鍵資訊中的雜訊,所謂的雜訊即是不具代表性 的詞彙,雖然這些詞彙經過 TFIDF 公式的計算,被選取成為關鍵資訊,但因為其不 具代表性,而分類器通常都會受這些雜訊的影響,因此,有時採用維度縮減的方式,
除了可以提升運算的效率外,還可以增函最後的分類效果[39]。