• 沒有找到結果。

第二章、 文獻探討

3、 特徵詞選取(Feature Selection)

立 政 治 大 學

Na tiona

l Ch engchi University

3、 特徵詞選取(Feature Selection)

在文字分類的問題中,為降低與內容無關的特徵詞對文本分類的影響,並同 時降低向量空間的維度,會使用數學方法進行特徵詞的選取,來找出最具分類訊 息的特徵。特徵詞選取為一種較精確且人爲因素的干擾較少的方法。

特徵選取主要用來辨認文件中有意義且具代表性的片語或詞彙,而每筆資料 當中均可能含有多餘的特徵維度,因此必須予以刪除。在不影響辨識力的前提下 挑選出最佳的部分特徵,如此不僅能有效降低往後資料辨識所需花費的運算量及 時間,甚至也可提升文件識別的辨識度(Changqiu et al., 2009)。

特徵詞選的方法中,常見的方法如:文件頻率(Document Frequency)、訊息增 益(Information Gain)、交互資訊量(Mutual Information)及卡方統計(Chi-Square Statistic)等特徵選取技術。以下分別介紹四種最常用的特徵詞選取方法,並探討 與其他特徵語選取方法的分類成效。

3.1 文件頻率(Document Frequency Threshold)

文件頻率是計算每個特徵詞在總文件中的出現次數。使用文件頻率來選擇特 徵詞會使用一個事先定義好的臨界值(Predetermined Threshold),並將 DF 值低於 此臨界值的特徵詞從向量空間中移除。使用文件頻率來對特徵詞作篩選是一個最 簡單的降低維度方法,且可以輕易的應用在大型的資料集中。

文件頻率的假設重點在於,通常越重要的字詞會出現在越多的文件中(Yang and Pedersen, 1997)。但使用文件頻率的假設可能反而會造成分類正確率的降低,

因為在許多文件頻率很高的特徵詞,常為停用字或是普通不重要的雜訊(Yang and Pedersen, 1997;Basu and Murthy, 2012)。因此往往使用文件頻率來選擇特徵詞時,

會混合其他不同的方法進行選取特徵詞方法。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

3.2 訊息增益(Information Gain)

訊息增益由 Quinlan 於 1979 年所提出,且已被成功的用在許多關於文字學習 的研究中,並且在機器學習中成為一個衡量特徵好壞的準則(Sun et al, 2009)。訊 息增益是以資訊理論(Information Theorem)中的熵(Entropy)概念為基礎,熵在資 訊理論中是用來衡量隨機度數的期望值或是不確定性。因此使用訊息增益來作為 特徵詞選取的方法時,其定義為分類前資料的資訊量,減去依照某個屬性分類後 的子集合資訊量總合即代表資訊的獲利量。

訊息增益會透過瞭解特定詞在文件出現或是不出現,來衡量預測分類類別時 所獲得的資訊量(Yang and Pedersen, 1997)。利用訊息增益法來計算特徵詞 A 於整 個分類系統的 IG 值表示此特徵詞在整個分類系統中所能提供的資訊量,當所得 到的 IG 值越大,表示該特徵詞 A 能為整個分類系統提供愈多的資訊量,因此該 特徵詞 A 對分類的鑑別度也愈高。以下列公式計算一特徵詞 A 於類別集合 C 的 IG 值 IG(C,A):

IG(C, A) = H(𝐶) − 𝐻(𝐶|𝐴) 其中H(C) = − ∑n𝑖=1𝑝(𝑐𝑖) log 𝑝(𝑐𝑖)

代表每個類別𝐶𝑖的熵加總,即表示未分類前的資訊量,若是各個類別分配越 平均則資訊量越大,若是各個類別分配越一致則資訊量(亂度)就越小。

其中𝐻(𝐶|𝐴) = 𝑃(𝐴)(− ∑𝑛𝑖=1𝑃(𝐶𝑖|𝐴)log 𝑃(𝐶𝑖|𝐴))

+𝑃(𝐴̅)(− ∑ 𝑃(𝐶𝑖|𝐴̅)

𝑛

𝑖=1

log 𝑃(𝐶𝑖|𝐴̅))

代表特徵 A 在文件中,出現𝐴或是沒有出現𝐴̅的條件熵,代表加入特徵 A 後,

分類子集合之資訊量總合。(Cover and Thomas, 1991)認為,信息增益方法在分類 研究領域中,為一種穩定的特徵詞選取方法。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

3.3 交互資訊量(Mutual Information)

交互資訊量在統計上常用來衡量變數與變數之間的相互依賴程度,且常被使 用在語言統計模型中,計算字詞的關聯程度與這方面的應用(Yang and Pedersen, 1997)。交互資訊量在特徵詞選取中,假設要計算一個類別 c 和一個特徵詞 t 之間 的交互資訊量 MI(t, c)如下表示:

𝑀𝐼(𝑡, 𝑐) = 𝑙𝑜𝑔2𝑝(𝑡|𝑐)

𝑝(𝑡) = 𝑙𝑜𝑔2 𝑝(𝑡, 𝑐) 𝑝(𝑡) × 𝑝(𝑐)

MI 值是比較並觀察字詞 t 和類別 c 的聯合機率,當 MI 值為 0 時,代表類別 c 和特徵詞 t 之間是獨立的,反之當字詞 t 和類別 c 具有高度的相似性,則會產 生高的 MI 值,表示則該字詞越重要。

因為交互資訊量是透過衡量特徵詞 t 和類別 c 之間的相依性來判斷該特徵詞 t 的重要程度,因此使用交互資訊量會先定義一個選擇特徵的臨界值,並將低於臨 界值 PMI 分數的特徵從向量空間移除。在計算 MI 值在所有的類別中主要有兩個 以下兩個方法(Yang and Pedersen, 1997):

𝑀𝐼𝑎𝑣𝑔(𝑡) = ∑ 𝑃(𝑐𝑖)𝑀𝐼(𝑡, 𝑐𝑖)

𝑛

𝑖=1

第一個方法為計算字詞 t 與所有類別的平均 MI 值,其中透過計算字詞 t 與每 個類別的 MI 值,再分別乘上每個類別所佔的百分比。

𝑀𝐼max(𝑡) = max

𝑖=1{𝑡, 𝑐𝑖}

第二個方法是計算字詞 t 與所有類別的 MI 值後,選取出最大值來代表該字詞 的 MI 值。

MI 值的缺點在於很容易受到字詞的邊際機率影響,當有相同的𝑝(𝑡|𝑐)時,會 造成越稀少出的字詞反而 MI 值會比熱門出現的 MI 值還高,並造成誤差(Yang and Pedersen, 1997;Basu and Murthy, 2012)。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

3.4 卡方統計量(Chi-Square Statistic)

使用方卡統計量可以衡量字詞 t 與類別 c 之間的獨立性。將字詞 t 與類別 c 使用雙向列聯表(Two-Way Contingency Table)來表示 t 與 c 之間的關係,即可利用 方卡檢定來計算雙向列聯表中,行和列的關聯性,透過卡方統計量計算字詞 t 與 類別 c 的關聯性可以簡化為以下公式計算:

𝜒2(𝑡, 𝑐) = 𝑁 × (𝐴𝐷 − 𝐶𝐵)2

(𝐴 + 𝐶) × (𝐵 + 𝐷) × (𝐴 + 𝐵) × (𝐶 + 𝐷) 其中 A 為字詞 t 與類別 c 共同出現的次數

B 為出現字詞 t 但不出現類別 c 的次數 C 為不出現字詞 t 但出現類別 c 的次數 D 為字詞 t 和類別 c 皆共同不出現的次數

N 為總文章數

若是卡方值為 0,則代表字詞 t 與類別 c 為相互獨立。透過計算每個特徵詞 與類別的卡方值可以得到一個卡方分數,並將過這個卡方分數來將低卡方值的特 徵從向量空間移除(Yang and Pedersen, 1997),在計算特徵詞的卡方值可分以下成 兩種不同的計算方法:

𝜒2𝑎𝑣𝑏(𝑡) = ∑ 𝑃(𝑐𝑖)

𝑛

𝑖=1

𝜒2(𝑡, 𝑐𝑖)

第一個方法為計算字詞 t 與所有類別的平均𝜒2值,其中透過計算字詞 t 與每 個類別的𝜒2值,再分別乘上每個類別所佔的百分比。

𝜒2𝑚𝑎𝑥(𝑡) = max

𝑖=1{𝜒2(𝑡, 𝑐𝑖)}

第二個方法是計算字詞 t 與所有類別的𝜒2值後,選取出最大值來代表該字詞 的𝜒2值。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

3.5 不同特徵詞選取方法的比較

在各種特徵詞選取的方法中,IG 和卡方兩種方法所得到的分類結果平均表現 優於 DF 和 MI (Yang and Pedersen, 1997; Sun et al., 2009; Xu et al., 2007; Uchyigit, 2012) ,且可在不降低分類的正確率下,篩選掉 90% 以上的特徵詞 (Yang and Pedersen, 1997; Sun et al., 2009) 。除了 IG 和卡方外,DF 方法甚至可以達到不錯 的成效,因此如果在有限的計算成本下,可以使用 DF 方法來取代 IG 和卡方,

其為簡單但是又有成效的特徵篩選(Yang and Pedersen, 1997)。

除了 DF、IG、卡方和 MI 四種特徵詞選取方法,(Basu and Murthy, 2012)提 出了字詞顯著性(Term Significance, TS)來改善特徵詞選取的效果,並與其他的特 徵詞選取方法比較,其效果略優於卡方與 IG。(Sun et al., 2009) 比較了許多不同 的特徵詞選取方法,其中除了 DF、IG、卡方和 MI 外,加入期望交叉熵 (Expected Cross Entropy, ECE) 、字詞強度 (Term Strength) 、針對文字的證據權重法 (Weight of Evidence for Text, WET) 與勝算比 (Odds Ratio, OR) 。結果發現卡方 與 IG 分類效果佳,而 OR 方法可達到與卡方和 IG 相似的分類效果,其中卡方略 優於其他方法。(Xu, 2012)比較了卡方、IG、DF、ECE、OR 和 WET 使用在中文 垃圾郵件的過濾問題的分類效果。其中結果指出雖指卡方和 IG 的結果不錯,但 是 OR 和 WET 可得到更優秀的分類正確率,不過這兩種方法較適合用在二元的 分類(Binary Classification)問題,因此針對多類別的分類,效果還是低於卡方與 IG。(Uchyigit, 2012)加入了不同的方法並進行比較,在使用 Naïve Bayes 分類方 法下,除了 MI 之外,大多方法都可以達到不錯的結果。其中該篇報告所提出的 新方法 GU Metric 甚至可以和普遍常用的方法如卡方、GI 和 OR 達到相同的分類 結果甚至有時效果更好。(Yang and Liu, 2011)利用特徵幾何中心的變動程度提出 新的特徵詞選取方法 FCFS(Feature Centroid Feature Selection),並使用三個不同 的資料集與二種不同的分類方法,來和其他的特徵詞選取方法作比較。其中 FCFS 的成效和 GI 相差不多,但是在其中一組的資料集得到較佳的結果。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

根據(Yan, 2010)的分析發現,好的特徵詞選取方法總會滿足一些特定準則,如:

有利於一般化的詞、使用類別的資訊和使用字詞的頻率資訊。在該研究結果發現 IG 有滿足相關的準則且達到較高的分類正確率,而 MI 則沒有達到任何準則,且 得到較低的分類正確率。(Zhang et al., 2012)提出了新的特徵詞選取方法,將向量 空間模型轉成三維表示,有別與傳統的向量空間模型,可有效提升分類效果。

在特徵詞選取方法中,大部份的方法都專注於全域的特徵選擇(Global Selection),即判斷一個特徵對於整個系統的所有類別的重要性。然而(Qiu et al., 2008)則採用區域特徵選擇(Local Selection)加上計算平均卡方值(Chi AVG)的全域 特徵選擇兩個階段的混合法。其分成四個對照組,前三組分別先使用 DF、TF 和 TFIDF, 針對各個類別挑選前 50%的詞,之後再利用平均卡方值選詞,而第四 個只使用平均卡方值。四個對照組的分類結果發現使用 DF 加上卡方可以達到提 升整體分類正確率的效果。(Zhang et al., 2009) 結合正規化的相互訊息

(Regularized Mutual Information, RMI) 和資訊分散 (Distribute Information, DI) 得到比較原本較佳的分類正確率。

許多的實驗結果都指出,當特徵詞選取結果後,特徵維度愈高,對於不同的 選詞方法所得到的分類正確率結果皆會收斂,因此當分類的維度愈高,特徵詞方 法的效果就愈不明確(Sun et al., 2009; Uchyigit, 2012; Yan, 2010)。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University