• 沒有找到結果。

特徵值挑選(Feature Selection)

第二章 文獻探討

2.3 特徵值挑選(Feature Selection)

在處理文件分類時,通常會將整篇文章斷詞切字,處理成以詞彙的方式呈 現,再將一些不值得考慮的停用字刪去,但是當資料量大時,會出現數十萬個詞 彙,容易造成分類器在分類過程中採納的特徵數量過於龐大,可能導致分類效果 不佳與執行速度緩慢等問題,因此需要倚靠特徵值挑選過濾出值得考慮的詞彙,

降低資料維度、提升系統效能,接下來將介紹本研究有採用的特徵挑選方法。

2.3.1 TF-IDF

在資訊檢索、資訊探勘的領域中,TF-IDF 常被用來對每個 term 依其重要性 做額外加權的動作。採用統計的概念,用來評估一個 term 在這份文件中與整體 文件間的重要性,TF(Term Frequency): 概念起源於 Luhn[30]在自動索引的實驗 裡發現,term 在經由分析之後可分為高、中、低頻三類 ,而高頻及低頻不具任何 意義,但中頻(middle-frequency)的詞彙大多數都較有意義,Luhn 再進一步提出 Resolving Power of Significant words 的概念[30],如圖 10 所示,在中頻的部分是 作者認為比較具有參考價值的。

20

圖 10 詞頻與 Resolving Power of Significant words 關係 參考來源:[31]

IDF(Inverted Document Frequency):由 Spark Jones 於 1972 年所提出來的 [32],是一個詞彙普遍重要性的度量。某一特定詞彙的 IDF,可以由總文件數目 除以包含該詞彙之文件的數目,再將得到的商取對數計算出來。

2.3.2 Log Likelihood Ratio

Likelihood Ratio 指的是在兩個不同的假設下找出它最大機率的比例,通常用 一個希臘字母Λ來表示,而 Likelihood Ratio 檢定是一種以兩個假設為基礎數值 做決定的比例統計方法。也可以說是比較兩種模型的方法,原理是將兩個模型拿 來比較,在同樣的資料集下找出最適合的模型。主要是以 Log likelihood ratio 檢 定統計量在樣本很大時、近似於卡方分配的性質的概念來處理,計算方式為在虛 無假設下找出最大的 likelihood ratio 值

在虛無假設下參數 θ 屬於參數空間θ的特定子集合θ0中,likelihood 公式可 進一步表示成一個參數 θ 與一個實際觀察後擁有固定值的參數 χ[33]

21 小時 Likelihood Ratio Test 會否定虛無假設。如何衡量這個統計量的多寡標準,

取決於 Type I error 機率[34]的容忍程度。

22

1 2

1 2 1 2

j j

ij

H H T T

k k

m k k k k

= +

+ + +

(14) 由表 2.2.4 的情況可再將 Log Likelihood ratio 表示成

,

2 log 2

ij

log

ij

i j ij

k n

− Λ = ∑ m

(15)

許多特徵挑選都會有存在一個問題,出現在某分類裡頻率高的特徵內容裡,

同時包含了在其它分類裡也很常出現的、在其它分類裡很少出現的等情況,而使 用這種方法概念可以篩選出僅在此分類裡經常出現,在其它分類裡鮮少出現的特 徵內容。將此概念運用至本研究的前置處理過程裡,試圖找出僅在每項心情分類 中出現的特徵詞彙,進一步降低資料維度來增加分類系統效能。本研究考慮前面 章節所提的 LLR(-2logΛ)[33],由於此方法在處理圖書資訊等文件分類情況正 確率高達八、九成,故本研究採用此方法來作為前置處理的特徵挑選。

23

相關文件