特徵值挑選(Feature Selection)

第二章文獻探討

2.3 特徵值挑選(Feature Selection)

在處理文件分類時，通常會將整篇文章斷詞切字，處理成以詞彙的方式呈現，再將一些不值得考慮的停用字刪去，但是當資料量大時，會出現數十萬個詞彙，容易造成分類器在分類過程中採納的特徵數量過於龐大，可能導致分類效果不佳與執行速度緩慢等問題，因此需要倚靠特徵值挑選過濾出值得考慮的詞彙，

降低資料維度、提升系統效能，接下來將介紹本研究有採用的特徵挑選方法。

2.3.1 TF-IDF

在資訊檢索、資訊探勘的領域中，TF-IDF 常被用來對每個 term 依其重要性做額外加權的動作。採用統計的概念，用來評估一個 term 在這份文件中與整體文件間的重要性，TF(Term Frequency)：概念起源於 Luhn[30]在自動索引的實驗裡發現，term 在經由分析之後可分為高、中、低頻三類，而高頻及低頻不具任何意義，但中頻(middle-frequency)的詞彙大多數都較有意義，Luhn 再進一步提出 Resolving Power of Significant words 的概念[30]，如圖 10 所示，在中頻的部分是作者認為比較具有參考價值的。

圖 10 詞頻與 Resolving Power of Significant words 關係參考來源：[31]

IDF(Inverted Document Frequency)：由 Spark Jones 於 1972 年所提出來的 [32]，是一個詞彙普遍重要性的度量。某一特定詞彙的 IDF，可以由總文件數目除以包含該詞彙之文件的數目，再將得到的商取對數計算出來。

2.3.2 Log Likelihood Ratio

Likelihood Ratio 指的是在兩個不同的假設下找出它最大機率的比例，通常用一個希臘字母Λ來表示，而 Likelihood Ratio 檢定是一種以兩個假設為基礎數值做決定的比例統計方法。也可以說是比較兩種模型的方法，原理是將兩個模型拿來比較，在同樣的資料集下找出最適合的模型。主要是以 Log likelihood ratio 檢定統計量在樣本很大時、近似於卡方分配的性質的概念來處理，計算方式為在虛無假設下找出最大的 likelihood ratio 值

在虛無假設下參數 θ 屬於參數空間θ的特定子集合θ₀中，likelihood 公式可進一步表示成一個參數 θ 與一個實際觀察後擁有固定值的參數 χ[33]

21 小時 Likelihood Ratio Test 會否定虛無假設。如何衡量這個統計量的多寡標準，

取決於 Type I error 機率[34]的容忍程度。

1 2

1 2 1 2

j j

H H T T

k k

m k k k k

= +

+ + +

(14) 由表 2.2.4 的情況可再將 Log Likelihood ratio 表示成

2 log 2

_ij

log

^ij

i j ij

k n

− Λ = ∑ m

(15)

許多特徵挑選都會有存在一個問題，出現在某分類裡頻率高的特徵內容裡，

同時包含了在其它分類裡也很常出現的、在其它分類裡很少出現的等情況，而使用這種方法概念可以篩選出僅在此分類裡經常出現，在其它分類裡鮮少出現的特徵內容。將此概念運用至本研究的前置處理過程裡，試圖找出僅在每項心情分類中出現的特徵詞彙，進一步降低資料維度來增加分類系統效能。本研究考慮前面章節所提的 LLR(-2logΛ)[33]，由於此方法在處理圖書資訊等文件分類情況正確率高達八、九成，故本研究採用此方法來作為前置處理的特徵挑選。

在文檔中網際網路新聞文章心情偵測之研究 (頁 28-32)

第二章 文獻探討