特徵挑選 (Feature Selection)

特徵挑選一直是影響著分類效率的一項重要環節，由於構成敘述資料的詞彙數量

務。

特徵挑選方法的種類繁多，參考比較之後，本論文選用最簡便的 TF 配合 Log Likelihood Ratio (LLR)作為選取特徵的方法，再加入專家的經驗作最後把關的工作，

使特徵的選取更為精準。

3.3.1. TF

如2.2.1 節所介紹，TF 很直接地表達詞彙的出現頻率。若統計樣本已經過適當的前置處理，將不具語意的詞彙排除，則透過TF，每個類別常用的詞彙一目了然。

然而前置處理的步驟只能大略篩選較不具語意的詞彙，為了避免誤刪有用的資訊，停用字列表僅列出明顯不具代表性的詞彙，因此光靠 TF 稍嫌不足，仍需要其他挑選法補強。

表 3-1 為實驗中「偵探/懸疑小說」、「科幻/奇幻小說」與「愛情文藝小說」類別以TF 作為排序標準之前 10 名的詞彙，可以明顯觀察出仍有數個詞彙語意不明顯，無法代表這三個類別。

表 3-1 特徵選取實例 — TF

偵探/推理小說科幻/奇幻小說愛情文藝小說

詞彙 TF ^詞彙 TF ^詞彙 TF

人 941 人 700 愛情 910

小說 525 世界 511 人 811

上 520 上 432 愛 550

推理 424 自己 307 自己 495 書 353 小說 295 故事 427 發現 340 故事 291 上 376

地 301 奇幻 256 地 201

一個 291 一個 254 說 292 自己 282 人類 252 心 286

故事 280 書 244 想 286

3.3.2. Log Likelihood Ratio (LLR)

根據[24]的概念：可以從一個事先分類好的文件集中選出某個目標概念高度相關的一些詞彙。基於「相關的詞彙傾向同時出現」的假設，可以利用χ²-test 或其他統計測試及資訊理論的測量方法，從事先分類好的文稿(Text)中建立主題特徵(Topic Signature)。根據[14]，LLR Λ 比 χ²-test 更適用於稀疏資料且-2logΛ 的分佈與 χ²相近，

因此本研究使用LLR (-2logΛ)作為挑選特徵的參考。

令

₂ =

P S t

( _j | )_i ，

t

舉例來看，假設考慮的詞彙是「睡覺」，類別是「偵探小說」，則

O

11是偵探類裡的「睡覺」出現過的次數；O12 是「睡覺」在其他的類別裡出現過的次數；O21 是偵

探類裡「睡覺」除外的其他的詞彙所出現過的總次數；O22 是其他類別裡，「睡覺」除

假設機率分布是二項式分佈(Binomial Distribution)：

(

^{; ,}

) ⁿ

(

)

⁽^{n k}⁾

表 3-3 特徵選取實例 — LLR

3.3.3. 專家挑選

透過計算(3.5)選出對類別代表性較高的詞彙之後製成「候選特徵列表」，再加入專家的智慧，讓特徵選取更精準。

專家的工作有兩項，首先是刪除不必要的詞彙，雖然前置處理已經做了很多篩選過濾的動作，但語言文字變化性極大，光靠停用字列表難免有遺漏疏失，使得候選特徵列表中出現一些語意不足但在計算上佔有優勢的詞彙，因此在這裡做最後把關的動作，讓專家將對候選特徵進行篩選。

接著是依專家的經驗，加入類別相關性非常高、非常具有代表性的詞彙，表 3-5 專家對「偵探/懸疑小說」、「科幻/奇幻小說」及「愛情文藝小說」三個類別加入重要詞彙的例子，完整列表詳見附錄二。

表 3-5 特徵選取實例 — 專家加入之類別相關詞彙偵探/推理小說科幻/奇幻小說愛情文藝小說

偵探哈利波特分手

動機女巫邂逅

密室科幻寂寞

推理精靈浪漫

殺人召喚心愛

懸疑衛斯理廝守

陰謀外星人愛情

意外地球人失戀

綁架法術交往

福爾摩斯托爾金深情

在文檔中以SVM與詮釋資料設計書籍分類系統 (頁 49-54)

3.3.1. TF

3.3.2. Log Likelihood Ratio (LLR)

S

C

C

C

P S t

p P S t

t

P S t

p

p

P S t

t

p

p

S

S

O

t

S

t

S

S

t

t

S

O

(

) n

(

)

3.3.3. 專家挑選

) ⁿ