特徵挑選一直是影響著分類效率的一項重要環節,由於構成敘述資料的詞彙數量
務。
特徵挑選方法的種類繁多,參考比較之後,本論文選用最簡便的 TF 配合 Log Likelihood Ratio (LLR)作為選取特徵的方法,再加入專家的經驗作最後把關的工作,
使特徵的選取更為精準。
3.3.1. TF
如2.2.1 節所介紹,TF 很直接地表達詞彙的出現頻率。若統計樣本已經過適當的 前置處理,將不具語意的詞彙排除,則透過TF,每個類別常用的詞彙一目了然。
然而前置處理的步驟只能大略篩選較不具語意的詞彙,為了避免誤刪有用的資 訊,停用字列表僅列出明顯不具代表性的詞彙,因此光靠 TF 稍嫌不足,仍需要其他 挑選法補強。
表 3-1 為實驗中「偵探/懸疑小說」、「科幻/奇幻小說」與「愛情文藝小說」類別 以TF 作為排序標準之前 10 名的詞彙,可以明顯觀察出仍有數個詞彙語意不明顯,無 法代表這三個類別。
表 3-1 特徵選取實例 — TF
偵探/推理小說 科幻/奇幻小說 愛情文藝小說
詞彙 TF 詞彙 TF 詞彙 TF
人 941 人 700 愛情 910
小說 525 世界 511 人 811
上 520 上 432 愛 550
推理 424 自己 307 自己 495 書 353 小說 295 故事 427 發現 340 故事 291 上 376
地 301 奇幻 256 地 201
一個 291 一個 254 說 292 自己 282 人類 252 心 286
故事 280 書 244 想 286
3.3.2. Log Likelihood Ratio (LLR)
根據[24]的概念:可以從一個事先分類好的文件集中選出某個目標概念高度相關 的一些詞彙。基於「相關的詞彙傾向同時出現」的假設,可以利用χ2-test 或其他統計 測試及資訊理論的測量方法,從事先分類好的文稿(Text)中建立主題特徵(Topic Signature)。根據[14],LLR Λ 比 χ2-test 更適用於稀疏資料且-2logΛ 的分佈與 χ2相近,
因此本研究使用LLR (-2logΛ)作為挑選特徵的參考。
令
S
i為訓練資料中屬於類別C
i的書籍資料,Si 為訓練資料中不屬於類別C
i的書 籍資料。對於類別C
i與詞彙 tj,有以下兩個hypothesis:Hypothesis 1 (H1): (
P S t
j| )i = =p P S t
( j| )i ,文件之間是否有相關性,與t
i沒有關係;Hypothesis 2 (H2):
P S t
( j| )i =p
1≠p
2 =P S t
( j | )i ,t
i的存在對文件之間的相關性有很大的影響,因此
p
1p
2;以下為各種可能情況的列表:
表 3-2 詞彙與類別關係狀況列表
S
jS
jti O11 O12
ti O21 O22
其中
O
11是t
i在S
j中的出現頻率(次數);O12是t
i在S
j以外,其他訓練資料中的出現頻 率;O21是S
j中所有非t
i的詞彙的出現頻率;O22是所有非t
i的詞彙在S
j以外,其他訓 練資料中的出現頻率。舉例來看,假設考慮的詞彙是「睡覺」,類別是「偵探小說」,則
O
11是偵探類裡 的「睡覺」出現過的次數;O12 是「睡覺」在其他的類別裡出現過的次數;O21 是偵探類裡「睡覺」除外的其他的詞彙所出現過的總次數;O22 是其他類別裡,「睡覺」除
假設機率分布是二項式分佈(Binomial Distribution):
(
; ,) n
k(
1)
(n k)表 3-3 特徵選取實例 — LLR
3.3.3. 專家挑選
透過計算(3.5)選出對類別代表性較高的詞彙之後製成「候選特徵列表」,再加入專 家的智慧,讓特徵選取更精準。
專家的工作有兩項,首先是刪除不必要的詞彙,雖然前置處理已經做了很多篩選 過濾的動作,但語言文字變化性極大,光靠停用字列表難免有遺漏疏失,使得候選特 徵列表中出現一些語意不足但在計算上佔有優勢的詞彙,因此在這裡做最後把關的動 作,讓專家將對候選特徵進行篩選。
接著是依專家的經驗,加入類別相關性非常高、非常具有代表性的詞彙,表 3-5 專家對「偵探/懸疑小說」、「科幻/奇幻小說」及「愛情文藝小說」三個類別加入重要 詞彙的例子,完整列表詳見附錄二。
表 3-5 特徵選取實例 — 專家加入之類別相關詞彙 偵探/推理小說 科幻/奇幻小說 愛情文藝小說
偵探 哈利波特 分手
動機 女巫 邂逅
密室 科幻 寂寞
推理 精靈 浪漫
殺人 召喚 心愛
懸疑 衛斯理 廝守
陰謀 外星人 愛情
意外 地球人 失戀
綁架 法術 交往
福爾摩斯 托爾金 深情