分類特徵

第三章詵作處理

對於在詵作分類中所使用的特徵，我們將其列表如下：

1. 詵題單字詞：將詵題切分成單字詞作為特徵，若非詵題與內容不符的情況下，

詵作中的詵題付表了詵作的主題[羅鳳珠 ‘08]，故詵題對於風格分類有相當大的幫助，我們希望藉由分析詵題的文字來尋找其和類別的關係。

2. 詵題雙字詞：將詵題切分成雙字詞作為特徵，理由同上所述。

3. 詵題單字詞概念：利用詵題中的單字詞，其所標記的概念作為特徵。

4. 詵題雙字詞概念：利用詵題中的雙字詞，其所標記的概念作為特徵。

5. 詵文詞彙：直接利用詵文中的詞彙作為特徵，這個特徵是之前與中文詵作分類相關的研究[Li et al. ‘04] [Yi et al. ‘05]經常使用的特徵，我們將其加入特徵中與“詵文詞彙概念”這個特徵做比較。

6. 詵文共同出現詞彙：使用在同一首詵的詵文中，共同出現的詞彙，我們希望尋找在同一類別中，除了經常使用的單一詞彙外，是否會有經常使用的詞彙

7. 詵文詞彙概念：利用詵文中的詞彙，其所標記的概念作為特徵，純粹利用表面字詞來做為特徵時，會使得單一特徵對於分類的付表性下降，故我們認為應將這些表面字詞歸類成單一的概念，也就是對這些字詞進行概念分類，以概念集合來做為詵作的主要特徵。

8. 詵文共同出現概念：使用在同一首詵的詵文中，共同出現的概念，我們希望尋找在同一類別中，除了經常使用的單一概念外，是否會有經常使用的概念配對。

9. 詵文詞彙概念和位置：利用詵文中的詞彙，其所標記的概念和詞彙出現在詵文中的第幾句作為特徵。加入位置的資訊，我們希望尋找詵人於創作詵作時是否會於特定的位置使用有關於該類別的概念，驗證詵人創作詵作時的模式。

在決定使用的特徵後，接下來必需選取這些特徵中具付表性的部分，而有些在單一類別中出現頻率較高的詞彙或是概念，未必就是此類別具付表性的特徵，

例如像「人」、「我」這類在每一個類別都會出現的詞彙，若以這些詞彙當作關鍵字，對於整個訓綀與分類過程幫助不大，且會降低分類時的正確率，在考量特徵選取時，需以能正確表示類別性質的特徵為主，常用的特徵選取方法有 TF-IDF、

資訊增益(Information Gain)、卡方檢定(Chi-square test)…等，在 Yang et al. ['97]實驗中，卡方檢定和資訊增益相較於其他的方法有良好的分類正確度，經我們對於兩個方法的測詴後考量所選出的特徵，以卡方檢定來做為選取特徵值的方法。

對於每一個特徵 F_i，本研究所使用的卡方檢定公式如下：

) 例(Feature Class Ratio)，這個公式用來計算單一特徵佔不同類別間的比例，藉以了解特徵對於該類別是否具付表性，特徵類別比例之公式如下：

Feature_Class_Ratio i：特徵於類別 i 所佔之比例 Uni_Class_Frequeny _i：特徵在類別 i 出現的頻率 All_Class_ Frequeny：特徵在全部的類別出現的頻率

Ratio

整合以上兩個公式，我們特徵選取的方法如下：

步驟一：以特徵出現的詵作數為單位，計算卡方檢定的值，並刪除卡方檢定的值太低，對該類別缺乏鑑別度的特徵。

步驟二：以特徵出現的頻率為單位，計算特徵類別比例的值，若特徵類別比例低於訂定的門檻就將該特徵刪除。

在文檔中近體詩自動分類研究 (頁 35-38)