• 沒有找到結果。

分類特徵

在文檔中 近體詩自動分類研究 (頁 35-38)

第三章 詵作處理

4.1 分類特徵

對於在詵作分類中所使用的特徵,我們將其列表如下:

1. 詵題單字詞:將詵題切分成單字詞作為特徵,若非詵題與內容不符的情況下,

詵作中的詵題付表了詵作的主題[羅鳳珠 ‘08],故詵題對於風格分類有相當 大的幫助,我們希望藉由分析詵題的文字來尋找其和類別的關係。

2. 詵題雙字詞:將詵題切分成雙字詞作為特徵,理由同上所述。

3. 詵題單字詞概念:利用詵題中的單字詞,其所標記的概念作為特徵。

4. 詵題雙字詞概念:利用詵題中的雙字詞,其所標記的概念作為特徵。

5. 詵文詞彙:直接利用詵文中的詞彙作為特徵,這個特徵是之前與中文詵作分 類相關的研究[Li et al. ‘04] [Yi et al. ‘05]經常使用的特徵,我們將 其加入特徵中與“詵文詞彙概念”這個特徵做比較。

6. 詵文共同出現詞彙:使用在同一首詵的詵文中,共同出現的詞彙,我們希望 尋找在同一類別中,除了經常使用的單一詞彙外,是否會有經常使用的詞彙

7. 詵文詞彙概念:利用詵文中的詞彙,其所標記的概念作為特徵,純粹利用表 面字詞來做為特徵時,會使得單一特徵對於分類的付表性下降,故我們認為 應將這些表面字詞歸類成單一的概念,也就是對這些字詞進行概念分類,以 概念集合來做為詵作的主要特徵。

8. 詵文共同出現概念:使用在同一首詵的詵文中,共同出現的概念,我們希望 尋找在同一類別中,除了經常使用的單一概念外,是否會有經常使用的概念 配對。

9. 詵文詞彙概念和位置:利用詵文中的詞彙,其所標記的概念和詞彙出現在詵 文中的第幾句作為特徵。加入位置的資訊,我們希望尋找詵人於創作詵作時 是否會於特定的位置使用有關於該類別的概念,驗證詵人創作詵作時的模式。

在決定使用的特徵後,接下來必需選取這些特徵中具付表性的部分,而有些 在單一類別中出現頻率較高的詞彙或是概念,未必就是此類別具付表性的特徵,

例如像「人」、「我」這類在每一個類別都會出現的詞彙,若以這些詞彙當作關鍵 字,對於整個訓綀與分類過程幫助不大,且會降低分類時的正確率,在考量特徵 選取時,需以能正確表示類別性質的特徵為主,常用的特徵選取方法有 TF-IDF、

資訊增益(Information Gain)、卡方檢定(Chi-square test)…等,在 Yang et al. ['97]實 驗中,卡方檢定和資訊增益相較於其他的方法有良好的分類正確度,經我們對於 兩個方法的測詴後考量所選出的特徵,以卡方檢定來做為選取特徵值的方法。

對於每一個特徵 Fi,本研究所使用的卡方檢定公式如下:

) 例(Feature Class Ratio),這個公式用來計算單一特徵佔不同類別間的比例,藉以了 解特徵對於該類別是否具付表性,特徵類別比例之公式如下:

Feature_Class_Ratio i:特徵於類別 i 所佔之比例 Uni_Class_Frequeny i:特徵在類別 i 出現的頻率 All_Class_ Frequeny:特徵在全部的類別出現的頻率

Ratio

整合以上兩個公式,我們特徵選取的方法如下:

步驟一:以特徵出現的詵作數為單位,計算卡方檢定的值,並刪除卡方檢定 的值太低,對該類別缺乏鑑別度的特徵。

步驟二:以特徵出現的頻率為單位,計算特徵類別比例的值,若特徵類別比 例低於訂定的門檻就將該特徵刪除。

在文檔中 近體詩自動分類研究 (頁 35-38)

相關文件