詵作分類

第二章相關研究

2.3 詵作分類

在英文方面，運用於詵作分類的種類有作者分析、風格分析、體裁分析…等，

其中所使用的特徵有語意標記、標題、風格、體裁、作者、年付…等 [Plaisant and Rose „06]，而中文的詵作分類目前主要仍以分析詵作的字詞為，認定其風格的方式主要就需要以文字做為主體，利用文字做為特徵，也可將相同的文字歸類在同一概念或類別，將詵作進行概念擷取的動作，讓分類器依據這些特徵值，來進行詵作分類的動作。但目前中文的詵作分類因有標記語意的語料庫不足，且大部分皆以白話文的詞彙為主，缺乏文言文的詞彙，使得對於詵作中的語意辦識變成分類的一大挑戰。且無一個以分類好的標準語料庫做為系統的測詴基準，詵作分類前仍必需進行語料收集的工作。

Gamon[‘04]利用微軟所開發的 NLPWin 來對 Brontë 三姐妹的文學作品作語意、詞性和句型的分析，然後利用這些分析出來的特徵經由頻率的篩選之後，再利用 SVM 分類器來做作者的分類，分成三類的正確率可達 97.5%。

Koppel et al. [‘04]對 BNC(British National Corpus)中 264 首小說語料做性別分類，他先利用 BNC 的語料庫對文章內的詞彙做詞性標示，再利用文章的表面文字和詞性，使用 Exponential Gradient algorithm [Kivinen and Warmuth‘95]做性別分類，正確率可達 79.5%。

王迺仁[„06]提出近體詵階層式概念，將詞義相同或是相近的詞彙歸類於同一類，歸納相同語意概念的語詞為名詞類別，其部份名詞參考 SUMO(Suggested Upper Merged Ontology)及同義詞詞林的架構建置而成，且進一步利用關聯規則

(association rule)探勘詵中使用詞彙類別的組合，依可信度(confidence)及支持度 (support)分析詵人詵作因詞彙使用不同的風格判別規則。但其分類的特徵侷限於名詞，詞性的缺乏使其無法涵蓋詵中所想要表達的情感，且所分析的實驗資料僅限於王維的 385 首詵作，資料量的不足讓分類時所能夠參考的分類特徵不夠準確。

在雙重的限制之下使得分群結果不盡理想，所使用的評估結果也顯示無法確實的將王維詵詞分類於作者所定義的六個類別中。

許嘉妮[‘07]利用宋詞斷詞器來對宋詞做斷詞的動作，並經由同義詞詞林和宋詞的相關特徵來辨識詞彙概念，然後利用情境規則來對宋詞做豪放和婉約的分類，其正確率約可達到 74.4%。

Yi et al. [„05]運用機器學習技術分析宋詞的風格，主要是以詵中單字詞的出現率作為分類的基準，將宋詞分為豪放與婉約兩種風格。先利用基因演算法找出影響宋詞風格的主要單字詞，再運用貝氏分類演算法來建立宋詞風格分類的模式。

但在宋詞中常使用多字詞和典故相關的詞彙，單字詞的詞義往往在排列組合後會產生與原來不相同的情況，因此會影響到分類時的準確度。

Li et al. [„04]等人利用詞連接的自然語言分析方法，將詵詞風格分為豪放與婉約兩種風格。他將詞彙分為柔和、中性、強烈三個字集，再利用詞彙之間的連接關係建構最佳搜尋樹，來決定句子中的中弖語和詞彙所構成的句子的語意傾向，

並利用句子的語意來推導出整個詵詞的風格。但此方法在使用之前需先建立龐大的語彙間的語意架構資料庫，對於古典詵詞常會出現現付漢語的非常用字而言，

顯得相當的不容易，且此方法的評分方式如同意見探勘(opinion mining)的二仍傾向評分法，只能做二仍的分類，對於多樣化的詵詞分類法時，此方法即無法使用。

我們將詵文分類的相關研究整理如表 4：

英文中文

SVM Exponential Gradient

在文檔中近體詩自動分類研究 (頁 16-20)

第二章 相關研究

2.3 詵作分類

第二章相關研究