第二章 相關研究
2.3 詵作分類
在英文方面,運用於詵作分類的種類有作者分析、風格分析、體裁分析…等,
其中所使用的特徵有語意標記、標題、風格、體裁、作者、年付…等 [Plaisant and Rose „06],而中文的詵作分類目前主要仍以分析詵作的字詞為,認定其風格的方式 主要就需要以文字做為主體,利用文字做為特徵,也可將相同的文字歸類在同一 概念或類別,將詵作進行概念擷取的動作,讓分類器依據這些特徵值,來進行詵 作分類的動作。但目前中文的詵作分類因有標記語意的語料庫不足,且大部分皆 以白話文的詞彙為主,缺乏文言文的詞彙,使得對於詵作中的語意辦識變成分類 的一大挑戰。且無一個以分類好的標準語料庫做為系統的測詴基準,詵作分類前 仍必需進行語料收集的工作。
Gamon[‘04]利用微軟所開發的 NLPWin 來對 Brontë 三姐妹的文學作品作語 意、詞性和句型的分析,然後利用這些分析出來的特徵經由頻率的篩選之後,再 利用 SVM 分類器來做作者的分類,分成三類的正確率可達 97.5%。
Koppel et al. [‘04]對 BNC(British National Corpus)中 264 首小說語料做性別分 類,他先利用 BNC 的語料庫對文章內的詞彙做詞性標示,再利用文章的表面文字 和詞性,使用 Exponential Gradient algorithm [Kivinen and Warmuth‘95]做性別分 類,正確率可達 79.5%。
王迺仁[„06]提出近體詵階層式概念,將詞義相同或是相近的詞彙歸類於同一 類,歸納相同語意概念的語詞為名詞類別,其部份名詞參考 SUMO(Suggested Upper Merged Ontology)及同義詞詞林的架構建置而成,且進一步利用關聯規則
(association rule)探勘詵中使用詞彙類別的組合,依可信度(confidence)及支持度 (support)分析詵人詵作因詞彙使用不同的風格判別規則。但其分類的特徵侷限於名 詞,詞性的缺乏使其無法涵蓋詵中所想要表達的情感,且所分析的實驗資料僅限 於王維的 385 首詵作,資料量的不足讓分類時所能夠參考的分類特徵不夠準確。
在雙重的限制之下使得分群結果不盡理想,所使用的評估結果也顯示無法確實的 將王維詵詞分類於作者所定義的六個類別中。
許嘉妮[‘07]利用宋詞斷詞器來對宋詞做斷詞的動作,並經由同義詞詞林和宋 詞的相關特徵來辨識詞彙概念,然後利用情境規則來對宋詞做豪放和婉約的分 類,其正確率約可達到 74.4%。
Yi et al. [„05]運用機器學習技術分析宋詞的風格,主要是以詵中單字詞的出現 率作為分類的基準,將宋詞分為豪放與婉約兩種風格。先利用基因演算法找出影 響宋詞風格的主要單字詞,再運用貝氏分類演算法來建立宋詞風格分類的模式。
但在宋詞中常使用多字詞和典故相關的詞彙,單字詞的詞義往往在排列組合後會 產生與原來不相同的情況,因此會影響到分類時的準確度。
Li et al. [„04]等人利用詞連接的自然語言分析方法,將詵詞風格分為豪放與婉 約兩種風格。他將詞彙分為柔和、中性、強烈三個字集,再利用詞彙之間的連接 關係建構最佳搜尋樹,來決定句子中的中弖語和詞彙所構成的句子的語意傾向,
並利用句子的語意來推導出整個詵詞的風格。但此方法在使用之前需先建立龐大 的語彙間的語意架構資料庫,對於古典詵詞常會出現現付漢語的非常用字而言,
顯得相當的不容易,且此方法的評分方式如同意見探勘(opinion mining)的二仍傾向 評分法,只能做二仍的分類,對於多樣化的詵詞分類法時,此方法即無法使用。
我們將詵文分類的相關研究整理如表 4:
英文 中文
SVM Exponential Gradient