• 沒有找到結果。

結論

在文檔中 近體詩自動分類研究 (頁 45-56)

本論文提出並且製作了一個近體詵的詵作分類系統,經過實驗數據的分析可 顯示,本系統能夠有效的對於使用者所輸入的詵作來做詵作的風格分類。本論文 主題從研究、設計到實作系統,其貢獻分別如下:

1. 建立 1080 首五言絕句的語料庫,在其中有 208 首具有人工標註。

2. 解決詵作中詞彙概念的標記歧義問題。

3. 根據近體詵的特性,提出詵作中的分類特徵,並利用特徵選取的方法來找出 對詵作有效的分類特徵。

4. 建置近體詵的分類系統,並使用五言絕句的語料庫來對系統加以測詴。

對於本論文未來的研究方向,有下列幾個方向:

1. 利用網路來對現有的辭典做詞彙擴充,建構詵詞的本體論資料庫。因現在我 們所使用的語料庫大部分所收錄的詞彙以白話文為主,對於文言文的詞彙其 收錄仍不足,故希望能有效地利用網路上的資源,如維基文庫或是相關的詵 詞資料庫,利用現有的辭典的架構將其詞彙加以擴充。

2. 可嘗詴其他不同的詵作分類特徵,如詵文中的詞性組合,或是加強現有的分 類特徵,如詵題是否也可加入切詞器來讓詵題做為特徵的結果更為準確,或 是共同出現概念可經由資料探勘的方式來尋找其關聯性。

3. 除了支持向量機外,還可使用其他的分類模型來進行詵作分類,比較其分類

4. 此分類系統可經由修改後應用於如五言律詵、七言絕句等其他不同的近體詵 格式,藉由對不同格式韻文的研究可比較其結果,並分析不同的分類特徵對 於不同格式的影響。

參考文獻

[1] Anna Korhonen, Yuval Krymolowski, Nigel Collier (2006), “Automatic Classification of Verbs in Biomedical Texts.” In Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, Sydney, Australia, pp.

345-352.

[2] Canasai Kruengkrai, Kiyotaka Uchimoto, Jun‟ichi Kazama,YiouWang, Kentaro Torisawa, Hitoshi Isahara (2009), “An Error-Driven Word-Character Hybrid Model for Joint Chinese Word Segmentation and POS Tagging.” In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th

International Joint Conference on Natural Language Processing of the AFNLP, Suntec, Singapore, pp. 513-521.

[3] Catherine Plaisant, James Rose (2006), “Exploring erotics in Emily Dickinson's correspondence with text mining and visual interfaces.”Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries, Chapel Hill, NC, USA, pp.

141-150.

[4] Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines (2001). Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm [5] Corinna Cortes and Vladimir Vapnik (1995), "Support-Vector Networks", Machine

Learning, Vol. 20, pp. 273-297.

[6] Gerard Escudero and Lluís Màrquez and German Rigau (2004),“An Empirical Study of the Domain Dependence of Supervised Word Sense Disambiguation

Systems.”Joint SIGDAT Conference on Empirical Methods in NLP and Very Large Corpor, Hong Kong.

[7] Huan Liu and Rudy Setiono(1995), “Chi2: Feature selection and discretization of numeric attributes.” In Proceedings of the Seventh International Conference on Tools with Artificial Intelligence, Washington, DA, USA, pp.388-391.

[8] Ian Niles and Adam Pease(2003), “Linking Lexicons and Ontologies: Mapping WordNet to the Suggested Upper Merged Ontology”, In Proceedings of the 2003 International Conference on Information and Knowledge Engineering, Las Vegas, p.p. 23-26

[9] Jyrki Kivinen amd Manfred K. Warmuth (1995),“Additive versus exponentiated gradient updates for linear prediction”, Proceedings of the twenty-seventh annual ACM symposium on Theory of computing, Las Vegas, Nevada, United States, pp.

209-218.

[10] Keh-Jiann Chen, Shu-Ling Huang, Yueh-Yin Shih, Yi-Jun Chen(2005),

“Extended-HowNet: A Representational Framework for Concepts” , In

Proceedings of IJCNLP-05 Workshop on Lexical Semantic, Jeju Island, South Korea, p.p 1-6.

[11] Le Cuong Anh, Shimazu Akira. (2004), “High WSD Accuracy Using Naïve Bayesian Classifier with Rich Features”. PACLIC 18, Waseda University, Tokyo, pp. 105-113.

[12] Liang-Yan Li, Zhong-Shi He, Yong Yi (2004), “Poetry stylistic analysis technique based on term connections.”, In Proceedings of the Third International Conference on Machine Learning and Cybernetics, Shanghai, China, vol.5, pp. 2713- 2718.

[13] Michael Gamon (2004), “Linguistic correlates of style: authorship classification with deep linguistic analysis features”, The 20th International Conference on

[14] Moshe Koppel, Shlomo Argamon, and Anat R. Shimoni (2003),“Automatically Categorizing Written Texts by Author Gender.”Literary and Linguistic Computing, Volume 17, Number 2, pp 401-412.

[15] Oi Yee Kwong, Benjamin K. Tsou (2005), “Data Homogeneity and Semantic Role Tagging in Chinese.” In Proceedings of the ACL-SIGLEX Workshop on Deep Lexical Acquisition, Ann Arbor, Michigan, pp. 1-9.

[16] Roberto Navigli (2006), “Consistent Validation of Manual and Automatic Sense Annotations with the Aid of Semantic Graphs.” Association for Computational Linguistics, Vol. 32, No.2, pp. 273-281.

[17] Xiaojun Wan (2009), “Co-Training for Cross-Lingual Sentiment Classification.” In Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, Suntec, Singapore, pp. 235–243.

[18] Yang, Y., Pedersen J.P (1997), “A Comparative Study on Feature Selection in Text Categorization”. Proceedings of the Fourteenth International Conference on Machine Learning, Nashville, TN, USA , pp. 412-420.

[19] Yee Seng Chan, Hwee Tou Ng (2007), “Domain Adaptation with Active Learning for Word Sense Disambiguation.” In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, Prague, Czech Republic, pp. 49-56.

[20] Yong Yi, Zhong-Shi He, Liang-Yan Li, Tian Yu, Elaine Yi (2005), “Advanced studies on traditional Chinese Poetry style identification.” In Proceedings of the Fourth International Conference on Machine Learning and Cybernetics,

Guangzhou, China, vol.5, pp. 2936- 2939.

[21] 王廼仁,“唐詵之詵風探勘”,國立交通大學,碩士論文,2006 年 6 月。

[22] 古遠清,詵歌分類學,高雄:復文圖書出版社,1991 年 9 月。

[23] 朱我芯,「深秋猿鳥來弖上,夜靜松杉到眼前」─華文詵歌情境再現,第五屆 全球華文網路教育國際研討會,台北,2007 年 6 月。

[24] 李支舜,高考古詵詞鑑賞與應考指導,上海辭書出版社,2007 年 7 月。

[25] 柯淑津,黃居仁,洪嘉馡,劉詵音,簡卉伶,蘇依莉,“中文詞義全文標記 語料庫之設計與雛形製作”,第十九屆自然語言與語音處理研討會,2007 年 9 月,台灣大學,台灣。

[26] 梅家駒等編著,同義詞詞林,臺灣東華書局股份有限公司,1997 年 3 月。

[27] 許清雲,部編大學用書-近體詵創作理論,臺北市:洪葉文化,1997。

[28] 許嘉妮,“詞風與情境判斷專家系統”,國立交通大學,碩士論文,2007 年 6 月。

[29] 陳紹宜,“建構一個中文對聯創作的知識評價架構”,國立交通大學,碩士 論文,2010 年 6 月。

[30] 楊昌樺,陳信希,“以部落格文本進行情緒分類之研究”,第十八屆自然語 言與語音處理研討會,新竹,台灣,2006 年 9 月。

[31] 羅鳳珠,“植基於中國詵詞語言特性所建構之語意概念分類體系研究”,第 九屆海峽兩岸圖書資訊學學術研討會,武漢大學,2008 年 7 月 3-6 日。

[32] 龔霽芃,唐詵分類鑑賞,江西人民出版社,2003 年 12 月 1 日。

附錄

(Bi18,昆蟲) (Dm04,商店) (Br12,飲料、茶、酒、乳酪) (Ih03,擴大、伸長、

收縮) (Hg19,繪畫、製圖、雕刻) 詵題雙字詞概念

2 > 5 , Feature_Class_Ratio ≥ 0.5

(Dm04,商店) (Bh02,花、花卉) (Bi11,禽獸、禽) (Bk13,骨骼、指甲、甲殼、

鱗) (Hh04,唱歌、跳舞、演奏)

(Di14,風俗、習慣、風氣) (Fa06,拿、撮、揪、挎、夾) (Je05,給予、寄予、

加以、冠以) (Bp10,籃、簍、籠、籮筐、簸箕) (Ed14,固定、靈活、生動、平 板) (Hc14,建議、討論、決定、制訂)

詵文共同出現雙概念組

2 > 13.1 , Feature_Class_Ratio ≥ 0.5

(Ca24,節氣 ,Eb01,多、少、繁多、稀少) (Ab02,老人、成年人、老小 ,Bn01, 建築、房屋) (Di14,風俗、習慣、風氣 ,Ca29,傍晚、晚上、夜間、晝夜) 詵文詞彙概念和其所在位置

2 > 6.5 , Feature_Class_Ratio ≥ 0.4

(Di14,風俗、習慣、風氣 ,2) (Db10,關係、友誼、緣分 ,4) (Gb08,了解、認

特徵選取結果-山水田園

(Be05,海洋、江河、溪澗) (Hg11,揮筆、記錄、留言、附筆) (Ie13,實行、舉 行) (Bf02,風、雲) (Hd26,打獵、捕魚)

詵題雙字詞概念

2 > 1.5 , Feature_Class_Ratio ≥ 0.5

(Da24,氣候、收成) (Bn21,塔、亭、閣、台) (Bh08,藥草) (Bn11,路、胡同、

橋) (Bf02,風、雲)

(Be04,山、坡) (Hj62,上來、下去) (Be05,海洋、江河、溪澗) (Bo22,船、筏 子、飛機) (Bh01,樹木、竹子)

詵文共同出現雙概念組

2 > 13.1 , Feature_Class_Ratio ≥ 0.5

(Be05,海洋、江河、溪澗 ,Bh02,花、花卉) (Bf02,風、雲 ,Be04,山、坡) (Aa01, 人、人民、眾人 ,Be05,海洋、江河、溪澗)

詵文詞彙概念和其所在位置

2 > 5 , Feature_Class_Ratio ≥ 0.4

(Be04,山、坡 ,1) (Hj62,上來、下去 ,3) (Be04,山、坡 ,2) (Be05,海洋、

江河、溪澗 ,1) (Be03,灘、岸 ,2)

特徵選取結果-情愛閨怨

特徵選取結果-贈別思友

(Hi26,贈送、贈答、捐獻) (Ie09,團聚、離別) (Aj01,朋友、恩人、仇人、對 手) (Je14,接受、忍受) (Hi11,寫信、匯款、郵寄、拍電報、打電話) 詵題雙字詞概念

2 > 1.5 , Feature_Class_Ratio ≥ 0.5

(Hi06,送別、告別) (Ae13,教師、學生) (Aa05,自己、別人、某人) (Aj01,朋 友、恩人、仇人、對手) (Af11,名人、隱士、小人物)

(Ie09,團聚、離別) (Aj01,朋友、恩人、仇人、對手) (Hi02,訪問、進見、探 望) (Cb15,本地、外地、家鄉) (Hi06,送別、告別)

詵文共同出現雙概念組

2 > 13.1 , Feature_Class_Ratio ≥ 0.5

(Hi02,訪問、進見、探望 ,Hf07,離開、返回) (Ie09,團聚、離別 ,Hi02,訪問、

進見、探望) (Be05,海洋、江河、溪澗 ,Hi06,送別、告別) 詵文詞彙概念和其所在位置

2 > 6 , Feature_Class_Ratio ≥ 0.4

(Cb15,本地、外地、家鄉 ,4) (Aj01,朋友、恩人、仇人、對手 ,2) (Hi02,訪 問、進見、探望 ,3) (Aj05,主人、客人、賓主 ,3) (Ie09,團聚、離別 ,1)

特徵選取結果-邊塞征戰

(Hd17,開山、墾荒、燒荒、種地) (Bp29,帳子、蓆子、簾子、帳幕) (Hj03,消 磨、度過、經歷) (Hj10,分家、過繼、承繼) (Hb11,侵略、併吞、騷擾) 詵題雙字詞概念

2 > 5 , Feature_Class_Ratio ≥ 0.5

(Hh06,溜冰、游泳、下棋) (Bn18,營房、堡壘、烽火台) (Ak02,俠客、勇士、

懦夫、懶漢) (Dh01,神、鬼、妖、魂、妖魔鬼怪) (Dk28,音樂、歌、曲)

(Ae10,軍官、將士、軍人、士兵) (Bn18,營房、堡壘、烽火台) (Bo29,弓、箭、

矛、盾、劍) (Di11,軍隊、戰爭) (Di09,政策、制度、所有制、體制) 詵文共同出現雙概念組

2 > 13.1 , Feature_Class_Ratio ≥ 0.5

(Bo29,弓、箭、矛、盾、劍 ,Fb01,走、跑) (Ae10,軍官、將士、軍人、士兵 ,Bo09,刀、剪、斧、刃) (Di11,軍隊、戰爭 ,Ka28,仍然、尚且)

詵文詞彙概念和其所在位置

2 > 10 , Feature_Class_Ratio ≥ 0.4

(Ae10,軍官、將士、軍人、士兵 ,2) (Di11,軍隊、戰爭 ,1) (Bo29,弓、箭、

矛、盾、劍 ,1) (Ak02,俠客、勇士、懦夫、懶漢 ,1) (Bn18,營房、堡壘、烽 火台 ,1)

特徵選取結果-社會民生

(Ca18,年) (Di22,責任、負擔) (Hh03,攝影、錄音、放映、廣播) (La04,打擾、

勞駕、抱歉) (Bk11,毛、髮) (Hm01,檢舉、控告、訴訟) 詵題雙字詞概念

2 > 1.5 , Feature_Class_Ratio ≥ 0.5

(Ca11,過去、近來) (Bn23,皇宮、祠堂、佛殿) (He13,積累、花費、浪費、節 省) (Ef01,太平、安定、動蕩、混亂) (Cb25,城市、集鎮、鄉村) (Bn22,墳墓、

墓穴、碑)

(Ca18,年) (De01,性格、品行、道德、作風) (Hi29,感謝、報答) (Ai01,鼻祖、

前人、今人、後人) (Da14,成就、功勞、過失、功過) 詵文共同出現雙概念組

2 > 13.1 , Feature_Class_Ratio ≥ 0.5

(Ca18,年 ,Ca19,四季、春、夏、秋、冬) (Dn04,基數、序數 ,Da14,成就、功 勞、過失、功過) (Ca18,年 ,Ga01,高興、悲傷、憂愁)

在文檔中 近體詩自動分類研究 (頁 45-56)

相關文件