國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
131
第五章 結論與未來展望
本節將總結研究成果,藉由觀察實驗結果,討論是否能夠有效達到實驗目的,
以及相關工具的優點和缺點,最後探討在詩歌對應的研究領域,未來可以再改良 或是增進的研究工作。
結論
本研究的目的是建構一套自動或半自動的詩歌對應系統,藉由詩歌的字面或 是詞彙的重複使用,在大量的語料比對中,找出可能的對應,可以節省人力比對 上所需要的時間,例如語句和語句比對的部分,傳統的人文研究需要博文熟記的 專業能力,更需要大量的時間才能找出對應的例子,或像是版本學、校勘學也需 要大量的比對工作,我們開發出的工具利用資訊快速的運算能力,能夠輔助人文 研究。
字面比對的部分以《詩經》、《楚辭》、《全唐詩》、《全宋詩》及《全宋詞》,
經典的詩歌作品為語料,透過比對,我們可以找到同語料,如同為《全唐詩》中 的對應,或是不同語料不同時空的對應,如《詩經》和《全唐詩》間的對應,並 依照作品或者語句的重複程度、改易字數等,記錄下多種特徵,可供後續人文研 究作為參考或關聯強度的篩選之用。目前的比對工具,仍需有字面相同的限制,
而在非字面的比對部分,則還不能做到。
本研究易嘗試了《全唐詩》、《全宋詩》及《全宋詞》的自動斷詞,以提供後 續的詩歌詞彙初步分析,以及詞彙語意分析之用,雖然精準度可能仍略遜於人工 斷詞,但面對大量詩歌語料時,或是遇上沒有編列大量人力預算的斷詞工作時,
本研究的斷詞工具能夠作為一種解決辦法。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
132
詩歌詞彙的初步分析,則幫助我們找到一些比較少作者使用的特色詞彙,也 能夠巨觀的了解不同詩人詞人共用詞彙的關係。我們也可以透過特色詞彙間的對 應關係,找出不同作者或作品可能相互學習的軌跡。然而此方法只能提供一個小 面向觀察詞彙,最終仍需要學者們檢視文本,並做更深入的研究或是詮釋。
使用 Word2Vec 工具的詞彙語意計算功能,我們發現了即使電腦在沒有字典 或是知識庫的支援之下,依然有機會以詩歌內容為線索,計算出不同詞彙語意的 相似程度,再使用分群的方法,能夠找出一些語意相似的群集。但由於詩歌比起 散文而言是比較精簡的體裁,再加上本研究的詩歌多是古文,也有許多作品在流 傳的過程中亡佚,所以語料的數量是使用這個工具所要考慮的問題,以目前本實 驗的語料,《全唐詩》、《全宋詩》及《全宋詞》而言,只有比較高的詞頻可以得 到比較好的訓練效果,所以最終我們所取得的詞彙分群沒有辦法非常精確,進而 影響到實驗結果。
本研究的工具開發著重於找出中國古代詩歌的對應,在字面比對以及詩歌斷 詞的研究,我們取得比較好的成果,而在詞彙語意的計算功能,若需要比較精確 的結果,需要較多的人力介入,或是補入更多的語料,像是如全台詩,或是中國 各代其他詩歌,如:元曲。
未來展望
本研究所開發的工具雖然可以提供許多的語料對應資料,但後續的研究議題,
例如有許多對應可能的成因,可能是重複收錄、相互學習、甚至是襲用,或是借 鑒所用的技巧,則仍需要人文學者的專業判斷。而用比對結果中,可以所找出的 一些特別的句法,或是用字組合、順序等等,值得我們接續著做更深入的研究。
關於詩歌斷詞工具,我們也嘗試應用在部分全台詩的斷詞上,未來也希望能 夠評估相關的斷詞效果。另外,關於在詞彙語意計算工具中,詩歌語料可能不足,
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
133
造成詞彙模型計算上所面臨到精準度的問題,希望能夠再加入其他的詩歌語料,
增強這方面工具的效能。
詞彙語意計算的部分,除了加大語料的數量,讓最終的實驗結果可以更接近 人類的語感外,另外也可以嘗試除了 Word2Vec 外的其他方法,如 topic model 中的 LDA (Latent Dirichlet allocation)或 LSI (Latent semantic analysis)的方法,或 許可以讓結果更精準,或是找出不同詞彙群集,供使用者依照不同的應用,選擇 最適合的方法。或許在詞彙語意計算能夠精準的狀況下,能夠接著做出詩歌語意 的比對工具。
以上工具,希望未來能夠提供易於使用的介面,提供相關領域的人文學者作 為研究之用,並不吝提供意見及想法,以利工具優化調整以及後續相關的工具開 發。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
134
參考文獻
[1] Bol, Peter K. (2016). The Humanities and the Digital Humanities in Higher Education, Proceedings of the 2016 International Conference on Digital
Humanities, 5‒11.
[2] Bouma, Gerlof (2009). Normalized (pointwise) mutual information in collocation extraction, Proceedings of German Society for Computational
Linguistics and Language Technology Conference, 31‒40.
[3] Chen, Chien-Liang, Liu, Chao-Lin, Chang, Yuan-Chen, and Tsai, Hsiang-Ping (2011). Exploring the relationships between annual earnings and subjective expressions in US financial statements, Proceedings of the 8th IEEE
International Conference on e-Business Engineering, 1‒8.
[4] Gerard, Salton, Wong, Anita, and Yang, Chung-Shu (1975). A vector space model for automatic indexing, Communications of the ACM, 18(11), 613‒620.
[5] Hall, Patrick A.V. and Dowling, Geoff R. (1980). Approximate string matching, ACM Computing Surveys, 12(4), 381‒403.
[6] Huang, Chu-Ren, Lo, Feng-ju, Chang, Ru-Yng, and Chang, Sueming (2004).
Sinica BOW and 300 Tang poems: An overview of a bilingual ontological wordnet and its application to a small ontology of Tang poetry, presented at the Workshop on Possibilities of a Knowledgebase of Tang Civilization, Institute for Research in Humanities.
[7] Kaplan, David M. and Blei, David M. (2007). A computational approach to style in American poetry, Proceedings of the 7th IEEE International Conference
on Data Mining, 553‒558.
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
135
[8] Le, Quoc and Mikolov, Tomas (2014). Distributed representations of sentences and documents, Proceedings of the 31st International Conference on
Machine Learning, 1188‒1196.
[9] Liu, Chao-Lin (2016). Quantitative analyses of Chinese poetry of Tang and Song dynasties: Using changing colors and innovative terms as examples,
Proceedings of the 2016 International Conference on Digital Humanities,
260‒262.[10] Liu, Chao-Lin, Jin, Guantao, Liu, Qingfeng, Chiu, Wei-Yun, and Yu, Yih-Soong (2011). Some chances and challenges in applying language technologies to historical studies in Chinese, Proceedings of the Association for
Computational Linguistics and Chinese Language, 27‒46.
[11] Liu, Chao-Lin, Wang, Hongsu, Hsu, Chu-Ting, Cheng, Wen-Huei, and Chiu, Wei-Yun (2015). Color aesthetics and social networks in complete Tang poems:
Explorations and discoveries, Proceedings of the 29th Pacific Asia Conference
on Language, Information and Computation, 132‒141.
[12] Liu, Chao-Lin and Luo, Kuo-Feng (2016). Tracking words in Chinese poetry of Tang and Song dynasties with the China biographical database,
Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities, The 26th International Conference on Computational Linguistics, 172‒180.
[13] Manning, Christopher D. and Schütze, Hinrich (2009). Boolean retrieval,
Introduction to Information Retrieval, 1‒18, Cambridge University Press.
[14] Manning, Christopher D. and Schütze, Hinrich (1999). Rationalist and empiricist approaches to language, Foundations of Statistical Natural Language
Processing, 4-7, MIT press.
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
136
[15] Niles, Ian and Pease, Adam (2003). Linking lexicons and ontologies:
mapping WordNet to the suggested upper merged ontology, Proceedings of the
IEEE International Conference on Information and Knowledge Engineering,
412‒416.[16] Schich, Maximilian, Song, Chaoming, Ahn, Yong-Yeol, Mirsky, Alexander, Martino, Mauro, Barabási, Albert-László, and Helbing, Dirk (2014). A network framework of cultural history, Science, 345(6196), 558‒562.
[17] Wang, Xiaoguang and Inaba, Mitsuyuki (2009). Analyzing structures and evolution of digital humanities based on correspondence analysis and co-word analysis, Art Research, 123‒134.
[18] Waterman, Michael S. and Smith, Temple F. (1981). Identification of common molecular subsequences, Journal of Molecular Biology, 147(1), 195‒197.
[19] Yong, Yi, He, Zhong-Shi, Li, Liang-Yan, Yu, Tian, and Yi, Elaine (2005).
Advanced studies on traditional Chinese poetry style identification, Proceedings
of the 2005 IEEE International Conference on Machine Learning and Cybernetics, 6, 3830‒3833.
[20] 王兆鵬 (2005)。《古今詞統》誤收誤題唐五代詞考辨。唐宋詞史的還 原與建構,267‒281,湖北人民出版社。
[21] 王廼仁 (2006)。唐詩之詩風探勘。國立交通大學理學院網路學習學程 碩士論文。
[22] 王偉勇 (2003)。賀鑄《東山詞》借鑒唐詩之探析──兩宋詞人借鑒唐 詩之奇葩。宋詞與唐詩之對應研究,187‒311,文史哲出版社。
[23] 朱自力 (1995)。周邦彥融詩入詞之特色。中華學苑,45,305-317。
[24] 吳丈蜀 (2000)。詞的起源。詞學概說,1‒15,中華書局。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
137
[25] 吳榮富 (2002)。李商隱詩用典析疑。國立成功大學中國文學系博士論 文。
[26] 李威延 (2008)。以詩詞本體論與類神經網路為基礎之唐詩推薦系統。
國立中央大學資訊工程所碩士論文,2008。
[27] 李劍亮 (1999)。詞為歌妓應歌而作。唐宋詞與唐宋歌妓制度, 92‒134,
杭州大學出版社。
[28] 林書佑(2016)。中文文本探勘工具:主題分析、詞組關聯強度、相關 句擷取。國立政治大學資訊科學系碩士論文。
[29] 金觀濤、邱偉雲及劉昭麟 (2012)。「共現」詞頻分析及其運用──以「華 人」觀念起源為例。數位人文要義:尋找類型與軌跡,141‒170,國立臺灣 大學出版中心。
[30] 俞士汶及胡俊峰 (2003)。唐宋詩之詞匯自動分析及應用。語言暨語言 學,4(3),631‒647。
[31] 孫琴安(2003)。詩歌是唐代君臣郊遊和政治生活中的一個重要內容。
唐詩與政治,18‒31,上海人民出版社,2003。
[32] 高旖璐(2009)。《全唐詩》中「禽鳥入詩」之硏究。國立彰化師範大學 國文研究所博士論文。
[33] 許嘉妮(2007)。詞風與情境判斷專家系統。國立交通大學資訊學院資 訊學程碩士論文。
[34] 許薰尹(2006)。宋詞斷詞與本體論之建置。國立交通大學理學院科技 與數位學習學程碩士論文。
[35] 陳金現(2010)。宋詩的「互文性」概念。宋詩與白居易的互文性研究,
27‒45,文津出版社有限公司。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
138
[36] 彭維謙、劉士綱、杜協昌、翁稷安及項潔(2014)。自動擷取中文典籍 中人名之嘗試:以 PMI(pointwise mutual information)斷詞於《資治通鑑》
的應用為例。數位人文研究與技藝,139‒163,國立臺灣大學出版中心。
[37] 項潔(2015)。電子文獻的再脈絡化。第六屆數位典藏與數位人文國際 研討會論文集,15‒16。
[38] 項潔及翁稷安(2012)。多重脈絡—數位檔案之問題與挑戰。數位人文 要義:尋找類型與軌跡,25‒59,國立臺灣大學出版中心。
[39] 項潔及塗豐恩(2011)。導論―什麼是數位人文。從保存到創造:開啟 數位人文研究,9‒28,國立臺灣大學出版中心。
[40] 楊哲青、蘇俊銘、曾憲雄及羅鳳珠(2004)。詩作風格知識庫之研究-
以蘇軾近體詩為例。語言,文學與資訊,263‒295。
[41] 裴普賢(1977)。集句詩研究續集。書目季刊,11(2),25‒72。
[42] 劉岩斌、俞士汶及孫欽善 (1997)。古詩詞研究的電腦支援環境的實現。
中文資訊學報,11(1),21‒36。
[43] 劉昭麟、金觀濤、劉青峰、邱偉雲及姚育松(2012)。自然語言處理技 術於中文史學文獻分析之初步應用。數位人文要義:尋找類型與軌跡,61‒82,
國立臺灣大學出版中心。
[44] 劉昭麟、張淳甯、許築婷、鄭文惠、王宏甦及邱偉雲(2015)。《全唐詩》
的分析、探勘與應用-風格、對仗、社會網路與對聯。第廿七屆自然語言與 語音處理研討會論文集,43‒57。
[45] 劉錚雲(2015)。我們如何建全文資料庫:中研院史語所漢籍電子文獻 資料庫的回顧與展望。第六屆數位典藏與數位人文國際研討會論文集,
11‒12。
[46] 蔣紹愚(2003)。李白杜甫詩中的"月"和"風"-電腦如何用於古典詩詞 鑒賞。第一屆文學與資訊科技國際會議論文集。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
139
[47] 蔣紹愚(2008)。唐詩的句法。唐詩語言研究,161‒236,語文出版社。
[48] 鄭永曉(2012)。情感計算應用於古典詩詞研究芻議。科研資訊化技術 與應用,3(4),59‒66。
[49] 龍榆生(1978)。唐宋詞格律,上海古籍出版社。 2017 年 2 月 15 日,
取自
http://longyusheng.org/cipai/。
[50] 穗志方、俞士汶及羅鳳珠(1998)。宋代名家詩選自動注音研究及系統 實現。中文資訊學報,12(2),44‒53。
[51] 謝銘洋(2014)。我國著作權法中「創作」概念相關判決之研究。國際 比較下我國著作權法之總檢討,57‒89,中央研究院法律學研究所出版。
[52] 鍾嘉軒(2013)。類書知識分類變化之自動分析與討論以《藝文類聚》
與《太平御覽》為例。國立台灣大學資訊工程所碩士論文。
[53] 羅鳳珠(2011)。以語言知識庫爲基礎的智慧型作詩填詞輔助系統。教 學科技與媒體, 95,35‒42。
[54] 羅鳳珠 (2005)。詩詞語言詞彙切分與語意分類標記之系統設計與應用。
第四屆數位典藏技術研討會論文集。
[55] 羅鳳珠、李元萍及曹偉政(1999)。中國古代詩詞格律自動檢索與教學 系統。中文資訊學報,12(1),35‒42。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
140
附錄 A
作品名稱 A 作品名稱 B
作品名稱 A 作品名稱 B