• 沒有找到結果。

中國古典詩歌對應探勘及詞彙分析工具 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "中國古典詩歌對應探勘及詞彙分析工具 - 政大學術集成"

Copied!
164
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University. 碩士論文 Master’s Thesis. 立. 政 治 大. ‧ 國. 學. 中國古典詩歌對應探勘及詞彙分析工具. ‧. Tools for Pattern Comparison and Word Analysis of. y. sit. io. n. al. er. Nat. Chinese Classical Poetry. Ch. engchi. i n U. v. 研 究 生:黃植琨 指導教授:劉昭麟. 中華民國一百零六年七月 July 2017.

(2) 中國古典詩歌對應探勘及詞彙分析工具 Tools for Pattern Comparison and Word Analysis of Chinese Classical Poetry. 研 究 生:黃植琨. Student:Zhi-Kun Huang. 指導教授:劉昭麟. Advisor:Chao-Lin Liu. 國立政治大學. 學. ‧ 國. 立. 政 治 大 資訊科學系. Nat. y. ‧. 碩士論文. io. sit. A Thesis. a. er. submitted to Department of Computer Science. n. v l Chengchi University National ni Ch. U. e n gofc the h i requirements In partial fulfillment for the degree of Master In Computer Science 中華民國一百零六年七月 July 2017.

(3) 致謝 這本論文終於完成了,想想一路走來,也曾前途迷茫,也曾忐忑不安,甚至 一度想要放棄,如今終於柳暗花明,真是要感謝許多人。 首先感謝指導教授劉昭麟老師,在老師的帶領之下,逐步的完成了論文。老 師所帶領的 MIG 實驗室,改變了學生很多,老師做研究嚴謹的態度,一開始可 能讓學生倍感壓力,但是後來發現,老師的治學理念是用更高的標準在要求自己, 是 MIG 實驗室學生們的榜樣,非常感謝老師讓學生在這段時間有所成長。. 政 治 大 時給予學生許多寶貴的意見,而且在口試之後論文修改的期間,也持續和學生有 立. 要特別感謝三位口試委員,劉吉軒教授、沈錳坤教授、周亞民副教授在口試. 信件上的討論,而且更鼓勵學生,希望學生的論文可以更好,讓學生學到了很多,. ‧ 國. 學. 也讓論文能夠更完整及豐富。關於討論的內容紀錄於附錄 B。. ‧. 另外,學生在研究上遇到問題時,也曾經多次請教廖文宏教授、鄭文惠教授. y. sit. io. er. 導。. Nat. 和邱偉雲老師,老師們總是很熱心的提供想法及建議,非常感謝三位老師的指. 還要感謝 MIG 實驗室的各位同學、學長及學弟,謝謝建良、孫暐、柏誠學. al. n. v i n 長在研究上提供建議及幫助,謝謝同一屆的同學,聖傑、書佑、致凱能一起在學 Ch engchi U. 習上成長,一同邁向畢業之路,謝謝國峯、育增、子皓、張逸、冠群學弟陪伴我 度過碩士班最後的時光。 最後,要感謝爸爸、媽媽和弟弟,在最艱難的時候,感謝你們的支持與鼓勵, 你們是這本論文不可或缺的重要推手。 感恩,謝謝大家。. 黃植琨.

(4) 摘要 本研究以《詩經》 、 《楚辭》 、 《全唐詩》 、 《全宋詩》及《全宋詞》等,數位化 的文本資料作為基礎,運用資訊技術,建構分析文獻間借鑒的工具。工具採用字 串或詞彙比對的方式,使用者可以透過設定,過濾出可能的對應關係,特別是《全 唐詩》 、 《全宋詩》和《全宋詞》間字面上的類似之處。本研究參考人文領域的研 究,用以評估工具的效果。同時,我們也藉由資訊科學的角度,統計如唐詩和宋 代詩詞間的對應關係,亦透過如《詩經》和《詩經》 、 《楚辭》和《楚辭》 、 《全唐. 政 治 大 挖掘同一時代文人作品的對應。另外,本研究也嘗試中國古典詩歌的斷詞,以及 立. 詩》和《全唐詩》 、 《全宋詞》和《全宋詞》 、 《全宋詩》和《全宋詩》的對應關係,. 分析詩歌中詞彙的語意,未來也希望能夠透過語意進行詩歌比對。本研究雖不如. ‧ 國. 學. 傳統方法的人文研究深入,但提供從大量的語料中去蕪存菁,以及統計等相關服. n. al. er. io. sit. y. Nat. 研究。. ‧. 務,節省人文研究分析整理文本所需的時間,用數位的力量輔助人文領域的相關. Ch. engchi. i. i n U. v.

(5) Abstract. In this paper, we construct a tool to analyze literature with the information technology with the digital format text of Chinese classical poetry as the base, include Shijing, Chu Ci, Tang poetry and Song poetry. One of the procedure in our tool is to use string or vocabulary matching algorithm. The user can set through, and filter out the possible correspondence, especially all the “Tang poetry” and “Song poetry” sentences on the verbal similarity.. 政 治 大. In addition, this study also tries to design a Chinese classical poetry word segmenter,. 立. which can be operated automatically. The segmenter is based on the study of the. ‧ 國. 學. humanities domain research to evaluate the effectiveness of the tool. Furthermore, as an attempt, the other one of the procedure in our tool is the execution to analyze the. ‧. semantics of vocabulary in poetry.. y. Nat. io. sit. Although our system is not as deep as the traditional humanistic research, it reduces. n. al. er. the time needed to collate and analyze from the large amount of match corpus, and the. i n U. v. related service such as statistics, is another instance of the use of digital force to assist. Ch. in the humanities domain research.. engchi. ii.

(6) 目錄. 第一章 緒論.............................................................................................................. 1 研究背景與動機................................................................................ 1 研究目的............................................................................................ 4 主要貢獻............................................................................................ 5 論文架構............................................................................................ 6 第二章 文獻探討...................................................................................................... 7. 政 治 大. 數位人文相關研究............................................................................ 7. 立. 詩歌相關研究.................................................................................... 8. ‧ 國. 學. 對應相關研究.................................................................................. 10. ‧. 小結.................................................................................................. 12. 第三章 研究方法.................................................................................................... 13. y. Nat. io. sit. 實驗語料介紹.................................................................................. 15. n. al. er. 字面比對語料.................................................................................. 18. Ch. i n U. v. 3.2.1. 比對特徵介紹......................................................................... 20. 3.2.2. 作品單位比對......................................................................... 26. 3.2.3. 語句單位比對......................................................................... 29. 3.2.4. 比對統整及輸出..................................................................... 35. 3.2.5. 語句字面對應的判定............................................................. 40. 3.2.6. 作品字面對應的判定............................................................. 47. engchi. 詩歌詞彙自動擷取方法.................................................................. 50 詩歌詞彙的初步分析...................................................................... 57 計算詞彙語意.................................................................................. 60 iii.

(7) 3.5.1. Word2Vec ................................................................................. 60. 3.5.2. Word2Vec 的隨機性 ................................................................ 62. 第四章 實驗結果與評估........................................................................................ 65 比對實驗結果評估.......................................................................... 65 4.1.1. 語句比對結果分析................................................................. 65. 4.1.2. 作品比對結果分析................................................................. 96. 4.1.3. 語句對應和作品對應的結果分析....................................... 109. 斷詞實驗結果評估........................................................................ 112 4.2.1 4.2.2. 政 治 大 《全宋詞》和《全宋詩》斷詞實驗結果............................ 115 立. 詩歌詞彙擷取演算法與其他演算法之比較....................... 112. 詩歌詞彙初步分析結果................................................................ 118. ‧ 國. 學. 詞彙語意實驗結果評估................................................................ 125 Word2Vec ............................................................................... 125. 4.4.2. Word2Vec 的評估 .................................................................. 126. ‧. 4.4.1. y. Nat. er. io. sit. 第五章 結論與未來展望...................................................................................... 131 結論................................................................................................ 131. al. n. v i n 未來展望........................................................................................ 132 Ch engchi U. 參考文獻................................................................................................................ 134 附錄........................................................................................................................ 140. iv.

(8) 圖目錄 圖 3.1 系統架構圖...................................................................................... 14 圖 3.2 比對詩歌流程圖............................................................................. 19 圖 3.3 初步共用詞彙、共用字構詞彙演算法......................................... 23 圖 3.4 共用詞彙、共用字構詞彙演算法各步驟範例............................. 24 圖 3.5 初步共用詞彙、共用字構詞彙演算法各步驟範例..................... 25 圖 3.6 Ratcliff-Obershelp 演算法示例................................................ 32 圖 3.7 唐詩的斷詞演算法......................................................................... 53. 政 治 大 圖 3.9 iteration 設定值(1-10)對模型相似度的影響 ................................. 64 立 圖 3.8 宋詞的斷詞演算法......................................................................... 55. ‧ 國. 學. 圖 3.10 iteration 設定值(10-50)對模型相似度的影響 ............................. 64 圖 4.1《全唐詩》宋華〈蟬鳴一篇五章〉和《詩經》的對應............. 111. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. v. i n U. v.

(9) 表目錄 表 3.1 實驗語料的初步統計..................................................................... 16 表 3.2 語料格式範例................................................................................. 17 表 3.3 作品編號分辨詩歌範例.................................................................. 17 表 3.4 字串比對特徵以及簡要說明......................................................... 20 表 3.5〈西河·大石金陵〉和〈烏衣巷〉的作品比對狀況 ..................... 27 表 3.6〈西河·大石金陵〉和〈莫愁樂〉的作品比對狀況 ..................... 28 表 3.7 語句的比對程式輸出結果............................................................. 33. 政 治 大 表 3.9 周邦彥〈西河·大石金陵〉........................................................... 34 立 表 3.8 劉禹錫〈石頭城〉......................................................................... 34. ‧ 國. 學. 表 3.10〈石頭城〉和〈西河·大石金陵〉的語句比對狀況................... 34 表 3.11〈石頭城〉和〈西河·大石金陵〉的作品比對狀況 ................... 36. ‧. 表 3.12〈石頭城〉和〈西河·大石金陵〉的語句比對狀況................... 37. sit. y. Nat. 表 3.13 本研究定義之語句對應關係....................................................... 40. al. er. io. 表 3.14 「白髮」餘弦相似度前十名....................................................... 61. v. n. 表 4.1 語料的語句數量統計..................................................................... 66. Ch. engchi. i n U. 表 4.2《詩經》和《楚辭》的語句比對結果計數................................... 68 表 4.3《詩經》和《楚辭》相似的句法................................................... 69 表 4.4《詩經》和《全唐詩》的語句比對結果計數............................... 69 表 4.5《詩經》和《全宋詞》的語句比對結果計數............................... 74 表 4.6《詩經》和《全宋詩》的語句比對結果計數............................... 78 表 4.7《楚辭》和《全唐詩》的語句比對結果計數............................... 80 表 4.8《楚辭》和《全宋詞》的語句比對結果計數............................... 83 表 4.9《楚辭》和《全宋詩》的語句比對結果計數............................... 84 表 4.10《全唐詩》和《全宋詞》的語句比對結果計數.......................... 86 vi.

(10) 表 4.11《全唐詩》和《全宋詩》的語句比對結果計數 ......................... 90 表 4.12《全宋詞》和《全宋詩》的語句比對結果計數......................... 92 表 4.13《詩經》和《詩經》的語句比對結果計數................................. 94 表 4.14《楚辭》和《楚辭》的語句比對結果計數................................. 94 表 4.15《全唐詩》和《全唐詩》的語句比對結果計數......................... 95 表 4.16《全宋詞》和《全宋詞》的語句比對結果計數......................... 95 表 4.17 語料兩兩作品比對結果計數....................................................... 96 表 4.18 蘇軾〈臨江仙〉和 李白〈雜曲歌辭·夜坐吟〉的語句對應... 99. 政 治 大 表 4.20 蔣捷〈賀新郎〉和 杜甫〈佳人〉的語句對應....................... 101 立 表 4.19 賀鑄〈小梅花〉和 盧仝〈有所思〉的語句對應................... 100. 表 4.21 宋理宗〈賜答鄭寀〉和 白居易〈酬王十八見寄〉的語句對應. ‧ 國. 學. ............................................................................................................ 102. ‧. 表 4.22 楊萬里〈小池荷葉雨聲〉、〈昭君怨〉的語句對應................. 103. y. Nat. 表 4.23 語料自我作品對應結果計數..................................................... 103. er. io. sit. 表 4.24 王麗真女郎〈字字雙〉和 崔常侍〈官坡館聯句〉的語句對應 ............................................................................................................ 104. al. n. v i n 表 4.25 晏殊〈鵲踏枝〉和《全宋詞》張先〈蝶戀花〉的語句對應. 105 Ch engchi U 表 4.26 屈原〈湘夫人〉和〈湘君〉的語句對應................................. 106 表 4.27 馮延巳〈蝶戀花〉和 溫庭筠〈菩薩蠻〉的語句對應........... 108 表 4.28 馮延巳〈蝶戀花〉和〈採桑子〉的語句對應......................... 108 表 4.29《全唐詩》斷詞結果評估........................................................... 114 表 4.30《全唐詩》不同斷詞方法提供的詞彙數量............................... 114 表 4.31《全宋詞》斷詞結果評估........................................................... 116 表 4.32《全宋詞》不同斷詞方法提供的詞彙數量............................... 117 表 4.33《全宋詩》斷詞結果評估........................................................... 117 vii.

(11) 表 4.34《全唐詩》、《全宋詞》、《全宋詩》三種語料斷詞詞彙計數... 117 表 4.35 只有一人使用的詞彙................................................................. 119 表 4.36《全唐詩》高度集中於某些作者的詞彙................................... 120 表 4.37《全宋詞》高度集中於某些作者的詞彙................................... 121 表 4.38《全宋詩》高度集中於某些作者的詞彙................................... 122 表 4.39 k=500 的分群實驗結果 .............................................................. 127 表 4.40 k=1000 的分群實驗結果 ............................................................ 128 表 4.41 k=1500 的分群實驗結果 ............................................................ 129. 政 治 大. 表 4.42 k=2000 的分群實驗結果 ............................................................ 130. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. viii. i n U. v.

(12) 第一章 緒論. 研究背景與動機 在非資訊的各個領域中,數位科技的跨領域應用漸趨普遍,如:電腦輔助教 學、電腦答題、機器翻譯、檢索系統、數位內容、數位典藏、數位人文(digital humanities)等。今日,文化保存也借助數位科技的力量,這項技術被稱為數位典 藏。. 治 政 數位典藏的範疇廣闊,包含了建築、考古器物、書畫影音、漢籍…等等。舉 大 立 例來說,如:故宮博物院的典藏資料庫系統 ,其中橫跨了器物、書畫、先秦銅 1. ‧ 國. 學. 器紋飾、清代宮中檔奏摺及軍機處檔摺件全文影像等典藏資料,或如中國歷代人. ‧. 物傳記資料庫(China biographical database)2,收錄七世紀至十九世紀中國歷史 上重要人物的傳記資料,並持續擴增資料。中國歷史文獻的數位化,如中國哲學. y. Nat. io. sit. 書電子化計畫3,部分運用了 OCR(optical character recognition)技術,加速文獻. n. al. er. 數位化的速度,或如維基文庫4等等,皆是文獻數位化的成果,這些數位典藏成. Ch. i n U. v. 果除可供保存及複製流傳外,亦可作為研究、教育或產業應用之用。. engchi. 現今流通於網路上的數位典藏資源,即使屏除了付費以及限制使用的部分, 種類及數量依然十分驚人,如劉錚雲等人[45],說明了中研院史語所「漢籍電子 文獻資料庫」的建置規則、程式、目前五億餘字的典藏成果,以及漢籍資料庫每 年新增兩千萬字規模的成長速度,可以見得在目前能夠取得的數位化文獻眾多。. 1. 國立故宮博物院典藏資料庫,http://www.npm.gov.tw/zh-TW/Article.aspx?sNo=02000021. 2. 中國歷代人物傳記資料庫(CBDB) ,http://projects.iq.harvard.edu/chinesecbdb/home. 3. 中國哲學書電子化計畫,http://ctext.org/zh. 4. 維基文庫,https://zh.wikisource.org/zh-hant/ 1.

(13) 雖然網路上的數位資源眾多,但仍存在一些問題,因為目前網路上有許多文 本資料分散不同的企業或是機構之間,而且也不容易確認語料的來源,在 Peter Bol[1],所提出的 cyber infrastructure 的概念,希望能夠建立一個公開的數位人文 基礎架構和服務,使文本資料庫能夠互相建立連結,進而可以提供可驗證的公開 語料庫。 又即使有了這些豐富的數位資源,如果沒有後續的研究分析,那麼這些數位 化的資源也只能流於保存。然而,由於數位科技應用廣及各個不同領域的趨勢, 在人文研究方面也不例外,又在數位典藏多個面相和範疇中,發現某些典藏成果,. 政 治 大 或方法,分析及整理這些數位化的文獻。 立. 正是過去人文研究所使用的資料,因此有某些人文研究,也開始運用數位的力量. 何謂數位人文呢?統整第六屆數位典藏與數位人文國際研討會官方網站5上. ‧ 國. 學. 的定義:「人文研究藉助數位資源及資訊科技,尤其是傳統方法無從觀察到的現. y. Nat. 長歷史縱深,需數位科技彌補的人文研究。」. ‧. 象,或無法想像的議題,或難以進行的研究,如擴展更大地理範圍,或如延伸更. er. io. sit. 可見數位人文的範疇十分廣泛,其中的一個面向便是以少量的時間,幫人們 快速完成大量數位資源內容的分析工作,包含了一些單憑傳統人工方法難以進行,. al. n. v i n 或是重複枯燥的工作,如:詞頻統計、共現詞彙統計、時序分析、跨區域的地理 Ch engchi U. 空間分析。除此之外,數位人文還能幫助我們什麼?首先,先從數位人文的發展 淵源開始討論,綜觀數位人文之前,什麼樣的原因催使這一個新領域的誕生?相 較於前數位時代,現在的我們,所能接觸的資料量是前所未有的,再加上資訊技 術提供了處理大量資料的服務,而更大量資料的分析,或許能找到過去未能發現 的新意義。為了找到過去未能發現的新意義,數位分析的方法,也從過去「文學 與語言學計算」演變成今日的「數位人文」[17]。與「人文計算」(humanities computing)相比,「數位人文」特點有:「更低進入此領域的門檻、更開放、更 5. 第六屆數位典藏與數位人文國際研討會,http://www.dadh.digital.ntu.edu.tw/ 2.

(14) 龐大的資料、因為計算不能解答所有人文問題,所以不只強調計算[39]」,這幾 點可以說是數位人文的概念與精神。 舉網路檢索巨擘Google6為例,現在仍持續進行的計畫Google books7,目標 是將人類有史以來出版過的印刷書籍全數收入其中,並且上網,此計畫結合「數 位典藏」的概念及「資訊流通」的精神。此外,這個計畫下亦有Google books N-gram8,其目的是透過圖表,讓人們可以快速檢視哪些詞彙在歷史的時間軸上 最常被熱烈討論及關注。從觀察巨量資料,解決人們想知道的問題,這樣的研究 主軸符合「數位人文」的特點。. 政 治 大 各種分析、資料整合,研究者透過觀察到的現象,再進一步進行人文研究。數位 立. 近年來使用數位方法輔助人文研究已經越來越普及,數位技術對大量資料作. 人文最大的價值,在於從大量資料發掘出另一層新意義,或許可以彌補傳統人文. ‧ 國. 學. 研究上的不足,企圖用新的方法,解決過去難以解決的問題,或者更進一步發現. ‧. 新的現象、提出新的問題。. y. Nat. 數位人文的重要性日益增加,從過去數位技術僅僅是幫助人文學者從大量的. er. io. sit. 資料中檢索出有興趣的內容,後來發展到詞彙計數和統計,現在更發展到自動標 記系統,或是社會網絡分析(social network analysis)、地理資訊系統(geographic. al. n. v i n information systems)等等不同的研究方向,如:MARKUS 能自動標記出古典中文 Ch engchi U 9. 的人名、地名、官職名等,Maximilian Schich 等[16]運用地理資訊系統以及社會 網絡分析,分析人類出生、死亡及移居,研究地理上的文化中心網絡、文化吸引 力的動態及發現人類移動模式。未來數位人文也希望能以嚴謹的分析方法,提供. 研究者觀看資料蘊含意義的面向。現今人文研究紛紛看上數位人文的各種優勢,. 6. Google, https://www.google.com. 7. Google books, https://books.google.com/books. 8. Google Books N-gram, https://books.google.com/ngrams. 9. MARKUS, http://dh.chinese-empires.eu/beta/ 3.

(15) 在這種趨勢的推波助瀾下,根據不同內容及目的發展的數位人文工具,如雨後春 筍般出現。 在眾多數位典藏以及人文研究的成果中,我們選擇古典中文的詩歌作品為研 究範疇。主因是詩歌能夠取得公開的數位典藏資料,而且歷史上關於詩歌的人文 研究眾多,而且到了近代,詩歌仍是一個熱門的研究領域,如:羅鳳珠[53][55] 等,開發「倚聲填詞格律自動檢測索引教學系統」。或如高旖璐[32]有關《全唐 詩》中「禽鳥入詩」之硏究。或如李劍亮[27],根據唐宋詩詞探討唐朝、宋朝的 歌妓制度。或如吳榮富[25]研究唐詩人李商隱詩的用典,在各首詩中的詮釋問題。. 政 治 大 詩與政治》 ,考察了唐詩與唐代政治之間的關係。另外,再加上資訊技術興起後, 立. 又由於唐代政治人物,有些同時也是唐詩人,如:元稹。孫琴安[31]所著之《唐. 古典詩歌的數位人文研究、或是做為輔助教學的資訊系統,等等不少研究先例或. ‧ 國. 學. 是實際應用,能夠做為本研究的參考或是論述基礎。此外,關於詩歌的數位人文. ‧. 研究,還有許多值得我們探索的議題,或者是還有許多數位的研究方法,尚未應. y. Nat. 用在詩歌的研究上。. er. io. sit. 因此,本研究希望能夠開發一個針對古典中文詩歌的數位分析工具,降低傳 統人文研究的人力成本,並透過自動化的方法增進研究效率;另一方面,也嘗試. al. n. v i n 應用一些數位技術,初步判斷及篩選出有趣或者重要的資訊,從而進行不同面向 Ch engchi U 的議題探討。. 研究目的 本研究希望能針對中國古典詩歌類型的語料,藉由字面上的比對,設計一套 分析工具,探討詩歌之間的關聯性,而因為計算詞彙語意而衍生的詞彙擷取功能, 也進一步提供詩歌詞彙的初步分析,觀察詞彙的分佈狀態,幫助使用者找出潛在 的關鍵詞彙。最後統整不同時間、不同作者之間的關聯性。希望透過上述數位分 析方法以及結果,輔助相關領域的人文研究。 4.

(16) 說到中國文學上的詩詞藝術,不得不提到唐代和宋代,而其中宋詞更是「上 承唐詩,下啟元曲」的重要文學詩歌。而一般的學者認為,詩經是中國的詩歌文 、《全宋詩》及《全宋 學的濫觴[24]。目前本研究以《詩經》、《楚辭》、《全唐詩》 詞》語料為基礎,進行以下幾種層面的分析:一、「字面」為主的語料比對,其 中又分為「詩歌」 、 「語句」兩種比對單位,在比對之後判定結果是否具有對應的 可能,以及可能的對應類別;二、透過資訊科學的技術對詩歌進行詞彙擷取,並 初步分析詩歌的詞彙;三、計算詩歌詞彙的語意,希望作為未來開發詩歌語意比 對工具的依據。. 立. 主要貢獻. 政 治 大. ‧ 國. 學. 本研究主要提供一個詩歌語料的分析工具,目標著重於減少面對大量語料時, 人工細部比對語料的工作負擔,協助找出詩歌之間「字面」的對應。其中「字面」. ‧. 層次的比對,記錄了細部的比對特徵,能夠提供微觀的觀察面向,以及做為使用. Nat. sit. y. 者篩選特定比對結果的一種參考。本研究亦嘗試運用不同的方法,找出詩歌間可. n. al. er. io. 能的「詞彙」對應。. i n U. v. 關於字面比對方面,若是只單用作品為比對單位,在大量的比對資料中,會. Ch. engchi. 比較難發現兩作品只有少許的字相同,但是卻有語句對應的狀況,所以本研究 3.2 節提供了以語句為單位比對的功能,希望能夠在詩歌中找出更多可能的對應, 而且減少人工篩選所需的時間,在這裡所提到的語句,是指作品中每一個用標點 符號斷開的字串。另外,本研究也判斷兩作品字面相同的地方,是否將字的順序 改變了,作為字面對應的一種判斷特徵。 在 3.3 節的詩歌斷詞器設計上,結合了兩種前人的詞彙擷取研究,在不具有 已知的詞彙資料,不需要設定門檻值(threshold)的情況下,也能進行斷詞。初步 分析詩歌詞彙的共用,除了可以提供詞彙的分佈觀察外,也能夠在有許多未知詞 的語料中,提供一個面向,挑選出可能的關鍵詞彙。 5.

(17) 在 3.5 節詩歌詞彙語意的計算方法,透過多種不同的資訊技術,計算詞彙的 語意。這樣的計算方式,盡量避免已知詞彙資料的差異,造成計算結果的不同, 在未來如果能夠取得更多詩歌語料時,計算大量未知詞彙語意的能力,能夠為我 們找出彼此語意或是主題較相近的詞彙群集。 最後,分析篩選出不同的對應結果,估計對應結果中作者、語料之間的關聯 性;抑或透過這樣的觀察,分析不同作者潛在的風格;抑或將對應資料,供人文 研究探討。. 論文架構. 立. 政 治 大. 本論文第一章緒論,說明研究背景、動機、目的、貢獻,以及論文架構。第. ‧ 國. 學. 二章探討數位人文的相關研究,以及詩詞、詩歌的相關研究,包含各種數位人文 研究方法,如:詞彙擷取、比對、檢索、以及視覺化的作法。第三章說明使用的. ‧. 語料來源,以及本研究的系統架構,系統架構大致分為幾個部分,包括實驗語料. Nat. sit. y. 介紹、語料前處理、字面比對語料、詞彙自動擷取方法、詩歌詞彙的初步分析、. n. al. er. io. 計算詞彙語意。字面比對分析的部分,可細分為作品單位比對和語句單位比對;. i n U. v. 詞彙擷取方法,描述了斷詞器的設計;計算詞彙語意,則計算不同詞彙的語意的. Ch. engchi. 近似關係;最後,則彙整詩歌和詩歌間的比對結果,進而篩選出感興趣的部份進 行統計。第四章說明實驗結果,以及分析各種方法的性能。第五章為結論與未來 展望。. 6.

(18) 第二章 文獻探討. 本章分為兩部份進行討論,在 2.1 節回顧數位人文相關研究;2.2 節介紹有 關中國古典詩歌的相關研究,其中包含數位以及傳統人文的詩歌研究。. 數位人文相關研究 有了數位典藏的成果之後,如何有效分析數位化的資料成為一項重要的議題, 首先,要如何在大量的資料中去蕪存菁,找到真正有用的部分?. 治 政 網際網路的搜尋引擎,從蒐集網頁資料、建立索引,到提供查詢服務,使用 大 立 資訊科學領域的資訊檢索(information retrieval)[13]技術,這項技術也廣泛運用在 ‧ 國. 學. 獨立資料庫的檢索系統,資料庫當中也包含數位典藏資料庫。資訊檢索中特別是. ‧. 文字資訊的檢索,常使用關鍵詞(term)權重來評估文件的內容和查詢的相關度, TF-IDF(term frequency-inverse document frequency)是計算關鍵詞權重的其中一. y. Nat. io. sit. 種常見的方法。而要知道文檔和文檔的相關度,其中一種方法便是向量空間模型. n. al. er. (vector space model,簡稱 VSM)[4],是將文件表達成空間中的向量,再計算. Ch. i n U. v. 文件和文件的相關程度,而評價資訊系統的效能,則常用準確率(precision)和召 回率(recall)為評價指標。. engchi. 也因為自然語言處理(natural language processing)[14]的發展,能將人類的自 然語言轉化為更易於電腦理解處理的形式,文字資訊的數位人文研究,也因此較 為發展快速。 劉昭麟等[43]將自然語言處理技術應用於中文史學文獻分析,估算歷史文獻 和 研 究 議 題 的 相 關 程 度 , 而 金 觀 濤 等 [29] 運 用 共 現 詞 彙 分 析 (co-occurrence analysis)觀察「華人」觀念起源。陳建良等[3]觀察主觀性詞彙,並加入文章主題、 詞彙詞性、句法和語意等特徵,探索美國財務報表與盈餘的關聯性。林書佑利用 7.

(19) 潛在語意分析(latent semantic analysis)以及隱含狄利克雷分佈 (latent dirichlet allocation)作為主題分析的方法,或是詞彙的共現距離,運用統計的方法,計算 關鍵詞彙之間的關聯度,提供人文學者分析《人民日報》及《新青年》觀念的轉 變,以上皆有運用詞彙作為觀察語料的線索。 目前運用詞彙為基礎觀察文本的工具甚多,如:臺灣數位人文小小讚[10], 但是文言文的詞彙抽取仍然不容易,彭維謙等[36],嘗試以 PMI(pointwise mutual information)將《資治通鑑》斷詞,參考《資治通鑑大辭典》作為判斷依據,自動 擷取中文典籍中人名。然而詞彙僅僅展示了文本的其中一個面相,還有許多脈絡. 政 治 大 序列比對[5]是另一個觀察語料的線索,目前序列比對也廣泛應用在分子生 立. [37],隱藏在電子文獻之中。. 物領域[18],鍾嘉軒[52]用字串比對的方式,自動化比對《藝文類聚》與《太平. ‧ 國. 學. 禦覽》引書條目,使用最長共同子序列(longest common subsequence)演算法,分. ‧. 析不同文獻共同擁有的知識引文。此外,視覺化的呈現方法也是數位人文研究中. y. Nat. 熱門的研究領域,如鍾嘉軒[52]的研究,就設計了視覺化的觀察介面,呈現《藝. n. er. io. al. sit. 文類聚》與《太平禦覽》的引書結構。. 詩歌相關研究. Ch. engchi. i n U. v. 古典詩歌是中國文學藝術的精華,亦是古典韻文中的經典,其中有許多作品 仍傳頌至今。這些詩詞不僅在過去,是文人雅士、文學家的研究對象,加上數位 化的文字典藏成果、數位人文的研究方法,目前已有一部分古典詩歌的人文研究, 有數位技術的介入。有關中國古詩詞的數位人文研究,或是電腦輔助教學系統, 有以下這些實例: 電腦作為古文研究的輔助,如劉岩斌[42]等,在北京大學計算語言學研究所, 自 1993 年開始,就將電腦作為中國古代詩詞研究的輔助,研究開發的「中國古 代詩詞電腦輔助研究系統」。穗志方[50]等,則根據郭錫良先生的《漢字古音手 8.

(20) 冊》 、 《佩文詩韻》結合北京大學計算語言學研究所所開發的現代漢語注音字典, 作為判斷注音的依據,開發宋代名家詩選自動注音系統。 其中關於詞彙抽取以及斷詞研究面向,許薰尹[34]用規則式(rule-based) 的方 法嘗試進行宋詞斷詞,胡俊峰及俞士汶[30],以 PMI 以及自創的結合強度統計方 法提取唐宋詩中的詞彙,並基於詞彙觀察唐詩間的相似程度。 以前人的研究作為依據,進行電腦輔助教學,則如羅鳳珠[53][55]等,開發 「倚聲填詞格律自動檢測索引教學系統」,藉助電腦快速的檢索功能,並以龍榆 生先生的研究──《唐宋詞格律》[49] 作為格律、詞韻的依據,輔助使用者依照. 政 治 大 也提出運用詩詞句法規律,擷取詩詞中的詞彙。張如瑩及黃居仁[6]基於本體論 立. 詞牌、格律填詞,另也提供檢索例詞、例句的服務,作為填詞的參考。羅鳳珠[54]. (ontology)建置唐詩三百首知識本體。另一例則如楊哲青等[40]提出的近體詩專家. ‧ 國. 學. 系統,根據近體詩的詩譜格律,判斷使用者所創作的詩句,是否合乎近體詩的格. ‧. 律或規則。. y. Nat. 關於電腦作為詩風探勘的工具,蔣紹愚[42]等藉助北京大學中文系的「全唐. er. io. sit. 詩檢索系統」,研究唐代詩詞作品,篩選出李白和杜甫「月」及「風」的詩歌作 品,探究兩位唐詩人風格的差異。劉昭麟[11][9][44]等,更近一步以統計的方法. al. n. v i n 分析了唐詩中關於「月」及「風」的詞彙,另外也採取共現詞彙的分析方法,觀 Ch engchi U. 察中唐詩歌中的顏色詞彙,分析作者風格以及詩歌內容,而且也更進一步分析《全 唐詩》共現、搭配、對仗關係,發展出對聯系統。劉昭麟[12]等,也以唐代的交 往詩,探勘唐代文人的社會網絡,運用 CBDB 作者生卒年,將唐詩宋詞中的詞 彙進行不同作者的時序分析,也將唐詩宋詞以作品為單位進行比對,找出兩作品 間相似的狀況。 王廼仁[21]則擷取詩中名詞,先將名詞歸納成不同概念的階層式分類,並依 據詩作中名詞概念所屬之分類,將詩作分群,研究詩詞作品的名詞和詩詞風格的 關係,另外也分析詩人生平,如:年代、生活地區、任官、貶官,並運用 Apriori 9.

(21) 演算法,來探勘詩人平仄用韻慣用的關聯規則(association rule),以單一人物為研 究主軸,探究蘇軾的詩作慣用規則,以及潛在風格。 許嘉妮[33]運用專有名詞、領字、節奏等,將宋詞斷詞,再依據建議上層共 用知識本體 (suggested upper merged ontology,SUMO)[15]、 《同義詞詞林》等具 有階層化結構的知識庫,運用本體論(Ontology)的方法,將詞彙依據概念分類, 最後依照詞彙的分類判斷詞的風格以及情境。不過此研究的斷詞模組依然需要設 定門檻值(threshold),可能因為不同門檻值而有不同的斷詞結果。而李威延[26] 也運用本體論及分類演算法,建構一套唐詩推薦系統。. 政 治 大 風格,使用了基因演算法(genetic algorithm)篩選出十個主要影響宋詞風格的特徵 立 易勇[19]等則運用機器學習(machine learning)的技術,企圖分析宋詞作品的. 文字群集,風格分類則運用單純貝氏分類器(naive Bayes classifier) ,區分中國傳. ‧ 國. 學. 統詩詞的「豪放」 、 「婉約」兩種風格,但此研究以單字詞作為分析的基礎,放棄. ‧. 了詩詞中隱含多字詞的可能性。. y. Nat. 鄭永曉[48]則嘗試運用情感計算分析古典詩詞所表達情感的可能性。另外,. er. io. sit. 亦有以數位人文技術對非傳統詩歌的研究,如 Kaplan[7]等,以語意、寫作習慣 等等特徵,分析美國詩的風格。. n. al. Ch. engchi. i n U. v. 對應相關研究 而關於詩詞對應的人文研究方面,如王偉勇[22]《宋詞與唐詩之對應研究》 一書,則就人文學者的角度,分析唐詩和宋詞間的字面、句意、甚至是故實的對 應情況,進而研究宋詞借鑒唐詩的各項技巧以及實例,研究中提到有很多具有字 面相似、或是使用典故相同的狀況。過去有人文研究發現,宋代作品取材自唐詩, 或是借鑒唐詩創作經驗的狀況非常常見。 特別是有一些宋詞人喜歡取材唐詩,就像朱自力[23]的研究就發現,「融詩 入詞」是宋詞人周邦彥的特色,而其中又說道「張炎〈詞源〉云:『美成詞渾厚 10.

(22) 和雅,善於融化詩句。』又云:『採唐詩,融化如自己者,乃其所長。』」,所以 不論是現代的研究,或是宋代的詞論專書〈詞源〉,都肯定了宋詞作品借鑒前人 作品的可能性。亦或如裴普賢[41]的集句詩研究,發現在古代的一些作品,會將 前人的文句彙集成一首作品,這作品稱之為集句詩,而這樣的風氣至宋代漸漸盛 行,在加上王安石的提倡,成為宋代一種流行的詩體,甚至至元代依然流行。 陳金現[35]所著《宋詩與白居易的互文性研究》一書,研究白居易與宋詩的 互文,發現白居易是除了杜甫、韓愈之外,另一位深深影響宋詩的唐代詩人,舉 凡宋詩人周必大、王宇偁、魏了翁、陳師道等人,都受其影響,其中受到影響最. 政 治 大 完全不相同,但語意上類似的狀況。我們舉一個書上的例子,恰巧具有上面這兩 立 多的宋詩人是黃庭堅。此研究中互文的詩詞,除了字面相同的狀況外,亦有用字. 種狀況:「王維點化李嘉佑的一作品片段:『水田飛白鷺,夏木囀黃鸝』成:『漠. ‧ 國. 學. 漠水田飛白鷺,陰陰夏木囀黃鸝』,王維的此一作品片段,又被杜甫點化成『江. ‧. 天漠漠鳥飛去,風雨時時龍一吟』」。. y. Nat. 亦有何志華等人所著之《先秦兩漢典籍引〈詩經〉資料彙編》10,基於香港. er. io. sit. 中文大學的「漢達中國古代傳世文獻電腦化資料庫」,嘗試以資訊檢索的技術, 輔助人文學者找出古籍所引之經文。其中「明引」的部分,指的是直接引錄經文,. al. n. v i n 可以使用檢索系統將其找出;而「暗引」的部分,則需研究者翻檢古籍,找出古 Ch engchi U. 籍內容暗合之處。在之後亦有如《先秦兩漢典籍引《周易》 、 《論語》 、 《孟子》資. 料彙編》11等對應資料出版,提供給各方研究者從事更深入的研究工作。. 10. 見何志華、陳雄根編著, 《先秦兩漢典籍引〈詩經〉資料彙編》 ,香港:香港中文大學出版社,. 2004 年。 11. 見何志華、陳雄根編著,《先秦兩漢典籍引《周易》 、《論語》、 《孟子》資料彙編》 ,香港:香. 港中文大學出版社,2007 年 12 月。 11.

(23) 另外,在唐詩宋詞等語料中,常會有內容相似或相同的詩重複出現,王兆鵬 [20]所著之《唐宋詞史的還原與建構》,則也有討論詩歌典籍可能誤收詩歌作品 的現象,並對其加以考辨。. 小結 本研究統一選用「對應」一詞,定義為詩歌作品字面或是語意相似狀態的術 語。詩詞對應這個課題,可為詩歌和詩歌字面上的對應,或為詩歌和詩歌語意上 的對應,跟程式找出詩歌的字面相似比起來,要電腦理解語意,又是更難的課題。. 政 治 大. 本研究希望能實踐數位人文的精神,藉助資訊科技的辦法,並基於《詩經》 、 《楚. 立. 辭》 、 《全唐詩》 、 《全宋詩》和《全宋詞》的數位典藏,針對詩詞對應這個課題,. ‧ 國. 學. 試圖開發一個數位分析工具,觀察經典作品之間存在的對應關係。 根據上述研究的一些方法以及概念,本研究欲採取兩種策略觀察詩歌、作者. ‧. 間的相關情形。. sit. y. 字面比對分析. n. al. er. 比對詩歌,將分為作品單位以及語句為單位的比對. io. 甲、. 2.. Nat. 1.. i n U. 乙、. 統整作品以及語句兩者的比對結果. 丙、. 分析對應的狀況,做初步的分類. Ch. engchi. v. 詞彙分析 甲、. 將詩歌以斷詞模組進行斷詞,將會用到 PMI 以及規則式. (rule-based) 的方法 乙、. 計算詩人的特色詞彙. 丙、. 計算詞彙的語意. 12.

(24) 第三章 研究方法. 本章將介紹此研究的系統架構,一開始先將語料前處理後,再進行比對,並 以比對結果,更進一步分析語料的對應,甚至是詩詞間的借鑒技巧,圖 3.1 為此 研究的系統整體架構圖,系統架構大致可分為兩個部分,字面比對分析及詩詞詞 彙分析,字面比對分析又可細分為作品為單位的比對,以及語句為單位的比對, 之後由以上兩者的比對結果統整出作品對上作品的比對狀況,並可由使用者觀察, 過濾出作品間可能正確的對應關係,之後再分析對應或是借鑒技巧;詩詞詞彙分. 政 治 大. 析,則先擷取詞彙,初步分析作者或不同年代的詞彙共用狀況,而更進一步找出. 立. 作者特色詞彙;最後則可以依據斷詞結果、以及 Word2Vec 工具,找出語意較相. ‧ 國. 學. 近的詞彙,若能取得較佳的詞彙語意實驗結果,才能夠開發詩歌語意比對的工 具。. ‧. 以下我們會分別在 3.1 節介紹詩歌語料; 3.2 節介紹如何字面比對語料,以. y. Nat. io. sit. 及 3.3 節介紹詞彙擷取的辦法;3.4 節就作者及語料之間進行詞彙的初步分析;. n. al. er. 3.5 節介紹計算詞彙語意的方法。. Ch. engchi. 13. i n U. v.

(25) 《全唐詩》、《全宋詞》等語料. 字面比對模組. 詩歌斷詞模組. 不同單位比對. 斷詞可能判斷. 作品為單位比對 PMI+結合強度 語句為單位比對. 選出最佳解 治 政 大 詞彙分析模組 詩歌語意模組. 立. 統整字面比對結果. ‧ 國. 學. 作者詞彙比對模組. 對應狀況分析模組. Nat. n. al. er. io. sit. y. ‧. 作者特色詞彙模組. i n Ch 人文研究 engchi U. v. 圖 3.1 系統架構圖. 14. Word2Vec.

(26) 實驗語料介紹 本節介紹本研究的研究語料來源,及數位典藏的文字版本。 《詩經》12別稱為《詩三百》 ,為中國最早的詩歌總集,共收錄 311 篇作品, 內容亡佚六篇,僅剩篇名,目前現存 305 篇,創作時間約於西周初期到春秋中葉, 其中絕大部分的作者已經無法考證。 《楚辭》13由西漢末年文學家劉向編輯而成,收錄戰國末期到西漢初期,流 行於楚國的詩歌。 《全唐詩》14全名為《御定全唐詩》 ,康熙皇帝於清康熙四十二年(西元 1703. 政 治 大. 年)三月下令編纂,於清康熙四十四年(西元 1703 年),曹雪芹祖父曹寅奉旨主持. 立. 校刊,根據《欽定四庫全書》中〈御製全唐詩序〉的記載,收錄超過兩千兩百位. ‧ 國. 學. 唐代詩人,超過四萬首作品,共計 900 卷。《四庫全書總目》記載《全唐詩》已 有校勘補正,但是仍有誤漏遺佚,或是資料重複之處,不過《全唐詩》仍是目前. ‧. 仍存在的詩歌總集中,收錄唐詩最多者,最具參考價值。後人亦有續補之作,如. Nat. sit. y. 《全唐詩補編》15。. n. al. er. io. 《全宋詞》16為唐圭璋於西元 1931 年始編,1937 年編成初稿,其中收錄許. i n U. v. 多前人之宋詞輯錄,如:明末毛晉的《宋六十名家詞》、清代的侯文燦《十名家. Ch. engchi. 詞集》、秦恩復《詞學叢書》等,收錄超過一千位宋代詞人,約兩萬闋作品,而 後有孔凡禮輯錄缺漏,編《全宋詞補輯》。 《全宋詩》17為北京大學所編之宋朝詩歌總集,於西元 1998 年全部出版完 成,全 72 冊,共計 3785 卷,為本研究字數最多的語料。 12. 相關資料載於蘇雪林,《詩經雜俎》 ,台北:台灣商務印書館,1995 年 2 月。. 13. 相關資料載於黃壽棋;梅桐生,《楚辭》 ,台北:台灣古籍出版有限公司,2007 年。. 14. 相關資料載於王思治;馮爾康, 《康熙事典: 清史事典 4》 ,台北:遠流出版社,2006 年 9 月。. 15. 陳尚君,《全唐詩補編》 ,北京:中華書局,1992 年。. 16. 相關資料載於唐圭璋,《全宋詞》〈編訂說明〉 ,北京:中華書局,1998 年 11 月。. 17. 相關資料載於北京大學古文獻研究所,《全宋詩》,北京:北京大學出版社,1998 年 12 月。 15.

(27) 統計本研究所取得實驗語料的作品數、作者數量、總字數、相異字數以及每 一語料中,前三位作品數量最多的作者,如表 3.1。其中,作者數量不計未知的 空白作者以及無名氏;相異字數以及總字數只計算作品的內容,不包含括號內的 注釋,不過包含標點符號。 表 3.1 實驗語料的初步統計 詩歌總集名稱 作品數. 作者數(空白、. 相異字數/總字數. 無名氏不計) 《詩經》. 311. 《楚辭》. 65. 3072/ 31610 政 9治 大. ‧ 國. 42863. 2527. 王逸:9. 7454/ 3056276 白居易:2643. ‧. 杜甫:1158. y. 李白:896. 5904/ 1626523 辛棄疾:630. n. al. sit. 1363. er. 19392. io 《全宋詩》. 屈原:26. 劉向:9. Nat. 《全宋詞》. 2792/ 36931 N/A. 學. 《全唐詩》. 量最多的作者. N/A. 立. 前三位作品數. Ch. engchi U. 183870. 6993. v ni. 蘇軾:349 劉辰翁:341. 11160/ 11111150 陸遊:9216 劉克莊:4544 趙蕃:3718. 以上語料有許多數位文字版本,在網路上公開分享,或是付費使用,這些版 本不盡相同,或有簡繁體的問題,目前可以取得的《全唐詩》有「維基文庫」18、. 18. 維基文庫:https://zh.wikisource.org/ 16.

(28) 「簫堯藝文網界」19、「中國哲學書電子化計劃」20及「文學 100」21,《全宋詞》 則有「簫堯藝文網界」及「文學 100」,《全宋詩》有「文學 100」版本,本研究 選擇統一採用「文學 100」網站的簡體字版本22。 本研究所取得的語料,將統一格式儲存,如表 3.2: 表 3.2 語料格式範例 metadata. 內容. 作品編號. 來源詩歌籍 卷次資訊. 作者 作品名稱. 7235. 全唐詩. 李白 黃鶴樓送孟浩然之廣陵. 174_24. 故人西辭黃鶴樓,煙花三月下揚州。. 政 治 大. 孤帆遠影碧山盡,唯見長江天際流。. 立. 為了分辨來源詩歌集、作者、作品名稱皆相同的情況,系統將詩詞歌籍中的. ‧ 國. 學. 每一作品編號,舉例如林正大在《全宋詞》中,有四首作品詞牌都叫做《括賀新. sit. y. Nat. 表 3.3 作品編號分辨詩歌範例. ‧. 涼》 ,但其內容皆不同,如表 3.3。另外也記錄卷次資訊,方便查找原作品來源。. 17308. 全宋詞. 17314. 全宋詞. 17319. 全宋詞. 712. 林正大. 括賀新涼. 17324. 全宋詞. 712. 林正大. 括賀新涼. n. a712 l 712C h. 作者. 作品名稱. 林正大. 括賀新涼. e n林正大 gchi. er. 來源詩歌籍 卷次資訊. io. 作品編號. iv n 括賀新涼 U. 19. 簫堯藝文網界:http://www.xysa.com/. 20. 中國哲學書電子化計劃:http://ctext.org/zh. 21. 文學 100:http://www.wenxue100.com/. 22. 因目前能夠取得的《全宋詩》數位的資源只有文學 100 的簡體版,故本研究選擇統一採用「文. 學 100」網站的簡體字版本,但於網路上無法確認文學 100 的版本來源。 17.

(29) 字面比對語料 要瞭解《詩經》 、 《楚辭》 、 《全唐詩》 、 《全宋詩》和《全宋詞》等語料間的借 鑒關係,首先要知道這些文獻在字面上相異和相同之處,其中一個方法便是比對。 傳統的人文研究要比對兩種以上語料字面上的異同,需先用人工細讀語料,接著 查閱對應文獻,之後再用人工細部比對,比起用數位方法比對語料,既耗費人力 也相對比較耗費時間。因此我們希望能夠提供自動化的比對功能。 本研究比對功能可以用於找出多個作品的異同,或是更深入到語句和語句的 異同,可以幫助使用者找出可能發現對應的關鍵線索,而更進一步,探索多個不. 政 治 大. 同語料間的引用關係,以上方法提供使用者觀察語料的一個面向。. 立. 圖 3.2 為本小節的流程架構圖,將於 3.2.1 小節介紹比對特徵的計算方法,. ‧ 國. 學. 並於 3.2.2 小節以及 3.2.3 小節分別說明如何進行作品單位,或是語句單位的比對, 以及以作品、語句單位比對特徵,篩選出可能具有對應的比對結果,最後 3.2.4. ‧. 小節統整可能具有對應的作品單位比對結果,以及輸出這些作品和作品的比對中,. Nat. sit. y. 可能具有對應的語句的比對結果。. n. al. er. io. 因為在字面比對中,所有「標點符號」會被當成字來處理,但由於標點符號. i n U. v. 並非這些古典文獻原生的元素,是後人為了閱讀方便所添加,標點符號也因標注. Ch. engchi. 者和標注時間有所不同,標準可能不一,所以比對判斷時,並不考慮標點符號。 又《全唐詩》 、 《全宋詩》和《全宋詞》中有無法輸入電腦的文字,而用特殊符號 「□」代替的文字,或是缺字的部分,在比對的時候也不採計。 又由於所取得的《詩經》 、 《楚辭》 、 《全唐詩》 、 《全宋詩》和《全宋詞》都是 含有標點符號的版本,因此本研究把標點符號作為語句切分的標準,一來可以解 決標點的問題,二來可以解決句子切分的問題。. 18.

(30) 《全唐詩》、《全宋詞》等語料. 語料前處理. 語句切分功能 比對功能. 作品單位比對 作品單位. 立. 政 治 大. 比對特徵計算. 語句單位比對 語句單位 比對特徵計算. ‧ 國. 學 語句比對篩選. Nat. n. al. 作品單位比對結果. Ch. er. io. 比對結果輸出. sit. y. ‧. 作品比對篩選. i n U. v. 語句單位比對結果. engchi. 依據作品 Metadata 統整合併比對結果. 圖 3.2 比對詩歌流程圖. 19.

(31) 3.2.1 比對特徵介紹 為了瞭解作品之間字面上的相異和相同,本節將會介紹一些字串比對的特徵, 能夠提供我們做為觀察、篩選,或是判斷作品間字面相似度的線索。然而這些字 串可以是詩歌中的語句,或是整首作品,需依據比對功能決定。這些字串比對特 徵以標點不計為前提,透過字面層次的相似度,能夠幫助我們找出可能具有對應 的作品,下表列出字串比對的特徵以及簡要的說明。 表 3.4 字串比對特徵以及簡要說明 字串比對特徵. 簡要說明. 共用字集合. 兩字串用字字集的交集. 包含重複共用字. 兩字串的共用字,也記錄重複共用的部分,如疊字. 共用字覆蓋率. 一字串共用字數量,除以該字串字數. 最長初步共用詞彙. 初步共用詞彙中最長者. Nat. io. sit. y. 兩字串共用字構成的準詞彙,但順序、斷點不同者. n. al. er. 共用字構詞彙. 一字串中共用字所構成的準詞彙. ‧. ‧ 國. 立. 學. 初步共用詞彙. 政 治 大. i n U. v. 先針對 A 字串和 B 字串的比對狀況為例,以下說明計算相似度特徵的一些 方法: 1.. Ch. engchi. 共用字集合. 共用字即是比對 A、B 字串的個別字集 set(A)、set(B),將兩個字集交集, 即得兩字集都具有的相同字,且不考慮用字順序,如公式(1)所示。比對兩字 串,若共用字集合具有越多元素,則兩字串所攜帶的共同文字訊息越多。假 設 A 字串為宋詞人賀鑄〈清商怨〉23中一句「朝來風色好」 ,B 字串為唐詩人. 23. 《全宋詞》 ,賀鑄,〈清商怨〉:. 揚州商女。。寄扁舟,江南湖北道。津頭龍祠屢。信指、半春前到。笑倚危檣,朝來風色好。 20.

(32) ,共用字集合為「朝風好 盧照鄰〈至陳倉曉望京邑〉24中一句「今朝好風色」 色」。. set(A) ∩ set(B). 2.. (1). 包含重複共用字. 若 A、B 兩字串都具有相同的疊字,或是有一些字,在兩字串都用了不 只一次的情況,共用字集合會有盲點,不能攜帶這樣的訊息,因此包含重複. 政 治 大 在兩字串中皆有出現,則輸出這個字,並在 A、B 兩字串中都消去一次,重 立 共用字計算了共用字集合中,每一個字在兩字串裡出現的數量,若同一個字. 複這個步驟直到兩字串沒有辦法再有輸出為止,此法直接計算兩字串有幾個. ‧ 國. 學. 相同的字,用來作為一個衡量相似度的標準。假設 A 字串為詩經小雅〈楚茨〉 中一句「子子孫孫」,B 字串為宋詞人鄒應龍〈鷓鴣天〉26中一句「子子孫. y. Nat. 《全唐詩》 ,卷 42,盧照鄰,〈至陳倉曉晴望京邑〉:. sit. 24. ‧. 25. io. er. 拂曙驅飛傳,初晴帶曉涼。霧斂長安樹,雲歸仙帝鄉。澗流漂素沫,岩景靄朱光。 今朝好風色,延瞰極天莊。. al. n. 25. Ch. 《詩經》 ,小雅·穀風之什, 〈楚茨〉 :. engchi. i n U. v. 楚楚者茨,言抽其棘,自昔何為?我蓺黍稷。我黍與與,我稷翼翼。我倉既盈,我庾維億。 以為酒食,以享以祀,以妥以侑,以介景福。濟濟蹌蹌,絜爾牛羊,以往烝嘗。 或剝或亨,或肆或將。祝祭於祊,祀事孔明。先祖是皇,神保是饗。 孝孫有慶,報以介福,萬壽無疆!執爨踖踖,為俎孔碩,或燔或炙。君婦莫莫,為豆孔庶。 為賓為客,獻酬交錯。禮儀卒度,笑語卒獲。神保是格,報以介福,萬壽攸酢! 我孔熯矣,式禮莫愆。工祝致告,徂賚孝孫。苾芬孝祀,神嗜飲食。蔔爾百福,如幾如式。 既齊既稷,既匡既敕。永錫爾極,時萬時億! 禮儀既備,鐘鼓既戒,孝孫徂位,工祝致告,神具醉止,皇屍載起。鼓鐘送屍,神保聿歸。 諸宰君婦,廢徹不遲。諸父兄弟,備言燕私。樂具入奏,以綏後祿。爾肴既將,莫怨具慶。 既醉既飽,小大稽首。神嗜飲食,使君壽考。孔惠孔時,維其盡之。子子孫孫,勿替引之! 26. 《全宋詞》 ,鄒應龍, 〈鷓鴣天〉 :. 九十吾家兩壽星。今夫人賽昔夫人。百年轉眼新開帙,十月迴圈小有春。生日到,轉精神。 21.

(33) 孫孫又孫」,包含重複共用字為「子子孫孫」,這個方法補足了共用字集合只 有「子孫」,不能完整表示兩字串疊字、或是多個相同字共用的狀況。. 3.. 共用字覆蓋率. 共用字覆蓋率為計算一字串使用共用字的多寡,若使用較多的共用字時, 也代表著此一字串和另一字串有較多共同的地方,因此共用字覆蓋率也是估 計兩字串相似度的重要指標,如公式(2),其中計算字串用字屬於共用字數量 時,重複用字也計。假設 A 字串為詩經小雅〈楚茨〉中一句「子子孫孫」 ,B. 政 治 大 孫」,A 字串共用字覆蓋率為 100.00%,B 字串共用字覆蓋率的計算方法為, 立 字串為宋詞人鄒應龍〈鷓鴣天〉中一句「子子孫孫孫又孫」 ,共用字集合為「子. 字串用字屬於共用字數量 6 字,除以字串字數 7 字,得共用字覆蓋率約為. ‧. ‧ 國. 學. 85.71%。. sit er. io. 4.. (2). y. Nat. 共用字覆蓋率 = 字串用字屬於共用字數量/字串字數. 初步共用詞彙. al. n. v i n 先標記共用字在 A、B C字串所在,未被標記的字做為字串切割的參考, hengchi U. 取得 A、B 兩字串的子字串集合,若在 A、B 子字串中都有出現,得 A、B 初步共用詞彙集合。圖 3.3 為初步共用詞彙演算法。假設 A 字串為詩經小雅 〈采菽〉27中一句「天子命之」 ,B 字串為唐詩人盧肇〈漢堤詩〉28中一句「天. 目光如鏡步如雲。年年長侍華堂宴,子子孫孫孫又孫。 27. 《詩經》 ,小雅·魚藻之什, 〈采菽〉 :. 采菽采菽,筐之莒之。君子來朝,何錫予之?雖無予之?路車乘馬。又何予之?玄袞及黼。 觱沸檻泉,言采其芹。君子來朝,言觀其旂。其旂淠淠,鸞聲嘒嘒。載驂載駟,君子所屆。 赤芾在股,邪幅在下。彼交匪紓,天子所予。樂只君子,天子命之。樂只君子,福祿申之。 維柞之枝,其葉蓬蓬。樂只君子,殿天子之邦。樂只君子,萬福攸同。平平左右,亦是率從。 22.

(34) ,共用字集合為「天子之」 ,初步共用詞彙為「天子、之」 。圖 3.4 為 子賜之」 演算法各步驟的範例。. Input: 根據共用字集合標記 A、B 兩句裡,共用字出現的位置,為Ac 、Bc Output: A、B 字串的初步共用詞彙、共用字構詞彙 1.. 根據Ac 、Bc 標記結果,句子共用字標記的位置中間有無間隔為文字. 切斷的標準,若有則斷開,得Acc 及Bcc 。 2.. 取Acc 及Bcc 交集,取得 A、B 兩句初步的共用詞彙。. 政 治 大 得 A 字串共用字構詞彙A 、B 字串共用字構詞彙B 立 3.. 若不處於交集中的詞彙,則為用字相同但非初步共用詞彙Acp、Bcp, cp 。. cp. 圖 3.3 初步共用詞彙、共用字構詞彙演算法. ‧. ‧ 國. 學 y. Nat. 《全唐詩》 ,卷 551,盧肇, 〈漢堤詩〉:. io. er. 28. sit. 泛泛楊舟,紼纚維之。樂只君子,天子葵之。樂只君子,福祿膍之。優哉遊哉,亦是戾矣。. 陰沴奸陽,來暴於襄。洎入大郛,波端若鋩。觸厚摧高,不知其防。駭潰顛委,萬室皆毀。. n. al. Ch. i n U. v. 灶登蛟鼉,堂集鱣鮪。惟恩若讎,母不能子。洪潰既涸,閈閎其虛。以隳我堵,以剝我廬。. engchi. 酸傷顧望,若踐丘墟。帝曰念嗟,朕日南顧。流災降慝,天曷台怒。滔滔襄郊,捽我嬰孺。 於惟餘甿,饑傷喘呼。斯為淫痍,孰往膏傅。惟汝元寮,僉舉明哲。我公用諧,苴茅杖節。 來視襄人,噢咻提挈。不日不月,咍乎抃悅。乃泳故堤,陷於沙泥。缺落坳圮,由東訖西。 公曰嗚呼,漢之有堤。實命襄人,不力乃力。則及乃身,具鍤與畚。漢堤其新,帝廩有粟。 帝府有緡,爾成爾堤。必錫爾勤,襄人怡怡。聽命襄滸,背囊肩杵。奔走蹈舞,分之卒伍。 令以麾鼓,尋尺既度。日月可數,登登嶪嶪。周旋上下,披峴斫楚。飛石挽土,舉築殷雷。 駭汗霏雨,疲癃鰥獨。奮有筋膂,呀籲來助。提筐負筥,不勞其勞。 雜遝笑語,咸曰盧公,來賜我生。斯堤既成,蜿蜿而平。 確爾山固,屹如雲橫。漢流雖狂,堅不可蝕。代千年億,與天無極。惟公之堤,昔在人心。 既築既成,橫之于南。萌渚不峻,此門不深。今複在茲,于漢之陰。斯堤已崇,茲民獲祐。 齯童相慶,室以完富。貽於襄人,願保厥壽。繄公之功,赫焉如晝。捍此巨災,崒若京阜。 天子賜之,百姓載之。族孫作詩,昭示厥後。 23.

(35) Input: 根據共用字集合標記 A、B 兩句裡,共用字出現的位置 Ac =天子命之 Bc =天子賜之 根據Ac 、Bc 標記結果,句子共用字標記的位置中間有無間隔為斷詞. 1.. 標準,若有則斷開,取得 Acc ={天子,之} Bcc ={天子,之}. 政 治 大 ,差集初步共用詞彙,得 A 字串共用字構詞彙A 立. 2.. 取Acc 及Bcc 交集,取得 A、B 兩句初步的共用詞彙{天子,之}. 3.. Acc. cp =∅. ‧ 國. 學. Bcc ,差集初步共用詞彙,得 B 字串共用字構詞彙Bcp =∅ 圖 3.4 共用詞彙、共用字構詞彙演算法各步驟範例. ‧. 最長初步共用詞彙. sit. y. Nat. 5.. io. er. 由於本研究會先計算兩字串的初步共用詞彙,初步共用詞彙中最長者, 即為兩字串最長初步共用詞彙。延續前一個例子,假設 A 字串為詩經小雅. al. n. v i n C h,B 字串為唐詩人盧肇〈漢堤詩〉中一句「天 〈采菽〉中一句「天子命之」 engchi U 子賜之」,初步共用詞彙為「天子、之」,最長初步共用詞彙為「天子」。. 6.. 共用字構詞彙. 共用字在 A、B 字串所組成的詞彙,且在 A、B 字串以不同順序或組合 不同的方式出現。假設 A 字串為宋詞人潘閬〈酒泉子〉29中一句「空役夢魂. 29. 《全宋詞》 ,潘閬,〈酒泉子〉(十之五) :. 長憶孤山,山在湖心如黛簇。僧房四面向湖開。輕棹去還來。芰荷香噴連雲閣。 閣上清聲簷下鐸。別來塵土汙人衣。空役夢魂飛。 24.

(36) ,B 字串為唐詩人沙磧女子〈五原夜吟〉30中一句「孤魂空逐雁南飛」 ,圖 飛」 3.5 為演算法各步驟的範例,兩句初步共用詞彙為空集合,A 字串共用字構 詞彙為「空、魂飛」,得 B 字串共用字構詞彙為「魂空、飛」。再舉一例,假 設 A 字串為宋詞人潘閬〈酒泉子〉中一句「芰荷香噴連雲閣」,B 字串為唐 詩人閻選〈臨江仙〉31中一句「雨停荷芰逗濃香」 ,A 字串共用字構詞彙為「芰 荷香」,得 B 字串共用字構詞彙為「荷芰、香」。. Input: 根據共用字集合標記 A、B 兩句裡,共用字出現的位置 Ac =空役夢魂飛 Bc =孤魂空逐雁南飛. 立. 學. 根據Ac 、Bc 標記結果,句子共用字標記的位置中間有無間隔為斷詞. ‧ 國. 1.. 政 治 大. 標準,若有則斷開,取得. ‧. Acc ={空,魂飛}. y. Nat. Bcc ={魂空,飛}. 3.. Acc ,差集初步共用詞彙,得 A 字串共用字構詞彙Acp ={空,魂飛}. er. sit. 取Acc 及Bcc 交集,取得 A、B 兩句初步的共用詞彙 ∅. io. 2.. al. n. v i n Ch Bcc ,差集初步共用詞彙,得 B 字串共用字構詞彙Bcp ={魂空,飛} engchi U 圖 3.5 初步共用詞彙、共用字構詞彙演算法各步驟範例. 30. 《全唐詩》 ,卷 866,沙磧女子,〈五原夜吟〉 :. 雲鬟消盡轉蓬稀,埋骨窮荒失所依。牧馬不嘶沙月白,孤魂空逐雁南飛。 31. 《全唐詩》 ,卷 897,閻選, 〈臨江仙〉:. 雨停荷芰逗濃香,岸邊蟬噪垂楊。物華空有舊池塘。不逢仙子,何處夢襄王。 珍簟對欹鴛枕冷,此來塵暗淒涼。欲憑危檻恨偏長。藕花珠綴,猶似汗凝妝。 十二高峰天外寒,竹梢輕拂仙壇。寶衣行雨在雲端。畫簾深殿,香霧冷風殘。 欲問楚王何處去,翠屏猶掩金鸞。猿啼明月照空灘。孤舟行客,驚夢亦艱難。 25.

(37) 3.2.2 作品單位比對 比對的主要目標是為了研究字面上是否有相同或是不相同的地方,並且通過 篩選的機制,篩選出具有相關潛力的對應。要知道作品間有無相同之處,首先就 需要做以作品為單位的比對,在之後我們可以透過作品和作品的比對狀況,探究 作品和作品間的關係,或更進一步篩選出,有潛力具有語句對應的兩作品,再進 行語句比對。 作品比對會先計算兩作品的包含重複共用字,若兩作品只有一個字相同,兩 作品字面上只有一個單字詞可能具有共用的狀態;而若包含重複共用字數為 3,. 政 治 大. 則就增加了兩個作品共用三個單字詞、共用一個單字詞和一個雙字詞,或是共用. 立. 一個三字詞的可能,因此本研究以兩作品共用字數 3 以上為門檻,輸出兩作品的. ‧ 國. 學. 包含重複共用字、共用字集合、初步共用詞彙、最長初步共用詞彙,以及分別以 兩作品輸出共用字構詞彙、共用字覆蓋率,接下來幾個例子說明。. ‧. 以宋詞人周邦彥的作品〈西河·大石金陵〉32比對唐詩人劉禹錫〈烏衣巷〉33. Nat. n. al. er. io. sit. y. 為例,輸出如表 3.5:. 32. Ch. engchi. i n U. v. 《全宋詞》 ,周邦彥, 〈西河·大石金陵〉 :. 佳麗地,南朝盛事誰記?山圍故國繞清江,髻鬟對起。怒濤寂寞打孤城,風檣遙度天際。 斷崖樹、猶倒倚,莫愁艇子誰係?空餘舊跡鬱蒼蒼,霧沉半壘。 夜深月過女牆來,傷心東望淮水。酒旗戲鼓甚處市? 想依稀,王謝鄰裏,燕子不知何世,向尋常巷陌人家。相對如說興亡,斜陽裏。 33. 《全唐詩》 ,卷 365,劉禹錫,〈烏衣巷〉 :. 朱雀橋邊野草花,烏衣巷口夕陽斜。舊時王謝堂前燕,飛入尋常百姓家。 26.

(38) 表 3.5 〈西河·大石金陵〉和〈烏衣巷〉的作品比對狀況 共用字集合. 舊、王、謝、燕、家、尋、常、巷、斜、陽. 包含重複共用字. 舊、王、謝、燕、家、尋、常、巷、斜、陽. 初步共用詞彙. 燕、家、舊、王謝. 最長初步共用詞彙. 王謝. 共用字構詞彙. 〈西河·大石金陵〉:斜陽、尋常巷 〈烏衣巷〉:陽斜、尋常、巷. 政 治 大 〈烏衣巷〉:35.71% 立 〈西河·大石金陵〉:9.52%. 學. ‧ 國. 共用字覆蓋率. 此兩作品,可以見到〈烏衣巷〉中有十個字,和〈西河·大石金陵〉有共用. ‧. 關係,共用字覆蓋率約有 35.71%。此兩作品在初步共用詞彙方面,有一個二字. sit. y. Nat. 詞以及三個單字詞;共用字構詞彙中,有一個組合分別是「斜陽」、「陽斜」,洽. io. er. 是用共用字組成的詞彙,但順序不同的例子。. 另以周邦彥〈西河·大石金陵〉比對南朝樂府〈莫愁樂〉34為例,輸出如表 3.6。. n. al. 34. Ch. engchi. i n U. v. 南朝樂府,無名氏, 〈莫愁樂〉 :莫愁在何處?莫愁石城西。艇子打兩槳,催送莫愁來。 27.

(39) 表 3.6 〈西河·大石金陵〉和〈莫愁樂〉的作品比對狀況 共用字集合. 城、莫、愁、打、來、處、何、艇、子. 包含重複共用字. 城、莫、愁、打、來、處、何、艇、子. 初步共用詞彙. 城. 最長初步共用詞彙. 城. 共用字構詞彙. 〈西河·大石金陵〉:來、處、何、莫愁艇子、打、子 〈莫愁樂〉:莫愁來、何處、莫愁、艇子打. 共用字覆蓋率. 〈西河·大石金陵〉:9.52%. 政 治 大. 〈莫愁樂〉:65.00%. 立. ‧ 國. 學. 此兩作品,可以見到〈莫愁樂〉中有九個字,和〈西河·大石金陵〉有共用 關係;共用詞彙方面兩個二字詞,以及五個單字詞,其中一個二字詞「莫愁」在. ‧. 〈莫愁樂〉裡面就出現過三次,因此導致〈莫愁樂〉的共用字覆蓋率較高約有. sit. y. Nat. 65%。〈西河·大石金陵〉中,「子」有兩個,一個是「莫愁艇子」的「子」,一個. io. n. al. er. 是「燕子」的「子」,但〈莫愁樂〉中,「子」只有一個,在「艇子」的位置。. Ch. engchi. 28. i n U. v.

(40) 3.2.3 語句單位比對 語句比對的做法是先將如《詩經》 、 《楚辭》 、 《全唐詩》 、 《全宋詩》和《全宋 詞》的語料先以詩名、詞牌名切分,刪除括號內的注釋,並以標點符號將詩、詞 的內容斷為多個語句。之後再分別由選定作品中的每個語句出發,比對另一作品 的每一個語句,並記錄比對結果。 如何判斷兩個語句像或者是不像呢?因為兩作品一些相同的詞彙,已經在作 品單位比對的時候被輸出,語句單位比對的目的,是為了找出兩作品之間,比較 像的語句,因此,我們選擇兩語句以 3 個包含重複共用字為門檻,做為輸出篩選 的標準。. 立. 政 治 大. 語句比對的方法會先算出兩語句長度 m、n,為了防止語句過短而造成無效. ‧ 國. 學. 的比對,因此當 m、n 皆大於 3,再比較兩語句的包含重複共用字,檢查包含重 複共用字是否也超過設定的門檻,以此為篩選標準,可以為我們挑出一些可能的. ‧. 對應狀況。至於會設定語句長度門檻值的原因,是為了避免在兩語句過短,例如. Nat. sit. y. 一些單字詞構成的句子,但仍需要比對的狀況。通過篩選標準後,系統會輸出兩. n. al. er. io. 語句的包含重複共用字、共用字集合、初步共用詞彙、最長初步共用詞彙,也分. i n U. v. 別記錄兩語句的長度、共用字覆蓋率以及共用字構詞彙。. Ch. engchi. 由於詩詞常為了押韻,或是其他原因,而改變詞彙的順序,甚至改變辭彙中 字的構成順序,因此,只判斷兩語句不論順序的各項相同特徵,而無針對兩語句 相同順序的共用詞彙,可能會缺少一些依據更進一步判斷兩語句的關係,舉例兩 語句對,《詩經》國風中〈七月〉35的一語句「春日遲遲」和《全唐詩》胡曾的 35. 《詩經》 ,國風·豳風〈七月〉 :. 七月流火,九月授衣。一之日觱發,二之日栗烈。無衣無褐,何以卒歲? 三之日於耜,四之日舉趾。同我婦子,饁彼南畝。田畯至喜。七月流火,九月授衣。 春日載陽,有鳴倉庚。女執懿筐,遵彼微行,爰求柔桑。 春日遲遲,采蘩祁祁。女心傷悲,殆及公子同歸。 七月流火,八月萑葦。蠶月條桑,取彼斧斨。以伐遠揚,猗彼女桑。 29.

(41) 作品〈詠史詩·蘭台宮〉36中一語句「遲遲春日滿長空」,兩句語句具有兩共用詞 彙「春日」和「遲遲」,如果考慮順序,則二個句對詞彙順序有交換的狀況,在 《詩經》37中,「春日」和「遲遲」的順序,只有「春日」在前「遲遲」在後, 而在《全唐詩》中, 「春日」和「遲遲」 ,則是「春日」在前「遲遲」在後,如李 洞〈繡嶺宮詞〉38、 「遲遲」在前「春日」在後,如胡曾〈詠史詩·蘭台宮〉 ,兩種 順序皆有。 因此我們計算同順序狀況下的比對狀況,採用 Python 字串比對模組 difflib 中的 SequenceMatcher,其方法採用 Ratcliff-Obershelp 演算法39,求得兩個已知序. 政 治 大 重複共用字數量不相同,則兩語句共用字可能有前後交換的現象。 立. 列 X 和 Y 中的按照順序的共用字。若兩語句按照順序的共用字數和兩語句包含. Ratcliff-Obershelp 演算法的概念,如圖 3.6 的範例,若標點符號不計,以 A. ‧ 國. 學. 字串為賀鑄〈晚雲高〉40的一個片段「二十四橋明月夜,弭蘭橈。玉人何處教吹。. ‧. 七月鳴鵙,八月載績。載玄載黃,我朱孔陽,為公子裳。四月秀葽,五月鳴蜩。. y. Nat. 八月其獲,十月隕蘀。一之日於貉,取彼狐狸,為公子裘。二之日其同,載纘武功。. sit. 言私其豵,獻豜於公。五月斯螽動股,六月莎雞振羽。. al. er. io. 七月在野,八月在宇,九月在戶,十月蟋蟀,入我床下。穹窒熏鼠,塞向墐戶。. n. 嗟我婦子,曰為改歲,入此室處。六月食鬱及薁,七月亨葵及菽。八月剝棗,十月獲稻。. Ch. i n U. v. 為此春酒,以介眉壽。七月食瓜,八月斷壺,九月叔苴,采荼薪樗。食我農夫。. engchi. 九月築場圃,十月納禾稼。黍稷重穋,禾麻菽麥。嗟我農夫,我稼既同,上入執宮功。 晝爾于茅,宵爾索綯,亟其乘屋,其始播百穀。二之日鑿冰衝衝,三之日納于淩陰。 四之日其蚤,獻羔祭韭。九月肅霜,十月滌場。朋酒斯饗,曰殺羔羊,躋彼公堂。 稱彼兕觥:萬壽無疆! 36. 《全唐詩》 ,卷 647,胡曾,〈詠史詩·蘭台宮〉:. 遲遲春日滿長空,亡國離宮蔓草中。宋玉不憂人事變,從游那賦大王風。 37. 《詩經》 ,國風·豳風〈七月〉和小雅·鹿鳴之什〈出車〉. 38. 《全唐詩》 ,卷 723,李洞, 〈繡嶺宮詞〉 :. 春日遲遲春草綠,野棠開盡飄香玉。繡嶺宮前鶴髮翁,猶唱開元太平曲。 39. Ratcliff, John W. and David E. Metzener. Pattern matching: The gestalt approach, Journal of Dr.. Dobbs, 7, 46, 1988. 40. 《全宋詞》 ,賀鑄〈晚雲高〉 : 30.

(42) 可憐宵。」 ,B 字串為杜牧〈寄揚州韓綽判官〉41的一個片段「二十四橋明月夜, 玉人何處教吹簫。」為例。Ratcliff-Obershelp 演算法,在兩字串共用字順序不改 易時,能找出兩字串用字相同的部分。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 秋盡江南葉未凋。晚雲高。青山隱隱水迢迢。接亭皋。 二十四橋明月夜,弭蘭橈。玉人何處教吹。可憐宵。 41. 《全唐詩》 ,卷 523,杜牧〈寄揚州韓綽判官〉 :. 青山隱隱水迢迢,秋盡江南草木凋。二十四橋明月夜,玉人何處教吹簫。 31.

(43) Input: A、B 兩字串 A=二十四橋明月夜,弭蘭橈。玉人何處教吹。可憐宵。 B=二十四橋明月夜,玉人何處教吹簫。 Output: A、B 兩字串按照順序的共用字 1.. 找出兩字串的 longest common substring A=二十四橋明月夜,弭蘭橈。玉人何處教吹。可憐宵。 B=二十四橋明月夜,玉人何處教吹簫。. 政 治 大 剩餘字串,回到第 1 步執行,得「玉人何處教吹」 立 2.. 根據第 1 步的結果,將 A、B 兩字串 longest common substring 右側. ‧ 國. BR =玉人何處教吹簫。. 根據第 1 步的結果,將 A、B 兩字串 longest common substring 左側. ‧. 3.. 學. A𝑅 =弭蘭橈。玉人何處教吹。可憐宵。. y. Nat. 剩餘字串,回到第 1 步執行,無 longest common substring. al. v i n Ch 直到左右側的剩餘字串都無 longest common substring,或是已找出 engchi U n. 4.. er. io. BL = "". sit. A𝐿 = "". longest common substring 為止,得兩字串按照順序共用字為: 二十四橋明月夜. 玉人何處教吹. 圖 3.6 Ratcliff-Obershelp 演算法示例. 以下例子如表 3.7 為程式輸出,以唐詩人杜牧的作品〈寄揚州韓綽判官〉42 中一語句「二十四橋明月夜」 ,比對宋詞人陳克的作品〈謁金門〉43中一語句「今. 42. 《全唐詩》 ,卷 523,杜牧, 〈寄揚州韓綽判官〉 :. 青山隱隱水迢迢,秋盡江南草木凋。二十四橋明月夜,玉人何處教吹簫。 32.

參考文獻

相關文件

Hofmann, “Collaborative filtering via Gaussian probabilistic latent semantic analysis”, Proceedings of the 26th Annual International ACM SIGIR Conference on Research and

in Proceedings of the 20th International Conference on Very Large Data

Lange, “An Object-Oriented Design Method for Hypermedia Information Systems”, Proceedings of the Twenty-seventh annual Hawaii International Conference on System Sciences, 1994,

[23] Tiantong You, Hossam Hassanein and Chi-Hsiang Yeh, “PIDC - Towards an Ideal MAC Protocol for Multi-hop Wireless LANs,” Proceedings of the IEEE International Conference

Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference

Shih and W.-C.Wang “A 3D Model Retrieval Approach based on The Principal Plane Descriptor” , Proceedings of The 10 Second International Conference on Innovative

[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference

Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,