• 沒有找到結果。

唐代墓誌銘與中國佛教寺廟志斷句研究 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "唐代墓誌銘與中國佛教寺廟志斷句研究 - 政大學術集成"

Copied!
93
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University. 碩士論文 Master’s Thesis. 立. 政 治 大. ‧ 國. 學. 唐代墓誌銘與中國佛教寺廟志斷句研究. ‧. Sentence Segmentation for Tomb Biographies of Tang. Nat. n. al. er. io. sit. y. Dynasty and Chinese Buddhist Temple Gazetteers. C h研究生:張 engchi. i n 逸 U. v. 指導教授:劉昭麟. 中華民國一百零七年八月 June 2018. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(2) 唐代墓誌銘與中國佛教寺廟志斷句研究 Sentence Segmentation for Tomb Biographies of Tang Dynasty and Chinese Buddhist Temple Gazetteers. 研 究 生:張 逸. Student:Yi Chang. 指導教授:劉昭麟. Advisor:Chao-Lin Liu 國立政治大學 資訊科學系. 學. ‧ 國. 立. 政 治 大 碩士論文 A Thesis. ‧. Nat. er. io. sit. National Chengchi University. y. submitted to Department of Computer Science. n. in partial a fulfillment of requirements v. i l C n e ndegree forhthe g c h iofU Master in Computer Science. 中華民國一百零七年八月 June 2018. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(3) 摘 要 20 世紀以前,中文書寫並沒有使用標點符號的習慣,閱讀時必須憑個人經驗和 語感對文章進行斷句理解。由於個人的經驗和習慣的不同,往往會對文章造成 對不一樣的解讀甚至是誤解,因此,斷句是理解文章最基礎且困難的第一步 驟。因此過去學者通過正規表示式、機器學習、深度學習等不同的方法作為自 動化文言文斷句的方式,減少文史專家處理斷句的時間。 儘管目前已有許多自動斷句的研究,卻尚未出現一個系統將其整合並達到 最佳的斷句效果。因此本研究設計一套實驗流程,將過去的研究成果進行組合. 政 治 大 的組合,進一步減少處理斷句的時間。 立. 測試,並觀察在不同組合測試下的 Precision、Recall、F1 等評估指標找出最佳. ‧ 國. 學. 關於實驗流程的設計,以「唐代墓誌銘」以及「中國佛教寺廟志」作為實 驗語料,並且使用「條件隨機場(Conditional Random Fields, CRF)」以及「Long. ‧. Short-Term Memory(LSTM)」兩種在過去自動斷句研究中表現良好的模型與配. sit. y. Nat. 合前後文特徵作為 baseline,進行進一步的特徵與模型相關的組合實驗。特徵相. al. er. io. 關的實驗是藉由在 baseline 中加入各種不同的特徵找出有用的項目,而模型相. v. n. 關的實驗觀察不同機器學習方法與模型訓練方法建找出能夠增進模型效果的項 目。. Ch. engchi. i n U. 在本研究的實驗結果中,效果最好的特徵是前後文以及斷詞統計量,而效 果最好的模型是整合了 CRF 與 LSTM 所產生的模型 CRF+LSTM,其中 CRF 加 入了弱點補強的演算法增強其效果,最後在唐代墓誌銘以及中國佛教寺廟志兩 個語料中作為評估指標的 F1 值分別達到了 0.873 以及 0.675。. i. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(4) Abstract Prior to the 20th century, using punctuation in articles hasn't become a total phenomenon. Therefore readers have to comprehend passages through their personal experiences and the notion to the context, which caused challenges to decode articles accurately due to individual differences. Thus, the punctuation is a difficult first step towards the understanding of articles. Although plenty research has been done, a fully optimized performance automatic punctuation system is still yet to come. In search of the best optimized combination of. 政 治 大 various combination of evaluation 立 index, e.g., Precision, Recall, F1 and previous. auto-punctuation system, this research designed an experiment protocol which testing. ‧ 國. 學. research data.. The experiment protocol was using “Tomb Biographies of Tang Dynasty” and. ‧. “Chinese Buddhist Temple Gazetteers” as text corpus, in which the Conditional. sit. y. Nat. Random Fields (CRF) and the Long Short-Term Memory (LSTM), favorited and. n. al. er. io. well-performed models in the past research, was applied as a baseline for conducting. i n U. v. further experiment of the combination of feature and model. For the feature related. Ch. engchi. experiment was extracting valid entry via adding various item entry in baseline; the model related experiment was enhancing model performance by observing various machine learning and model training methods. The results of the study shows that the best performed feature was the context and statistic of word segmentation. As for the best model was the combination of CRF and LSTM, the CRF+LSTM, in which the shortcoming of algorithm in CRF was patched as enhancement. As the result, the F1 score of both text corpuses: “Tomb Biographies of Tang Dynasty” and “Chinese Buddhist Temple Gazetteers” were reached 0.873 and 0.675. ii. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(5) 誌 謝 感謝我的指導教授劉昭麟老師,為我提供了碩士論文的題目以及語料,並且在 每次討論中都不厭其煩的與我商榷實驗的細節和改進的方法,以及如何完整的 表達實驗步驟及其價值。在此過程中使我更佳體會到除了會寫程式以外,還有 許多重要的能力需要再加強。 感謝洪振洲老師及王昱鈞老師願意在暑假期間撥空來擔任口試委員。除此 之外,口試當天還剛好遇上了颱風警報,老師們不僅沒有取消口試,還不畏辛 勞的前來。特別感謝洪振洲老師在研究的過程中提供中國佛教寺廟志的語料,. 政 治 大. 並且找來專業的研究人員分析自動斷句結果,使本研究在錯誤分析的部分能夠. 立. 更可靠。. ‧ 國. 學. 感謝 MIG 的冠群、子皓、育增、致凱、植琨、長亭以及褆雍,無論任何事 物都能與你們討論、分享,並且與你們共度在實驗室的歡樂時光。特別感謝冠. ‧. 群,在我不住學校時幫我處理了很多實驗室的事情,使我免於往返學校三小時. sit. y. Nat. 的車程。而長亭跟褆雍則是在百忙之中無償的幫忙了我的程式的交接以及論文. al. er. io. 的檢查,確保論文在敘述上達到容易理解的地步。. v. n. 最後感謝家人在經濟上的支持以及女朋友的陪伴,使我能夠心無旁騖的完. Ch. engchi. i n U. 成研究所的學業,沒有他們的支持與幫助,我的論文也不可能會順利完成。有 了以上所有幫助我的人,讓我有更堅強的信心跟力量,能夠在未來克服種種的 難關。. iii. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(6) 目錄 第1章. 緒論........................................................................................................ 1. 1.1. 研究背景與動機.................................................................................... 1. 1.2. 問題描述................................................................................................ 2. 1.3. 研究目標................................................................................................ 2. 1.4. 主要貢獻................................................................................................ 2. 1.5. 論文架構................................................................................................ 4. 第2章. 相關研究................................................................................................ 5. 2.1. 正規表示式............................................................................................ 5. 政 治 大 機器學習................................................................................................ 5 立. 2.2. 深度學習................................................................................................ 6. 2.4. 整合學習................................................................................................ 6. 第3章. 語料及系統架構.................................................................................... 7. 3.1. 語料來源及前處理................................................................................ 7. 3.2. 唐代墓誌銘............................................................................................ 8. 3.3. 中國佛教寺廟志.................................................................................. 10. 3.4. 系統架構.............................................................................................. 11. 第4章. 數據集建立.......................................................................................... 13. 4.1. 文字標記.............................................................................................. 13. 4.2. 前後文特徵.......................................................................................... 13. 4.3. 斷詞統計量特徵.................................................................................. 14. ‧. ‧ 國. 學. 2.3. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 4.3.1. t-test difference ............................................................................ 14. 4.3.2. Pointwise Mutual Information ..................................................... 15. 4.4. 聲韻特徵.............................................................................................. 15. 4.5. 詞表標記特徵...................................................................................... 17 iv. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(7) 正規表示式修正.................................................................................. 18. 4.6 4.6.1. 詞表修正方法.............................................................................. 18. 4.6.2. 長官職修正.................................................................................. 18 格式轉換.............................................................................................. 19. 4.7 4.7.1. 字嵌入.......................................................................................... 19. 4.7.2. 數值轉字串.................................................................................. 21. 4.7.3. 字串轉數值.................................................................................. 21. 第5章. 模型建立與評估.................................................................................. 23. 5.1. CRF 模型 ............................................................................................. 23. 政 治 大 LSTM 模型 .......................................................................................... 24 立. 5.2. Sequence to sequence LSTM ............................................................... 27. 學. ‧ 國. 5.3. CRF 整合學習模型 ............................................................................. 30. 5.4. CRF-Boosting .............................................................................. 31. y. Nat. 5.4.2. CRF-Bagging ............................................................................... 30. ‧. 5.4.1. er. io. sit. CRF 整合學習的機率值輸出 ..................................................... 34. 5.4.3. CRF 整合學習的輸出調整 ......................................................... 34. 5.4.4. al. 5.4.5. n. v i n CRF 的參數優化 35 C h ......................................................................... engchi U. 5.5. CRF+LSTM 模型 ................................................................................ 35. 5.6. 模型評估.............................................................................................. 36. 第6章. 實驗設計.............................................................................................. 37. 6.1. 機器學習工具...................................................................................... 37. 6.2. 資料格式.............................................................................................. 39. 6.3. baseline 設定 ....................................................................................... 41. 6.4. 實驗流程.............................................................................................. 41. 6.5. 基礎設定驗證...................................................................................... 43 v. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(8) 6.5.1. 自動標點實驗.............................................................................. 43. 6.5.2. 資料格式實驗.............................................................................. 45. 6.5.3. 單向、雙向 LSTM 實驗 ............................................................. 46. 第7章. 唐代墓誌銘實驗結果分析.................................................................. 47. 7.1. 斷句模型選擇...................................................................................... 47. 7.2. 前後文範圍實驗.................................................................................. 48. 7.3. 輔助特徵選擇...................................................................................... 50 7.3.1. 斷詞統計量.................................................................................. 50. 7.3.2. 詞表標記...................................................................................... 51. 7.3.3. 政 治 大 聲韻.............................................................................................. 53 立. 模型的資料量需求.............................................................................. 56. 7.5. CRF 的整合學習 ................................................................................. 56. 7.6. LSTM 的結構調整 .............................................................................. 57. ‧. ‧ 國. 學. 7.4. 字嵌入的維度效果...................................................................... 57. y. Nat. 7.6.1. er. io. 7.6.3. sit. LSTM 模型層數 .......................................................................... 58. 7.6.2. Sequence to sequence .................................................................. 59. al. 7.7. n. v i n CRF 與 LSTM 的最佳整合 ................................................................ 60 Ch engchi U 唐代墓誌銘詞表修正結果.................................................................. 61. 7.8 第8章. 中國佛教寺廟志實驗結果分析.......................................................... 63. 8.1. 斷句模型選擇...................................................................................... 63. 8.2. 前後文範圍實驗.................................................................................. 64. 8.3. 輔助特徵選擇...................................................................................... 65 8.3.1. 斷詞統計量.................................................................................. 65. 8.3.2. 詞表標記...................................................................................... 66. 8.3.3. 聲韻.............................................................................................. 67 vi. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(9) 8.4. 模型的資料量需求.............................................................................. 68. 8.5. CRF 的整合學習 ................................................................................. 69. 8.6. LSTM 的結構調整 .............................................................................. 70 8.6.1. 字嵌入的維度效果...................................................................... 70. 8.6.2. 比較 LSTM 層數效果 ................................................................. 71. 8.6.3. Sequence to sequence .................................................................. 71. 8.7. CRF 與 LSTM 的最佳整合 ................................................................ 72. 8.8. 中國佛教寺廟志詞表修正結果.......................................................... 73. 政 治 大 參考文獻...................................................................................................................... 76 立 第9章. 結論及未來展望.................................................................................. 75. 附錄 A. 論文口試相關討論.............................................................................. 78. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. vii. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(10) 圖目錄 圖 1.1 無標點墓誌銘資料片段 .............................................................................................................. 3 圖 1.2 加入斷句符號的結果 .................................................................................................................. 3 圖 1.3 標點修訂結果 .............................................................................................................................. 3 圖 3.1 唐代墓誌銘 .................................................................................................................................. 8 圖 3.2《唐代墓誌彙編》書影................................................................................................................ 8 圖 3.3 《唐代墓誌彙編》數位化語料片段 .......................................................................................... 9 圖 3.4 中國佛教寺廟志書影 ................................................................................................................ 10. 政 治 大. 圖 3.5 中國佛教寺廟志數位化語料片段 ............................................................................................. 11. 立. 圖 3.6 自動斷句系統 ............................................................................................................................ 12. ‧ 國. 學. 圖 5.1 五層的雙向 LSTM 模型 ............................................................................................................ 25 圖 5.2 雙向 LSTM 增加特徵輸入模型 ............................................................................................... 26. ‧. 圖 5.3 LSTM SEQ2SEQ 所使用的模型................................................................................................... 28. sit. y. Nat. 圖 5.4 LSTM SEQ2SEQ-CODER 所使用的模型 ...................................................................................... 29. er. io. 圖 5.5 CRF-BAGGING 演算法 ................................................................................................................ 30. al. n. v i n Ch 圖 5.7 CRF 整合學習的機率方法 ........................................................................................................ 34 engchi U. 圖 5.6 CRF-BOOSTING 演算法 .............................................................................................................. 33. 圖 6.1 系統最佳化實驗步驟 ................................................................................................................ 42 圖 6.2 CRF 的自動標點、自動斷句效果 ............................................................................................ 44 圖 6.3 LSTM 的自動標點、自動斷句效果 ......................................................................................... 44 圖 6.4 不同向量格式效果..................................................................................................................... 45 圖 6.5 單向、雙向 LSTM 實驗結果 .................................................................................................... 46 圖 7.1 斷句模型比較(唐代墓誌銘) ..................................................................................................... 47 圖 7.2 前後文範圍效果比較(唐代墓誌銘) .......................................................................................... 49 圖 7.3 CRF 詞表標記效果(唐代墓誌銘) .............................................................................................. 52 viii. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(11) 圖 7.4 LSTM 詞表標記效果(唐代墓誌銘)........................................................................................... 52 圖 7.5 CRF 聲韻特徵效果(唐代墓誌銘) .............................................................................................. 54 圖 7.6 LSTM 聲韻特徵效果(唐代墓誌銘)........................................................................................... 54 圖 7.7 CRF 聲韻特徵效果(唐代墓誌銘詩詞) ...................................................................................... 55 圖 7.8 LSTM 聲韻特徵效果(唐代墓誌銘詩詞) ................................................................................... 55 圖 7.9 唐代墓誌銘「銘曰」後文字 .................................................................................................... 55 圖 7.10 模型資料需求(唐代墓誌銘) .................................................................................................... 56 圖 7.11 CRF 的整合學習(唐代墓誌銘) ................................................................................................ 57. 政 治 大. 圖 7.12 字嵌入的維度效果(唐代墓誌銘) ............................................................................................ 58 圖 7.13 LSTM 模型層數效果(唐代墓誌銘)......................................................................................... 59. 立. 圖 7.14 SEQUENCE TO SEQUENCE 效果(唐代墓誌銘) ............................................................................ 60. ‧ 國. 學. 圖 8.1 斷句模型比較(中國佛教寺廟志) .............................................................................................. 63. ‧. 圖 8.2 前後文範圍效果比較(中國佛教寺廟志) .................................................................................. 64 圖 8.3 CRF、LSTM 詞表標記效果(中國佛教寺廟志) ....................................................................... 67. sit. y. Nat. io. er. 圖 8.4 CRF 聲韻特徵效果(中國佛教寺廟志) ...................................................................................... 67 圖 8.5 LSTM 聲韻特徵效果(中國佛教寺廟志) ................................................................................... 68. al. n. v i n 圖 8.6 模型的資料需求(中國佛教寺廟志) 69 C h.......................................................................................... engchi U 圖 8.7 CRF 的整合學習(中國佛教寺廟志) .......................................................................................... 70. 圖 8.8 字嵌入的維度效果(中國佛教寺廟志) ...................................................................................... 70 圖 8.9 LSTM 模型層數效果(中國佛教寺廟志) ................................................................................... 71 圖 8.10 SEQUENCE TO SEQUENCE 效果(中國佛教寺廟志)..................................................................... 72. ix. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(12) 表目錄 表 3-1 人工斷句語料資訊 ...................................................................................................................... 7 表 4-1 文字分類範例 ............................................................................................................................ 13 表 4-2 前後文特徵範例........................................................................................................................ 14 表 4-3 T-TEST DIFFERENCE 特徵範例 .................................................................................................... 15 表 4-4 PMI 特徵範例 ............................................................................................................................ 15 表 4-5 聲韻範例.................................................................................................................................... 16 表 4-6 詞表標記範例............................................................................................................................ 17. 政 治 大. 表 4-7 詞表資料統計............................................................................................................................ 17. 立. 表 4-8 正確的詞表修正 ........................................................................................................................ 18. ‧ 國. 學. 表 4-9 長官職修正 ................................................................................................................................ 19 表 4-10 字嵌入轉換範例 ...................................................................................................................... 20. ‧. 表 4-11 官職表特徵的數值轉換範例 .................................................................................................. 22. sit. y. Nat. 表 4-12 各類聲韻總數.......................................................................................................................... 22. er. io. 表 4-13 聲韻(等)特徵的數值轉換範例 ................................................................................................ 22. al. n. v i n Ch 參數說明..................................................................................................... 35 engchi U. 表 5-1 CRF-BOOSTING 參數 ................................................................................................................. 32 表 5-2 SKLEARN-CRFSUITE. 表 5-3 斷句的混淆矩陣........................................................................................................................ 36 表 6-1 模型參數 .................................................................................................................................... 38 表 6-2 前後文特徵格式範例 ................................................................................................................ 40 表 6-3 輔助特徵格式範例 .................................................................................................................... 41 表 7-1 CRF、LSTM 的 F1 值比較(唐代墓誌銘)................................................................................. 49 表 7-2 CRF 加入斷詞統計量的斷句效果(唐代墓誌銘)...................................................................... 50 表 7-3 LSTM 加入斷詞統計量的斷句效果(唐代墓誌銘) .................................................................. 51 表 7-4 官職斷句結果範例.................................................................................................................... 52 x. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(13) 表 7-5 CRF+LSTM 的最佳組合(唐代墓誌銘)..................................................................................... 60 表 7-6 最佳模型調整(唐代墓誌銘)...................................................................................................... 61 表 7-7 詞表與長官職修正結果(唐代墓誌銘) ...................................................................................... 62 表 7-8 錯誤的長官職修正 .................................................................................................................... 62 表 8-1 CRF、LSTM 的 F1 值比較(中國佛教寺廟志)......................................................................... 65 表 8-2 中 CRF 的 PMI、T-DIFF 效果(國佛教寺廟志) ......................................................................... 66 表 8-3 LSTM 的 PMI、T-DIFF 效果(中國佛教寺廟志) ....................................................................... 66 表 8-4 CRF+LSTM 的最佳組合(中國佛教寺廟志)............................................................................. 72. 政 治 大. 表 8-5 最佳模型調整(中國佛教寺廟志) .............................................................................................. 73 表 8-6 詞表修正結果(中國佛教寺廟志) .............................................................................................. 74. 立. 表 8-7 錯誤的詞表修正 ........................................................................................................................ 74. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. xi. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(14) 第1章 緒論 1.1 研究背景與動機 直到 1919 年,胡適等人提出《請頒行新式標點符號議案》後,標點符號才開始 被應用於文章寫作當中。在此之前,作為漢語書面語的文言文則是以「無標 點」作為主要特徵的。由於句與句之間沒有標點的分割,讀者在閱讀時必須憑 藉自己的個人經驗和語感對文章進行斷句,用以理解文意。. 治 政 大 上記錄斷句位置。句讀通常以圈號代表句子的結尾,以點號代表語氣的停頓, 立 也就是後來的逗號、句號、問號、冒號、分號、頓號等標點符號的前身,這種 早在漢代開始,一些讀者為了方便下一次的閱讀,額外註記「句讀」在書. ‧ 國. 學. 加上句讀的過程稱作「圈點」。由於句讀是由讀者自行添加而非作者所寫,仍有. ‧. 部分仍需仰賴讀者的語感以及經驗,甚至產生難以解決的「歧義」的問題。例 如清人趙恬養寫下的「下雨天留客天留我不留」有七種不同斷句方法,每種都. sit. y. Nat. 有其不同含義。. n. al. er. io. 由於所處時代和閱讀經驗的不同,現代讀者大多閱讀已校注修改添加了標. i n U. v. 點符號的文言文資料。在資訊技術尚未應用在文言文斷句的時期,蘭和群[9]提. Ch. engchi. 出斷句的基本規則以及應該注意的問題。如利用句首常用的發語詞以及句尾表 示語氣的虛詞進行頭尾的斷句。除此之外,語句的固定搭配關係也能用來斷 句,像是「國有沃野之饒而民不足於食者工商盛而本業荒也」的「…者…也」 的搭配的斷句式,這類規則的提出使得文言文斷句有理可尋,也為之後的自動 斷句研究打下基礎。 隨著資訊科技的高速發展與普及,數位科技也逐漸應用於人文資料的分析 之中,為學者研究提供便利。早期古籍數位化的過程中,已經有學者透過正規 表示式、機器學習、深度學習等資訊技術進行自動化斷句。經過斷句的語料除 了能夠輔助閱讀,也能夠提示標點符號的位置,使文言文古籍的編修更方便。 1. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(15) 1.2 問題描述 「文言文斷句」的問題來自為了能夠清楚的理解文言文,加入「句讀」這類斷 句符號的工作。其中「句」代表話題的結束,而「讀」則是句子中語氣的停 頓,類似現代的句點與逗點。由於本研究的工作是進行斷句,並不做標點的分 類,因此能夠視為一種二元分類問題。. 1.3 研究目標 在自動斷句相關的研究中,其產生的結果仍難以達到完美。為了減少人工修正. 政 治 大 以及參數等方法進行組合測試,使斷句結果在設定的評估指標上達到最佳化。 立 所需的時間,本研究目標參考過去的研究成果,以多種的機器學習模型、特徵. ‧ 國. 學. 監督式學習是機器學習中能夠處理斷句問題的方法,提供高品質的參考標 準(ground truth),是產生可靠的斷句模型以及效能評估的第一步。其次,為了. ‧. 讓斷句程式的方法對不同語料具有通用性,比較模型與特徵等組合在不同語料. sit. y. Nat. 下的優劣表現也有其必要性。文言文的語料種類眾多,為了簡化問題的複雜. al. er. io. 度,本研究鎖定以《唐代墓誌彙編》以及中國佛教寺廟志透過專家完成編修的. v. n. 數位化資料進行斷句系統的測試與比較,取得具有通用性的方法組合。. 1.4 主要貢獻. Ch. engchi. i n U. 在大量古籍不斷的被發掘的過程中,大量未編修的文言文也被產生出來。為了 讓現在的讀者與研究者,在閱讀或翻譯方面有更好更便利的體驗,標點的編修 是十分必要的。由於編修的工作必須經過嚴謹的考究,在人力相對有限的情況 下,本研究藉由組合多種不同的方法產生一套最佳的自動斷句程式加快標點編 修的速度。如圖 1.1 無標點的文字不易閱讀,是造成閱讀並編修花費大量的精 力以及時間的主要原因。圖 1.2 將「逗號」作為斷句符號加入圖 1.1 的結果, 有效降低了閱讀的難易度,同時也達到了研究的預期目標。圖 1.3 則是更進一 2. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(16) 步依據語氣將斷句符號替換成更適合的標點符號。通過此步驟可以發現在標點 編修的過程中,斷句的步驟是相對困難與耗時的。加入斷句符號後,僅需要少 量的修改即可完成標點編修,進而節省大量的時間。 唐茅山燕洞宮大洞煉師彭城劉氏墓誌銘並序煉師道名致柔臨淮郡人也不知其 氏族所興和順在中光英發外婉妮有度柔明好仁中年於茅山燕洞宮傳上清法悅 詩書之義理造次不渝寶老氏之慈儉珍華不御言行無玷淑慎其身四十一年於茲 矣余三冊正司五秉旄鉞戟在戶輅車及門出入寵光無不盡見艱難危苦亦已備嘗 幼女乘龍一男應宿人世之美無所缺焉修短之間奚足為恨. 政 治 大 唐茅山燕洞宮大洞煉師彭城劉氏墓誌銘並序 立 圖 1.1 無標點墓誌銘資料片段. 煉師道名致柔,臨淮郡人也,不知其氏族所興,和順在中,光英發外,婉妮. ‧ 國. 學. 有度,柔明好仁,中年於茅山燕洞宮傳上清法,悅詩書之義理,造次不渝,. ‧. 寶老氏之慈儉,珍華不御,言行無玷,淑慎其身,四十一年於茲矣,余三冊. sit. y. Nat. 正司,五秉旄鉞,戟在戶,輅車及門,出入寵光,無不盡見,艱難危苦亦已 備,嘗幼女乘龍,一男應宿,人世之美,無所缺焉,修短之間,奚足為恨,. er. io. n. a l 圖 1.2 加入斷句符號的結果 i v n Ch 唐茅山燕洞宮大洞煉師彭城劉氏墓誌銘並序 U engchi. 煉師道名致柔,臨淮郡人也。不知其氏族所興。和順在中,光英發外,婉妮 有度,柔明好仁。中年於茅山燕洞宮傳上清法。悅詩書之義理,造次不渝; 寶老氏之慈儉,珍華不御。言行無玷,淑慎其身,四十一年於茲矣。余三冊 正司,五秉旄鉞,戟在戶,輅車及門,出入寵光,無不盡見,艱難危苦,亦 已備嘗。幼女乘龍,一男應宿,人世之美,無所缺焉;修短之間,奚足為 恨。 圖 1.3 標點修訂結果. 3. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(17) 1.5 論文架構 在第一章介紹研究背景、目標以及貢獻。第二章回顧相關的斷句研究以及能夠 用來加強機器學習效果的技術。第三章介紹文言文語料以及斷句程式的系統架 構。第四章進行語料的特徵抽取、格式轉換產生訓練資料以及測試資料。第五 章介紹多種斷句模型以及其調整方法。第六章建立一套流程產生最佳的斷句模 型。第七章以及第八章是唐代墓誌銘以及中國佛教寺廟志的實驗結果。第九章 為結論以及未來展望。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 4. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(18) 第2章 相關研究 語言是一種具有連續上下文相關性質的資料,同一個字、詞彙、句子處於不同 的上下文之中時便具有不同的意義,也因此用來處理序列型資料的模型適合用 來處理斷句的問題,以下介紹過去用在自動斷句的資訊技術。. 2.1 正規表示式 黃建年[6]等總結出農業古籍的斷句、標點識別模式,並以進一步以正規表示式 找到符合的位置進行自動斷句,經測試後平均準確率可以到達 48%。定出有效. 政 治 大. 的斷句規則仰賴學者對文言文語料的經驗與觀察,然而不同時期、類別的文言. 立. 文都有不同的句法習慣。儘管這類方法並不適合用於跨語料的文言文處理,但. ‧ 國. 學. 是這是一個能夠使用人類對語料經驗進行斷句的一個方法。. ‧. 2.2 機器學習. y. Nat. sit. 機器學習能以機器自動的分析出資料中的規律,比起學者以人工觀察或是以專. n. al. er. io. 業知識定出斷句規則,機器學習能更有效率的處理大量的文言文語料。條件隨. i n U. v. 機場(Conditional Random Fields, CRF)是適合處理序列資料的機器學習模型,並. Ch. engchi. 且在古文斷句上取得不錯的效果。特徵選擇會影響機器學習的分類效果,黃瀚 萱[8]使用上下文漢字、Huang[13]等導入漢字字音、張開旭[4]等則導入 t-test difference、PMI 等統計量。然而上述的研究使用的上下文漢字範圍較小,並且 尚未使用整合學習等增強模型效果的方法,尚未完整發揮 CRF 的效果。. 5. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(19) 2.3 深度學習 深度學習是機器學習的一個特別的分支,其特點是讓模型自動的找出其特徵。 循環神經網路(recurrent neural network, RNN)是一種深度學習的模型,能夠有效 處理序列問題。其中 Long Short-Term Memory(LSTM)是 RNN 的變形,參考了 人類記憶的模式,由四個不同的神經元組成,分別用來記憶、遺忘、輸入、輸 出,也因此比起 RNN 增加了長期記憶的能力。 Junyoung Chung[12]等提出了 Gated Recurrent Unit(GRU)模型,其原理是對. 政 治 大 Yao[19]等使用雙向 LSTM 進行中文斷詞的工作,其結果說明雙向訓練的 LSTM 立 LSTM 進行架構簡化,因此在特定資料集能夠比 LSTM 更快的收斂。Yushi. 比起 RNN 以及單向的 LSTM 有更好的斷詞效果。王博立[1]等以雙向 GRU 自動. ‧ 國. 學. 學習上下文的特徵進行古文斷句,並且取得比主流的 CRF 取得更好的結果。. ‧. Ilya Sutskever[18]等提出了 sequence to sequence 模型,其原理參考人類翻譯的模. y. Nat. 式,將文字以概念的形式進行轉換,主要解決 RNN 無法處理不定長度序列的. n. al. er. io 2.4 整合學習. sit. 輸入輸出的問題,而在本研究中則參考其概念轉換的方法進行自動斷句,. Ch. engchi. i n U. v. Boosting 以及 Bagging 是兩種整合學習的演算法,藉由整合多個模型達到更好 的效果。Boosting 的原理在於針對弱點產生新模型進行弱點的補救,而 Bagging 的原理在於多種不同的模型投票產生預測結果。由於 Boosting 及 Bagging 的演 算法有許多不同的分支,為了簡化研究的複雜度,本研究以 Ra´ul Rojas[17]所 寫的 AdaBoost 介紹作為 Boosting 的方法參考,而 Bagging 方法則是參考 Ho, Tin Kam [14]所提出的 Random Forest。上述的整合方法,除了能夠增加機器學 習的效果,甚至能夠整合機器學習以及深度學習模型的效果,其方法在接下來 的章節進行介紹。 6. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(20) 第3章 語料及系統架構 為了能最佳化自動斷句系統的結果,使之能減少後續人工檢查所需的時間,本 章的目的是產生高品質的人工斷句語料以及能進行調教的自動斷句系統,以下 介紹使用的語料以及系統架構。. 3.1 語料來源及前處理 可靠的人工斷句語料來源以及適當的前處理能夠讓斷句系統產生的結果更有參. 政 治 大 統計數據,在 3.2 節以及立 3.3 節中分別介紹其來源、歷史背景以及前處理方法。 考價值。表 3-1 是唐代墓誌銘以及中國佛教寺廟志完成前處理後的數位化資料. ‧ 國. 學 總字數. 唐代. 4,992 篇. 2,378,164 446,981 5.32. 明、清、民國. 15 本. 1,120,653 210,738 5.31. 平均句長. sit. er. n. al. 總句數. y. 總數. io. 中國佛教寺廟志. 年代. Nat. 唐代墓誌銘. ‧. 語料. 表 3-1 人工斷句語料資訊. Ch. engchi. i n U. v. 7. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(21) 3.2 唐代墓誌銘. 立. 政 治 大. ‧. ‧ 國. 學 圖 3.1 唐代墓誌銘. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.2《唐代墓誌彙編》書影 8. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(22) 墓誌銘作為一種文體,其內容多為死者生平簡介,常見於墳墓中或碑刻之上。 另外中國古代還有祭文、行狀的寫法如圖 3.1 所示。《唐代墓誌彙編》是一部最 初專門研究唐代墓志銘的專書,由唐史專家周紹良[2]所撰寫,於 1992 年上海 古籍出版社出版,書影如圖 3.2 所示。本研究所使用的數位化資料是哈佛的團 隊以光學字元識別(Optical Character Recognition, OCR)技術對《唐代墓誌彙編》 掃描進行數位化,也因此在圖 3.3 中可看到一些 OCR 無法辨識的字元以方框 「□」顯示在電子檔中。 目前取得已編修的《唐代墓誌彙編》數位化資料總數是 5036 篇,其文字已. 政 治 大 五月廿九日雍州長安縣清化鄉宜君縣開國子故戚纂妻趙夫人」,在前處理中去掉 立 經增加了標點符號。為了減少與斷句無關的內容,例如其中的一篇「貞觀六年. 長度小於 30 字,經人工編修後仍沒有標點符號的唐代墓誌銘,剩下 4992 篇。. ‧ 國. 學. 如圖 3.3 第一行的「武德001【志文】偽。」所示,數位化資料的每一篇的. ‧. 開頭有「年號」、「編號」、「分類」的標示,由於這類資訊是編修者所加,並非. io. sit. y. Nat. 屬於唐代墓誌銘的內容,因此在前處理中以人工的方式將之去除。. er. 武德001【志文】偽。女子蘇玉華墓誌銘弘文館學士歐陽詢撰並書女子玉華,蓋洗馬蘇. al. n. v 弘文館學士 i n Ch 武德003【蓋】失。【志文】大唐洛州別駕大將軍崔公妻庫狄夫人墓誌銘夫人諱真相, engchi U 武德004【蓋】失【志文】夫人諱月相,隴西狄道人也。真人應物,道盛隆周;丞相佐 武德002【志文】偽。唐故臥龍寺黃葉和尚墓誌銘 守黃門侍郎許敬宗制. 武德005【蓋】失【志文】□諱長先,字後巳,博陵安平人也。自六韜陳策,四履專征, 武德006【蓋】失志文大唐左監門衛副率哥舒季通葬馬銘 太子中允王知敬制並書爰有 開明001【蓋】失。【志文】大鄭上柱國鄧國公故太夫義安郡夫人元氏墓誌夫人諱買得 開明002【蓋】鄭故大將軍郢公墓銘【志文】鄭故上柱國游擊大將軍貝等十州刺史郢 開明003【蓋】鄭故大將軍虞公之銘【志文】鄭故大將軍舒懿公之墓誌銘君諱匡伯,京 圖 3.3 《唐代墓誌彙編》數位化語料片段. 9. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(23) 3.3 中國佛教寺廟志. 立. 政 治 大. ‧. ‧ 國. 學 圖 3.4 中國佛教寺廟志書影. y. Nat. 中國佛教寺廟志資料來自是地方志或地方性歷史文獻,其內容有佛寺歷史沿. er. io. sit. 革、築、建設、高僧傳記、法語詩偈,法脈傳承,感應事跡等,亦有兼及佛寺 所在地之地理、人文、風俗的記載,或地圖、建物圖、人像等。其數位化資料. al. n. v i n 來自「中央研究院歷史語言研究所」及「法鼓文理學院」合作製作的中國佛教 Ch engchi U 寺廟志數位典藏。. 中國佛教寺廟志數位化資料有 237 本,其中完成編修的 15 本。由於其括號 內的文字僅作補充說明,為了避免對斷句系統的干擾,前處理的過程中便將括 號以及括號內的文字刪除。圖 3.5 是數位化語料的片段,其中第四行「屈屈吒 播陀(此言雞足),亦名窶盧播陀(此言尊足)」,經前處理後的結果是「屈屈吒 播陀,亦名窶盧播陀」。. 10. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(24) 普陀洛迦新志卷首 序一 釋迦入滅,以金縷袈裟付摩訶迦葉波。迦葉奉衣,住雞足山以待慈氏。據奘師所 記,屈屈吒播陀(此言雞足) ,亦名窶盧播陀(此言尊足),在摩竭陀國,莫訶河東 百餘里。道里明白如此。乃今雲南賓川之境,有雞足山,亦以爲卽迦葉傳衣示寂之 處,著之山志。 《華嚴》末會,鞞瑟胝羅居士告善財言:「南方有山,名補怛洛迦, 有菩薩名觀自在。」 圖 3.5 中國佛教寺廟志數位化語料片段. 3.4 系統架構 圖 3.6 是自動斷句系統的系統架構,主要由「語料前處理」、「數據集建立」、. 政 治 大. 「模型建立與評估」三個部分組成,其中方框代表一個處理程序,圓角的方框. 立. 代表機器學習的模型,而文件圖示則表示語料、詞表等資料。在「語料前處. ‧ 國. 學. 理」的步驟為系統建立可靠的資料輸入,人工斷句語料的取得以及前處理方式 已經在 3.1 節說明。在「數據集建立」的步驟從語料中擷取能用來斷句的資. ‧. 訊,透過「特徵擷取」取得文字的特徵,而「文字標記」則是取得文字的斷. y. Nat. sit. 句、非斷句的分類標記,最後在「資料分割」步驟中建立「訓練、測試資料」。. n. al. er. io. 其中「詞表資料」能夠在「特徵擷取」步驟中提供額外的資訊,也可以透過. i n U. v. 「正規表示式修正」步驟中修正「機器斷句語料」的結果。在「模型建立與評. Ch. engchi. 估」的步驟藉由擷取出的資訊建立斷句的方法並進行效果的評估,最後由評估 結果進行「模型調整」、「特徵調整」、「正規表示式修正」優化自動斷句效果, 而這些優化的步驟在 6.4 節中進行說明。. 11. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(25) 語料前處理 人工斷句語料. 語料前處理. 數據集建立 文字標記. 特徵擷取. 立. 詞表資料. 訓練/測試資料. ‧. ‧ 國. 資料分割. 學. 特徵調整. 政 治 大. 正規表示式修正. n. er. io. sit. y. Nat. al. 未斷句語料. C h斷句模型 engchi. iv n U機器斷句語料. 模型建立與評估. 效果評估. 模型調整. 圖 3.6 自動斷句系統. 12. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(26) 第4章 數據集建立 本章的目的是將完成前處理的語料進行文字標記以及特徵抽取,並進行格式的 轉換使其能夠給機器學習模型訓練及測試;除此之外加入的詞表資料除了能夠 增加文字的特徵以外,也能對斷句結果進行修正,以下進行詳細的介紹。. 4.1 文字標記 以表 4-1 有標點的唐代墓誌銘片段為例,句中裡的每一個字被分類為結尾 E 類. 政 治 大. (End)或是非結尾 I 類(Intermediate)兩類,屬於 E 類的字代表句子的末端,也就. 立. 是斷句位置。. ‧ 國. 學 表 4-1 文字分類範例. ‧. 唐代墓誌片段:女子玉華,蓋洗馬蘇君之季女也。. I. 洗. 馬. 蘇. 君. E. I. I. I. I. I. al. n 4.2 前後文特徵. 之. y. I. 蓋. sit. I. 華. I. 季. 女. 也. I. I. E. er. 玉. io. 子. Nat. 女. Ch. engchi. i n U. v. 過長的前後文範圍會使得不相關的字詞干擾機器學習模型的判斷,而過短的範 圍會導致訊息不足。令Ci 為一段文字中的第 i 個單字詞,其前後文Ci−k ~Ci+k 代. 表Ci 以及Ci 的前後 k 字字串,其範圍文字長度為 n 的序列(n-gram)組合便是Ci 的. 特徵。為了能夠清楚說明,Ci 是「華」、k=3、n-gram 中選用單字詞(unigram)、 二字詞(bigram)、三字詞(trigram)組合的範例如表 4-2 所示。. 13. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(27) 表 4-2 前後文特徵範例. 語料片段 編號 文字. 女子玉華,蓋洗馬蘇君之季女也, Ci−3. Ci−2. 女. Ci−1. 子. 玉. Ci. Ci+1. 華. 蓋. 單字詞. 女, 子, 玉, 華, 蓋, 洗, 馬. 二字詞. 女子, 子玉, 玉華, 華蓋, 蓋洗, 洗馬. 三字詞. 女子玉, 子玉華, 玉華蓋,華蓋洗,蓋洗馬. 4.3 斷詞統計量特徵. 4.3.1 t-test difference. Ci+2 洗. Ci+3 馬. 政 治 大. 立. ‧ 國. 學. 假設有一串文字vxyw,P(w|y)以及P(y|x)分別代表𝑦𝑦出現後緊接w的機率以及𝑥𝑥. ‧. 出現後緊接𝑦𝑦的機率。因此P(w|y) − P(y|x)的結果若為正值,則代表y的連接傾. y. Nat. 向w,反之則傾向𝑥𝑥。σ2 (P(w|y))則代表P(w|y)的方差,其值越大表示平均值距. sit. io. 離越遠、可信程度越低,σ2 (P(y|x))同理。綜上所述,t x,w (y)的絕對值越大,. n. al. er. 其傾向的程度越高,而正負值則代表傾向的方向,其中參數詳細的計算方式可 以參考 Kenneth Church[11]等所寫的計算公式。. Ch. t x,w (y) =. i n U. v. i eP(w|y) n g c−hP(y|x). �σ2 (P(w|y)) + σ2 (P(y|x)). dts (x, y) = t v,y (x) − t x,w (y). (1). (2). 孫茂松、肖明[3]等參考公式( 1 )產生公式( 2 )並將其定義為 t-test difference,且 證明其值越大在vxyw中的x 與 y連結傾向越大,反之越小則傾向斷開。本論文. 使用dts (x, y)的值作為單字𝑥𝑥的斷詞統計量特徵,並且為了方便論文的撰寫,將. t-test difference 簡稱做「t-diff」。以表 4-3 為例,文字「子」的 t-diff 特徵為. dts �子, 蘇�所計算,並且得到較周圍文字低的值,是一個傾向與下一字「蘇」 斷開的現象,能有效提供斷詞的位置。. 14. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(28) 表 4-3 t-test difference 特徵範例. 來源語料. 女子蘇玉華墓誌銘弘文館學士歐陽詢撰. 文字. 女. 子. 蘇. 玉. 華. 墓. 誌. 銘. 特徵. 18.19. -5.37. 1.28. 3.26. -67.71. 67.44. 2.65. -67.31. 4.3.2 Pointwise Mutual Information 假設有一串文字vxyw,t-diff 判斷 x 與 y 連接或斷開的情形將前後文字 v 與 w 納入考慮,彭維謙[5]所提出的 Pointwise Mutual Information(PMI)僅考慮x 與 y之. 政 治P(x, y)大 立PMI(x, y) = log P(x)P(y). 間連接的機率,計算方法如( 3 )所示。. (3). 2. ‧ 國. 學. 其中P(x, y)代表𝑥𝑥與𝑦𝑦連接的機率,而P(x),P(y)是x, y各自的機率。PMI 值越高,. ‧. 連接機會越大,反之則傾向斷開。本論文將計算出的PMI(x, y)作為單字詞𝑥𝑥向下. 一單字詞y的連結程度加進特徵,當做斷詞點的參考數據。在表 4-4 中可以看到. sit. y. Nat. 在文字「華」以及「銘」當中的 PMI 值比起周圍文字低,是傾向斷開的現象,. n. al. 來源語料. 表 4-4 PMI 特徵範例. Ch. engchi. er. io. 透過 PMI 的資訊能夠有效提供斷詞的位置。. i n U. v. 女子蘇玉華墓誌銘弘文館學士歐陽詢撰. 文字. 女. 子. 蘇. 玉. 華. 墓. 誌. 銘. 特徵. -11.40. -11.86. -11.92. -11.73. -15.01. -4.47. -5.52. -15.72. 4.4 聲韻特徵 韻文押韻在句子內有其固定的規則,例如唐詩平仄相對的現象。若是文言文中 隱含著聲韻規則,加入聲韻也能間接提供斷句位置的提示。Huang[13]等人在 CRF 上使用注音、反切、廣韻等聲韻特徵分別單獨測試,將效果最好的反切特 徵與前後文特徵一起使用,結果能些微的提升前後文特徵的 F1 值,因此是值得 15. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(29) 測試的一個項目。中國首部由政府主修的韻書《廣韻》,全名《大宋重修廣 韻》,是宋朝陳彭年等人奉詔修訂的韻書,是根據隋代的《切韻》及唐代的《唐 韻》進行編修而成,因此其聲韻較適用於唐代的墓誌銘,而中國佛教寺廟志所 橫跨的年代眾多,為了簡化問題的難度也以《廣韻》作為聲韻的參考資料。廣 韻字表提供字以及其小韻跟解釋,而小韻是該字的同音字,配合小韻表能夠找 到字的反切、聲母、韻母、韻目、聲調、等、呼。在漢語聲韻學中,字音是由 聲母、韻母、聲調所組成,其中聲調又分為平、上、去、入。而早期的漢字注 音法是由反切上字(聲母)和反切下字(韻母及聲調)組成。本研究所使用的聲韻資. 政 治 大. 料來自韻典網 1,文字與聲韻的對應範例如表 4-5 所示。. 表 4-5 聲韻範例. 學. 來源語料. 女子玉華,蓋洗馬蘇君之季女也, 女. 子. 玉. 華. 蓋. 反切. 尼吕. 即里. 魚欲. 胡化. 古盍. 呼. 開口. 開. 開. 合. 開. 等. 三. 三. 二. 聲母. 孃. 精. 調. 上. 上. 韻母. 魚. 韻目. 語. 1.. 韻典網,http://ytenx.org/。. 洗. 馬. 蘇典. 莫下. n. al. 開. 開. 一. v ni. 四. 二. C h疑 e n g c匣h i U 見. 心. 明. er. io. 三. sit. y. Nat. 文字. ‧. ‧ 國. 立. 入. 去. 入. 上. 上. 之. 燭. 麻二合. 盍. 先開. 麻二開. 止. 燭. 禡. 盍. 銑. 馬. 16. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(30) 4.5 詞表標記特徵 特定的人名、官職等詞彙經常作為主詞或受詞出現在句首或句尾,因此能透過 詞表訊息,進而觀察能否有效提高斷句效果,唐代墓誌銘使用的唐代詞表來自 China Biographical Database 2 (CBDB),而中國佛教寺廟志則使用電子佛教詞典 3. 。本論文使用的詞表資料統計於表 4-7,而詞表標記範例如表 4-6 所示。其中. B(begin)是詞彙開頭,而 I(intermediate)是詞彙中,結尾則是 E(end),若都不是 則標記 O(other),其中又以 I 類最能用來提示「非斷句」的位置。. 俄. 轉. 節. 度. 判. 官. 提. O. O. B. I. I. E. O. 表 4-7 詞表資料統計. er. io. 詞彙數量 a適用語料 iv l C n 唐代墓誌銘 h e n g c h i U 2843. n 唐代地名表. sit. y. Nat 唐代官職表. ‧. 標記結果. 立. 學. 文字. 表 4-6 詞表標記範例. 俄轉節度判官,提知之道,皎然明白,和而不柔,守而通。. ‧ 國. 來源語料. 政 治 大. 唐代墓誌銘. 2866. 唐代年號表. 唐代墓誌銘. 60. 佛教詞表. 中國佛教寺廟志. 111153. 2. CBDB, https://projects.iq.harvard.edu/chinesecbdb/home .. 3. 電子佛教詞典, http://www.buddhism-dict.net/ddb/ . 17. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(31) 4.6 正規表示式修正 本節的目的是透過正規表示式的搜尋,修正機器學習產生的斷句結果。在 4.6.1 節中說明如何以正規表示式搜尋在斷句結果中被斷開的詞彙,在 4.6.2 節中說明 在文言文中出現的長官職的現象以及如何以正規表示式修正的方法,以下進行 詳細介紹。 4.6.1 詞表修正方法. 政 治 大 表 4-8 的「唯珍重珍,重不宣」,詞彙「珍重」被斷開成「珍,重」。詞表修正 立 斷句模型是基於單字詞進行處理,因此會出現詞彙間出現斷句點的現象。例如. 方法便是使用正規表示式找出被斷開的詞彙組合「珍,重」全數修正成「珍. ‧. ‧ 國. 學. 重」。. 表 4-8 正確的詞表修正. sit. y. Nat. io. al. 唯珍重、珍重,不宣. 斷句程式. 唯珍重珍,重不宣. 結果修正. 唯珍重珍重不宣. n. 人工標記. er. 中國佛教寺廟志部分文字. Ch. engchi. i n U. v. 4.6.2 長官職修正 由於古代的官職有複數個官職組合成產生一個「長官職」的現象,而官職能夠 作為主詞,也就是句子的開頭,也因此特別容易被斷句模型斷開。對於這樣的 現象,我們利用官職表提供的官職,進行相連官職的合併,並且得到正確的斷 句結果,步驟及範例如表 4-9 所示。. 18. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(32) 表 4-9 長官職修正. 步驟. 唐代墓誌銘片段文字. 機器斷句. 詔贈賻物一千五百段,禮也,仍令上柱國,殿中少監. 增加括號. 詔贈賻物一千五百段,禮也,仍令<上柱國>,<殿中少監>. 移除>,<. 詔贈賻物一千五百段,禮也,仍令<上柱國殿中少監>. 移除括號. 詔贈賻物一千五百段,禮也,仍令上柱國殿中少監. 人工斷句. 詔贈賻物一千五百段,禮也,仍令上柱國殿中少監. 4.7 格式轉換. 政 治 大 不同的模型以及工具,輸入的資料形態以及格式有各自的規定。本研究使用的 立. ‧ 國. 學. CRF 模型特徵是字串形態,而 LSTM 則是數值形態。對於 CRF 模型,數值形 態的 PMI 以及 t-diff 這類特徵需要轉換成字串形態。對於 LSTM 模型,字串形. er. io. sit. y. Nat. 4.7.1 字嵌入. ‧. 態的前後文特徵需要轉換成數值形態才能進行輸入。. 由於 LSTM 的特徵必須是數值形態,若是需要讀取文字特徵則需要一套方法將. al. n. v i n C hencoding 是一種將文字資料數值化的方法,對 文字轉換成數值。傳統的 one-hot engchi U 於種類繁多的中文字會產生大維度的稀疏向量造成計算空間的浪費。詞嵌入. (Word Embedding)是取代傳統 one-hot encoding 的主流方法,使用神經網路基於 上下文將詞彙轉換成向量,比起 one-hot encoding 能以更低的維度表示文字且保 留其語義。詞嵌入將文字轉換成向量的單位是詞彙,然而中文不像英文詞彙跟 詞彙之間有空白分割,需要先經過斷詞系統,再將詞彙轉成向量。由於主流的 中文斷詞系統 Chinese Knowledge and Information Processing 4(CKIP)及 Jieba 5是. 4. CKIP, http://ckipsvr.iis.sinica.edu.tw/. 5. Jieba, https://github.com/fxsjy/jieba/ 19. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(33) 針對白話文所設計,且尚未有可靠的文言文斷詞系統,因此本研究的斷詞方式 略過了二字詞、三字詞等多字詞彙的斷詞工作,僅以單字詞的方式對文字進行 斷詞。為了與詞彙為單位的詞嵌入概念區別,在本研究中將此步驟稱為字嵌入 (Character Embedding)方法,表 4-10 為以唐代墓誌銘語料片段進行字嵌入轉換 的結果範例,為了方便檢視範例中的小數點僅取到第三位。轉換的方式以參考 語料的句點作為分句單位,將句中的單字詞作為詞彙輸入,並額外增加「!」 作為文章開頭、結尾的標示。由於字嵌入只能轉換本身訓練資料的文字,本研 究增加「*」符號代替無法轉換的文字,也就是未知文字的標示。字嵌入產生. 政 治 大 就越好。但是更大的維度需要更多的訓練時間,而且在字數不多的情況下,更 立 的文字向量維度越大,能提供的文字細節就越多,一般而言訓練模型的效果也. 大的維度沒辦法更精確的表達一個字的向量。為了讓斷句模型的訓練時間以及. ‧ 國. 學. 效果在合理的範圍,找出一個足夠表達不同文字的向量大小是一個必須的步. ‧. io. sit. y. Nat. 表 4-10 字嵌入轉換範例. 語料. 女子玉華,蓋洗馬蘇君之季女也…. 字嵌入. 女: 0.756, 0.296, 0.758 , … , 0.201. n. al. Ch. engchi. er. 驟。. i n U. v. 子: 2.066, 2.427, 1.599, … , 1.331. 玉: 1.222, 1.229, 0.401, … , -1.961 華: -3.341, -1.418 , -0.385, … , -2.221 …. 20. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(34) 4.7.2 數值轉字串 CRF 特徵必須是字串形態,因此在張開旭[4]等的研究中也提到需要將 PMI、tdiff 這類數值形態的特徵進行轉換,然而論文中並沒有提供詳細的轉換方法, 因此本節說明在本研究中的 CRF 數值特徵轉換成字串的方式。 在 python 中內建的數值轉字串的方法是直接將數值進行轉型,其方法是以 數值的十進位表示方式作為轉換的結果,例如十進位數值 3.14 的轉換為字串結 果是由字元「3」、「.」、「1」、「4」所組成的字串「3.14」。儘管這個方法能夠快. 政 治 大 儘管數值 3.14 以及 3.2 的值相近,對於 CRF 來說字串「3.14」以及「3.2」僅是 立 速的完成數值字串化,卻也造成了相近數值卻不能歸類為同一類的問題,例如. 兩類不同的字串,若是能將兩者轉換為同一字串「3」除了能減低計算複雜度,. ‧ 國. 學. 同時也增加數值字串化後產生的每類字串的資訊量。在本研究中為了解決這樣. ‧. 的問題,透過排序數值特徵,將之分割成十個不同的區間,並確保每一區間都. sit er. io. 4.7.3 字串轉數值. y. Nat. 有相同數量且相近的值,如此一來便能夠達到上述的效果。. al. n. v i n LSTM 的模型除了在字嵌入的步驟中,將前後文以 word2vec 將文字進行向量轉 Ch engchi U. 換,尚有聲韻特徵以及名詞表是字串形態,需要先行轉換成數值。word2vec 將 文字轉成向量的過程仰賴該文字的前後文資訊進行轉換,也就是只能是語句、 文章等形式的資料,然而聲韻及名詞表的資料並不屬於這類範疇,為了解決這. 樣的問題,本研究改以 one-hot encoding 的方式進行轉換。在名詞表的特徵中, 每個名詞的開頭被標記為 B,中間被標記為 I,而結尾為 E,不屬於以上三類的 其他文字則標記為 O,能夠以長度為 3 的 one-hot encoding 向量進行轉換,如表 4-11 所示。而聲韻中的聲母、調、等、呼的種類較少,如表 4-12 所示,也能 夠以 one-hot encoding 進行轉換,轉換結果如表 4-13 所示;反切等種類較多的 21. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(35) 聲韻種類除了會造成維度過大,且資料過於離散的狀況下對斷句效果也會產生 負面影響,因此這類特徵並不納入 LSTM 模型的訓練測試中。. 表 4-11 官職表特徵的數值轉換範例. 來源語料. 俄轉節度判官,提知之道,皎然明白,和而不柔,守而通。. 文字. 俄. 轉. 節. 度. 判. 官. 提. 標記結果. O. O. B. I. I. E. O. 轉換結果. 0,0,0. 0,0,0. 1,0,0. 0,1,0. 0,1,0. 0,0,1. 0,0,0. 聲母. 韻目. 調. 1168. 38. 236. 4. 466. 等 4. 女. 子. 聲韻(等). 三. 三. 轉換結果. 0,0,1,0. 0,0,1,0. 華. 三. 二. 0,0,1,0. 0,1,0,0. n. al. 玉. Ch. engchi. 韻母. 2. 160. y. sit. io. 文字. 蓋. er. 女子玉華,蓋洗馬蘇君之季女也,. 呼. ‧. 表 4-13 聲韻(等)特徵的數值轉換範例. Nat. 來源語料. 反切下字. 學. 總數. 立. 反切上字. ‧ 國. 音韻表. 政 治 大. 表 4-12 各類聲韻總數. i一v n U. 1,0,0,0. 洗. 馬. 四. 二. 0,0,0,1. 0,1,0,0. 22. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(36) 第5章 模型建立與評估. 5.1 CRF 模型 條件隨機場是馬可夫隨機場(Markov Random Fields, MRF)的一種形式。由於 CRF 同樣具有馬可夫性質(Markov Property),因此經常用於處理序列型資料分 類的問題。而斷句正是一個典型序列型分類的問題,以下以斷句為範例做 CRF 的基本介紹。. 政 治 大 中各個頂點𝑣𝑣的隨機變量集合。給定觀察序列𝑋𝑋,若每一個點都符合馬可夫性 立. 根據 Lafferty[16]的定義,令G = (V, E)為一個無向圖,𝑌𝑌 = {𝑌𝑌𝑣𝑣 |𝑣𝑣 ∈ 𝑉𝑉}是圖. ‧ 國. 學. 質,也就是 𝑃𝑃(𝑌𝑌𝑣𝑣 |𝑋𝑋, 𝑌𝑌𝑤𝑤 , 𝑤𝑤 ≠ 𝑣𝑣) = 𝑃𝑃(𝑌𝑌𝑣𝑣 |𝑋𝑋, 𝑌𝑌𝑤𝑤 , 𝑤𝑤 ∼ 𝑣𝑣),其中𝑤𝑤 ∼ 𝑣𝑣表示 𝑤𝑤與𝑣𝑣相. ‧. 鄰,則序列𝑋𝑋, 𝑌𝑌 能以 CRF 表示。本研究的觀察序列𝑋𝑋是《唐代墓誌彙編》的文 字特徵,而狀態序列𝑌𝑌則是對應到每個文字的斷句與否的標記類別。在已知文. sit. y. Nat. 字序列𝑋𝑋下可以用 CRF 預測每個文字所對應到的標記類別𝑌𝑌。. al. er. io. 本研究使用的是 linear-chain CRF,為 CRF 參考 HMM(Hidden Markov. v. n. Model, HMM)所產生的其中一種形式。給定序列狀態X,狀態序列Y的 CRF 機率 分佈公式如( 4 )所示。. Ch. engchi 𝑚𝑚. i n U. 1 𝑃𝑃𝜆𝜆 (𝑌𝑌|𝑋𝑋) = exp �� � 𝜆𝜆𝑘𝑘 𝑓𝑓𝑘𝑘 (𝑦𝑦𝑡𝑡−1 , 𝑦𝑦𝑡𝑡 , 𝑋𝑋, 𝑡𝑡)� 𝑍𝑍𝜆𝜆 (𝑋𝑋) 𝑡𝑡=1. (4). 𝑘𝑘. 𝑍𝑍𝜆𝜆 (𝑋𝑋)為正規化係數,使𝑃𝑃𝜆𝜆 (𝑌𝑌|𝑋𝑋)的值介於 0 到 1 之間。𝜆𝜆𝑘𝑘 為𝑓𝑓𝑘𝑘 的權重,為了最 佳化權重需要參考訓練資料進行調整,取得最大的𝑃𝑃𝜆𝜆 (𝑌𝑌|𝑋𝑋)值。𝑓𝑓𝑘𝑘 則是 CRF 的 特徵函數,通常回傳值為 0 或 1。𝑘𝑘為特徵函數的數量,𝑚𝑚則是𝑋𝑋, 𝑌𝑌 的序列長 度。. 23. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(37) 5.2 LSTM 模型 LSTM 是 RNN(Recurrent Neural Networks)的一種變形。由於 RNN 不擅長進行長 期的記憶,能分析的前後文範圍較短。為了改進這一問題 LSTM 加入了記憶、 遺忘、輸入、輸出四種不同神經元所組成的類神經網路,使神經元能夠根據問 題類型自行決定記憶的時間。由於一般的單向 LSTM 是記憶先前發生過的事 情,只能夠根據前文的資訊進行斷句的判斷。透過結合另一組反向輸入訓練資 料的 LSTM 的模型,也就是雙向 LSTM,能夠讓 LSTM 能夠分析前後文是否需. 政 治 大 為了方便論文敘述,若無特別提及,實驗用到的 LSTM 就是雙向 LSTM。 立. 要斷句的問題。在 6.5.3 節的實驗中證明了雙向 LSTM 的效果優於單向 LSTM,. 類神經網路一般分為輸入層、輸出層、隱藏層,通常隱藏層越多就能夠模. ‧ 國. 學. 擬越複雜的非線性關係。本研究使用 Keras 的 Bidirectional(CuDNNLSTM)作為. ‧. 雙向 LSTM 的類神經元,而雙向、單向的差別與在自動斷句上的效果在 6.5.3. y. Nat. 節進行詳細介紹。其中 CuDNN 的字樣代表能夠以 NVidia 顯卡進行加速的. er. io. sit. Keras 模型,如圖 5.1 所示。而為了能夠讓 LSTM 能夠同時輸入前後文特徵與 其他特徵,本研究設計了有兩個輸入來源的 LSTM 模型,如圖 5.2 所示,其中. al. n. v i n 左邊的輸入用來處理前後文特徵,而右邊的輸入則處理其他的輔助特徵,例如 Ch engchi U t-diff、PMI、聲韻等。由於右邊的輸入接上左邊 LSTM 的輸出結果,而輸出結 果僅有一層的 Dense,層數不足以學習其他特徵的輸入,因此增加 Dense 層數 至五層。由於本研究中將斷句問題轉換成分類問題處理,因此輸出層 Dense 的 激活函數(activation function)使用常用於分類問題的 Sigmoid,並且以深度學習 主流的演算法 Adam 進行優化。. 24. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(38) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 5.1 五層的雙向 LSTM 模型. 25. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(39) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 5.2 雙向 LSTM 增加特徵輸入模型 26. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(40) 5.3 Sequence to sequence LSTM 本研究使用兩種不同的 sequence to sequence 方法,差別僅在有無使用 encoder 以及 decoder,以下將無 encoder 的模型簡稱為「seq2seq」,而加入 encoder、 decoder 的模型稱在本研究簡稱為「seq2seq-coder」,架構如圖 5.3 以及圖 5.4 所示。由於原本的 LSTM 模型給定一個文字的前後文,再對其進行斷句或非斷 句的分類。而 seq2seq 則是給定一串文字,讓模型根據該段文字的前後文進行 轉譯,轉譯的輸出是該串文字內的分類結果產生的序列。這樣的方式相較於先. 政 治 大 而 seq2seq-coder 則參考了人類翻譯的流程,將文字經過理解轉換成概念, 立. 前只提供單字分類的方法,更提供了前後文字的分類結果。. 再將概念轉換成其他文字,主要能夠解決 RNN 無法處理不定長度的輸入輸出. ‧ 國. 學. 的困境,而在本研究中則期望可以以概念的角度進行斷句的判斷。其中 encoder. ‧. 進行理解的程序,將輸入轉換成固定長度的 context vector 作為概念,再以. y. Nat. decoder 將 context vector 輸出分類序列,這樣比起先前的 seq2seq 模型,能以更. er. io. sit. 全面的資訊進行斷句位置的判斷。在實作方面,本研究的 encoder 以三層的 LSTM 組成,而 decoder 以二層的 LSTM 組成,其中 LSTM 的輸入必須為序列. al. n. v i n 形式,因此作為中繼的 context Cvector h e n也必須是序列形式。然而讀取完前後文序 gchi U. 列的 encoder 的輸出結果並非序列,需要透過 Keras 的模組 RepeatVector 以重複 輸出其結果的方式產生序列,也就是本研究使用的 context vector。而最後一層 的 TimeDistributed 則是用來調整 decoder 的輸出維度,使輸入的字嵌入序列轉 換成代表斷句、非斷句的 1 或 0 的序列。. 27. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(41) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 5.3 LSTM seq2seq 所使用的模型. 28. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(42) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 5.4 LSTM seq2seq-coder 所使用的模型. 29. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(43) 5.4 CRF 整合學習模型 本研究透過參考 Random Forest 以及 AdaBoost 兩種整合學習的方法增強 CRF 的 效果,以下進行詳細的介紹。. 5.4.1 CRF-Bagging CRF-Bagging 的步驟參考了由 Ho, Tin Kam[14]所提出的 Random Forest,其特點 為透過隨機選取部分資料以及特徵,配合平行處理的技術減少訓練所需要的時. 政 治 大 特徵,以此生成隨機的 CRF 模型𝑔𝑔(𝑥𝑥)。透過 random_CRF 在迴圈中產生T種隨 立 間,步驟如圖 5.5 所示。步驟中的函式 random_CRF 進行隨機抽取訓練資料與. ‧ 國. 學. 機產生的 CRF 模型後,由G(x) ← ∑𝑇𝑇𝑡𝑡=1 𝑔𝑔𝑡𝑡 (𝑥𝑥)將每個不同的 CRF 預測結果加總,. 其值越高代表為斷句點的機率越高。. ‧. io. sit. y. Nat. Initial Input:文字特徵序列 X 以及其對應的標記類別 Y 以及 X 的特徵集合 Feature Output:CRF-Bagging 斷句模型G(x). n. al. er. function random_CRF(X, Y, F) 𝑓𝑓 ← a subset of F Xf ← 𝑋𝑋 𝑢𝑢𝑢𝑢𝑢𝑢 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 in f 𝑔𝑔(𝑥𝑥) ← 𝐶𝐶𝐶𝐶𝐶𝐶. 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡(𝑋𝑋𝑓𝑓 , 𝑌𝑌). Ch. engchi. i n U. v. return 𝑔𝑔(𝑥𝑥) end function. for t ← 1,2,3 … , T g t (𝑥𝑥) ← random_CRF(X, Y, Feature) end for. return G(x) ← ∑𝑇𝑇𝑡𝑡=1 𝑔𝑔𝑡𝑡 (𝑥𝑥). 圖 5.5 CRF-Bagging 演算法. 30. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(44) 5.4.2 CRF-Boosting CRF-Boosting 的步驟參考由 R. Rojas[17]所寫的 AdaBoost 演算法,其原理是增 加前一個分類器分類錯誤的資料權重,並以此訓練下一個分類器。演算法使用 的變數以及步驟如圖 5.6 及表 5-1 所示,以下說明變數以及函式的意義。u(1). 代表在初始時間t = 1的時候將各個文字特徵的權重進行初始化。函式. weight_CRF_model將X與Y根據權重增加或減少其資料數量,並以調整過後的資 (t). 料Xweight 與Yweight 進行訓練,其中調整資料數量的計算方法 un ∙ N ∙ c 在初始 (1). 1. 政 治 大. 的權重 un 是 N,因此相乘的結果會是c,也就是在Xweight 中的xn 在開始時會被. 立. 1. (t). ‧ 國. 學. 重複放入c次。這樣的設定目的是讓未來un 小於N時,xn 較不會一次都沒有被放 入,導致在訓練 CRF 模型的步驟中因為訓練資料太少導致模型無法充分發揮效 (t). ‧. 果。ϵt 是時間為t時訓練出的模型g t (x)的錯誤率,其中分子∑N N=1 un [yn ≠. Nat. (t). y. sit. io. g t (xn )]代表正確答案與預測結果不相符時權重的總和,而分母∑N N=1 un 代表所 1−ϵt. er. 有權重的總和。∇t代表調整下一輪權重的幅度,其計算公式�. al. ϵt. 在ϵt 小於 0.5. n. v i n 時,也就是分類器的判斷準確率超過五成的時候其值會大於 1。如此一來在標 Ch engchi U (t). 記類別判斷錯誤的情況下,時將原本的權重un 乘上∇t增加其權重產生下一次訓 (t+1). 練所使用的權重un. ,反之亦同。G(x)將每輪訓練出來的模型g t (x)根據αt 加權. 所產生的整合模型,如此一來完成整合學習的步驟。. 31. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(45) 表 5-1 CRF-Boosting 參數. N. 訓練資料中的文字特徵數量. xn. X中第n個文字特徵,也就是文字中抽取的特徵資訊. yn. Y中第n個文字的標記類別. X. 訓練資料中的文字特徵序列. Y. 訓練資料中的文字標記. (t). un. Xweight. (t). u 中第n個文字特徵的權重. 政 治 大. 增加X中權重高的資料、減少權重小的資料的結果. 立. 增加Y中權重高的資料、減少權重小的資料的結果. 學. Yweight. X在第t次訓練中的權重序列. ‧ 國. (t). u. c. 被重複放入的次數,使用者可以調整c進行縮放調整. ϵt. 訓練結果的錯誤率,是分類錯誤的資料權重除以總權重的結果. αt. 第t次訓練所產生的模型權重. Ch. y er. n. al. sit. 增加、減少下一輪權重的幅度. io. G(x). Nat. ∇t. 完成訓練的 CRF 模型. ‧. g t (x). i n U. v. 由多組g t (x)配合其權重αt 產生的整合學習模型. engchi. 32. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(46) Initial Input: 文字特徵序列X以及其對應的標記類別Y Output: CRF-Boosting 斷句模型G(x) N ← length(X) 1 1 1. 1. u(1) ← [N , N , N , . . . , N] ( initialize the weight of xn in X, n ← 1,2,3, … , N ) function weight_CRF_model(X, Y, u(t) ). Xweight ← {xn , xn , … , xn |xn ∈ X, n = 1,2,3, … , N} ⏟. (t) un ∙N∙c-times. Yweight ← {yn , yn , … , yn |Yn ∈ Y, n = 1,2,3, … , N} ⏟. (t) un ∙N∙c-times. 政 治 大. g t (x) ← CRF.train(Xweight , Yweight ). 立. ‧ 國. 學. return g t (x) end function for t ← 1,2, … , T. g t (x) ← weight_CRF_model(X, Y, u(t) ). (t+1). un }else{ }. (t+1). un. ‧ y. sit. al. er. if ( yn ≠ g t (xn )){. n. ϵt. io. 1−ϵt. ∇t ← �. (t) ∑N N=1 un. Nat. ϵt ←. (t) ∑N N=1 un [yn ≠ g t (xn )]. (t). ← un ∙ ∇t (t). Ch. engchi. i n U. v. ← un /∇t. αt ← ln(∇t) if ( αt < 0 ){ break }. end for. return G(x) ← ∑Tt=1 αt g t (x). 圖 5.6 CRF-Boosting 演算法. 33. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

(47) 5.4.3 CRF 整合學習的機率值輸出 由於整合學習是多個模型進行預測所產生出來的結果,最後加總出來的值以及 判斷斷句與否的門檻值(threshold)並不一定介於 0~1 之間。為了能讓 CRF 整合 學習的結果能以機率值的形式輸出,方便 5.5 節中與 LSTM 模型輸出結果的整 合。本研究透過 threshold 與輸出分數的最大最小值進行調整,使最後的結果範 圍在 0~1 之間,並且 threshold 的值最後落在 0.5、最大值在 1.0、最小值則是 0.0,方法如圖 5.7 所示。 Initial Input: 整合學習預測分數 score_list 以及 threshold Output: 範圍在 0~1 且 threshold 在 0.5 的預測分數. 治 政 max_score ← max( score_list ) 大 立) min_score ← min( score_list. ‧. ‧ 國. 學. output_list ← [ ] (empty list) for score in score_list if(score >= threshold){ output ← 0.5 + (score - threshold)*0.5 / (max_score - threshold) }. y. Nat. sit. n. al. er. io. else{ output ← 0.5 - (threshold - score)*0.5 / (threshold – min_score) } output_list.append(output). end for return output_list. Ch. engchi. i n U. v. 圖 5.7 CRF 整合學習的機率方法. 5.4.4 CRF 整合學習的輸出調整 由於整合學習是由多個不同的模型進行預測結果加總,因此在最後的階段必須 選擇一個門檻值判定加總值在多少以上才能視為斷句。本論文用的方法是對訓 練資料進行預測,並將結果的最低分至最高分均分為 100 個區間測試其 F1 分數 並取其最高分的結果作為門檻值對測試資料進行斷句。提高門檻值能夠增加 Precision,反之可以增加 Recall,由於使用者對 Precision 及 Recall 有各自的偏 好,因此本研究所設計的斷句系統門檻值能夠讓使用者根據自身偏好調整。 34. DOI:10.6814/THE.NCCU.CS.022.2018.B02.

參考文獻

相關文件

 NULL 不指向任何地方,故不會有值,所 以對 NULL

電腦內部是使⽤用位元 (Bit) 這個基本單位來表⽰示資料 並儲存於記憶單元 (記憶體) 或輔助記憶單元 (硬碟) 中。.. 每個位元只可以表⽰示

學博士,現為上海大學文學院教 授,兼任佛光山人間佛教研究院

唐洛京佛授記寺慧苑傳 唐處州法華寺智威傳 唐台州國清寺湛然傳 唐蘇州開元寺元浩傳 唐越州暨陽杭烏山智藏傳 唐梓州慧義寺神清傳

大多是對佛教進行管理方面的內容。前已述及,唐令迄今為止已經佚失。二十世紀初,在中

3.結論-(1)記憶的歷程分為短期記 憶、長期記憶(2)短期記憶經選擇 與複習成為長期記憶(3)短期記憶

• External Sort: 資料太大了, 有些要放到別的地方 (硬碟, 記憶 卡, 網路上的其他電腦上, 等等等).. •

下列關於 CPU 的敘述,何者正確?(A)暫存器是 CPU 內部的記憶體(B)CPU 內部快取記憶體使 用 Flash Memory(C)具有 32 條控制匯流排排線的 CPU,最大定址空間為