中國佛教寺廟志詞表修正結果 - 唐代墓誌銘與中國佛教寺廟志斷句研究

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 8-5 最佳模型調整(中國佛教寺廟志)

實驗項目 LSTM CRF

模型層數 5 None

字嵌入維度 50 None

前後文範圍 10 4

PMI、t-diff △ PMI, t-diff

聲韻 △ △

詞表標記 △ △

CRF 的整合學習 None CRF-Boosting sequence to sequence △ None

8.8 中國佛教寺廟志詞表修正結果

在 7.8 節中提到唐代墓誌銘的詞表修正效果不明顯的原因是其中詞彙數量的不足，因此在本節使用詞彙較多的詞表能驗證這個問題所造成的影響。中國佛教寺廟志的斷句修正結果如表 8-6 所示，其中 CRF 以及 LSTM 的設定與 8.2 節所設定的 baseline 相同，其修正的結果分別是 RE-CRF、RE-LSTM，修正的方式僅用 4.6.1 節的詞表修正方法。儘管在 RE-CRF 以及 RE-LSTM 中 Precision 分別進步了約 3%、1%，卻因為 Recall 的下降而使 F1 值沒有太大的改變。這樣的現象源自於正規表示式的規則缺乏語境的分析，例如表 8-7 中的「譬如搖樹取果，熟者前墮」，在上例中「果，熟」並不是一個詞彙，若是任意的取代反而會減少原本應該被斷句的位置導致 Recall 降低。綜合本節以及 7.8 節的實驗結果，足夠的詞表詞彙可以提高 Precision，但是相對的也會降低 Recall 導致 F1 值沒有太大的改變。由於本研究的目標是以提高 F1 值的效果作為主軸，詞表修正方法因為其缺乏語境分析的缺陷不納入最佳化的方法之一。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 8-6 詞表修正結果(中國佛教寺廟志)

Precision Recall F1 CRF 0.669 0.607 0.636 RE-CRF 0.699 0.586 0.637 LSTM 0.730 0.611 0.665 RE-LSTM 0.745 0.592 0.660

表 8-7 錯誤的詞表修正

中國佛教寺廟志部分文字人工標記譬如搖樹取果，熟者前墮斷句程式譬如搖樹取果，熟者前墮結果修正如搖樹取果熟者前墮

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第9章結論及未來展望

本研究透過嘗試模型架構的調整、模型的整合、特徵選擇等多種方法，產生斷句效果最佳的模型。過程中發現較為有用的方法是整合學習以及斷詞統計量的技術，其中使用的整合學習方法分別是「CRF-Boosting」以及「CRF+LSTM」，

而兩個斷詞統計量 PMI 以及 t-diff 則能進一步提升 CRF 的效果。透過各種實驗驗證的參數組合，最後在「CRF+LSTM 的最佳整合」步驟中產生最好的斷句結果，其 F1 值在唐代墓誌銘以及中國佛教寺廟志中分別得到最佳的 0.873 及 0.675，也證明了本研究的斷句方法在不同語料的通用性。而經過加強過自動斷句程式，能夠讓古文編修者能更有效的輔助閱讀，也能減少增加標點所需要的工作時間，進而加快編修的速度達到本研究預期的目的。

儘管在本論文的實驗中找到了一些能有效增加斷句效果的技術，然而有更多的技術歷經許多測試、分析，卻無法達到良好的效果。在聲韻特徵的測試中，因為發現詩詞僅佔語料一小部分導致無明顯的效果，我們進一步的抽取出詩詞的部分、嘗試將加入所有聲韻組合，僅在 LSTM 上使用「調」能夠些微的增加斷句的效果。而在 CRF、LSTM 加入詞表標記特徵以及以正規表示式進行詞表修正，考慮了詞表中詞彙的數量過少、長官職的例外狀況等，然而這些方法都沒有使斷句的效果增加。除此之外一些模型的架構 CRF-Bagging 以及兩種 sequence to sequence 的模型也都沒有增加斷句的效果。或許現階段這些方法並沒有如願的使自動斷句的效果更好，但是未來能夠透過篩選詞表中的詞彙、嘗試其他的 LSTM 結構、改進 CRF-Bagging 隨機抽取特徵等方法，使文言文斷句的系統的效果更好，使古籍編修的工作更加輕鬆。

‧

Information）斷詞於《資治通鑑》的應用為例，國立台灣大學，資訊工程所，碩士論文；指導教授：項潔，2012。

[10]Ethem Alpaydin, Introduction to Machine Learning (2nd ed.). The MIT Press.

489-493, 2010.

[11]Kenneth Church, William Gale, Patrick Hanks, Donald Hindle, Using Statistics in Lexical Analysis, Lexical Acquisition: Exploiting On-Line Resources to

Build a Lexicon, 1991.

[12]Junyoung Chung, Caglar Gulcehre and KyungHyun Cho, Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling, arXiv:1412.3555,

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2014.

[13]Hen-Hsen Huang, Chuen-Tsai Sun, and Hsin-Hsi Chen,Classical Chinese Sentence Segmentation, CIPS-SIGHAN Joint Conference on Chinese Language

Processing, 2010.

[14]Ho, Tin Kam, Random Forest, Proceedings of the 3rd International Conference on Document Analysis and Recognition, 1995.

[15]Mikhail Korobov, sklearn-crfsuite, https://sklearn-crfsuite.readthedocs.io/, 2015.

[16]J. Lafferty, A. McCallum and F. Pereira, Conditional Random Fields:

Probabilistic Models for Segmenting and Labeling Sequence Data, Proceedings of the 8th international conference on machine learning, 282-289, 2001.

[17]R. Rojas, AdaBoost and the Super Bowl of Classifiers: A Tutorial Introduction to Adaptive Boosting, 3-5, 2009.

[18]Ilya Sutskever, Oriol Vinyals and Quoc V. Le, Sequence to Sequence Learning with Neural Networks, Advances in Neural Information Processing Systems 27, NIPS 2014.

[19]Yushi Yao and Zheng Huang, Bi-directional LSTM Recurrent Neural Network for Chinese Word Segmentation, arXiv preprint arXiv:1602.04874, 2016.

‧

下簡單說明∇t的計算方式以及效果，並且在論文中補充說明 CRF-Boosting、

CRF-Bagging 各個變數的細節，減少讀者理解上的困擾。∇t在通常的情況下，也就是錯誤率ϵt小於 0.5 時，一半以上的資料被預測正確，這時∇t的值

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

型結構將斷句系統的效能最佳化。

I. 論文口試本對於實驗設定以及實驗結果的說明太少，造成讀者除了不清楚實驗比較的基準，也難以從結果中得到有用的資訊。已在第 6 章增加資料輸入格式的說明、baseline 設定，並且在第 7 章、第 8 章增加實驗結果的分析等項目，其中也加入了詞表標記特徵以及詞表修正方法的比較及分析說明。

在文檔中唐代墓誌銘與中國佛教寺廟志斷句研究 - 政大學術集成 (頁 86-93)

中國佛教寺廟志詞表修正結果

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

8.8 中國佛教寺廟志詞表修正結果

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第9章 結論及未來展望

‧

Build a Lexicon, 1991.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

Processing, 2010.

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

立政治大學

立政治大學

第9章結論及未來展望

立政治大學

立政治大學