國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 8-5 最佳模型調整(中國佛教寺廟志)
實驗項目 LSTM CRF
模型層數 5 None
字嵌入維度 50 None
前後文範圍 10 4
PMI、t-diff △ PMI, t-diff
聲韻 △ △
詞表標記 △ △
CRF 的整合學習 None CRF-Boosting sequence to sequence △ None
8.8 中國佛教寺廟志詞表修正結果
在 7.8 節中提到唐代墓誌銘的詞表修正效果不明顯的原因是其中詞彙數量的不 足,因此在本節使用詞彙較多的詞表能驗證這個問題所造成的影響。中國佛教 寺廟志的斷句修正結果如表 8-6 所示,其中 CRF 以及 LSTM 的設定與 8.2 節所 設定的 baseline 相同,其修正的結果分別是 RE-CRF、RE-LSTM,修正的方式 僅用 4.6.1 節的詞表修正方法。儘管在 RE-CRF 以及 RE-LSTM 中 Precision 分別 進步了約 3%、1%,卻因為 Recall 的下降而使 F1 值沒有太大的改變。這樣的現 象源自於正規表示式的規則缺乏語境的分析,例如表 8-7 中的「譬如搖樹取 果,熟者前墮」,在上例中「果,熟」並不是一個詞彙,若是任意的取代反而會 減少原本應該被斷句的位置導致 Recall 降低。綜合本節以及 7.8 節的實驗結 果,足夠的詞表詞彙可以提高 Precision,但是相對的也會降低 Recall 導致 F1 值 沒有太大的改變。由於本研究的目標是以提高 F1 值的效果作為主軸,詞表修正 方法因為其缺乏語境分析的缺陷不納入最佳化的方法之一。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 8-6 詞表修正結果(中國佛教寺廟志)
Precision Recall F1 CRF 0.669 0.607 0.636 RE-CRF 0.699 0.586 0.637 LSTM 0.730 0.611 0.665 RE-LSTM 0.745 0.592 0.660
表 8-7 錯誤的詞表修正
中國佛教寺廟志部分文字 人工標記 譬如搖樹取果,熟者前墮 斷句程式 譬如搖樹取果,熟者前墮 結果修正 如搖樹取果熟者前墮
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第9章 結論及未來展望
本研究透過嘗試模型架構的調整、模型的整合、特徵選擇等多種方法,產生斷 句效果最佳的模型。過程中發現較為有用的方法是整合學習以及斷詞統計量的 技術,其中使用的整合學習方法分別是「CRF-Boosting」以及「CRF+LSTM」,
而兩個斷詞統計量 PMI 以及 t-diff 則能進一步提升 CRF 的效果。透過各種實驗 驗證的參數組合,最後在「CRF+LSTM 的最佳整合」步驟中產生最好的斷句結 果,其 F1 值在唐代墓誌銘以及中國佛教寺廟志中分別得到最佳的 0.873 及 0.675,也證明了本研究的斷句方法在不同語料的通用性。而經過加強過自動斷 句程式,能夠讓古文編修者能更有效的輔助閱讀,也能減少增加標點所需要的 工作時間,進而加快編修的速度達到本研究預期的目的。
儘管在本論文的實驗中找到了一些能有效增加斷句效果的技術,然而有更 多的技術歷經許多測試、分析,卻無法達到良好的效果。在聲韻特徵的測試 中,因為發現詩詞僅佔語料一小部分導致無明顯的效果,我們進一步的抽取出 詩詞的部分、嘗試將加入所有聲韻組合,僅在 LSTM 上使用「調」能夠些微的 增加斷句的效果。而在 CRF、LSTM 加入詞表標記特徵以及以正規表示式進行 詞表修正,考慮了詞表中詞彙的數量過少、長官職的例外狀況等,然而這些方 法都沒有使斷句的效果增加。除此之外一些模型的架構 CRF-Bagging 以及兩種 sequence to sequence 的模型也都沒有增加斷句的效果。或許現階段這些方法並 沒有如願的使自動斷句的效果更好,但是未來能夠透過篩選詞表中的詞彙、嘗 試其他的 LSTM 結構、改進 CRF-Bagging 隨機抽取特徵等方法,使文言文斷句 的系統的效果更好,使古籍編修的工作更加輕鬆。
‧
Information) 斷詞於《資治通鑑》的應用為例,國立台灣大學,資訊工 程所,碩士論文;指導教授:項潔,2012。[10]Ethem Alpaydin, Introduction to Machine Learning (2nd ed.). The MIT Press.
489-493, 2010.
[11]Kenneth Church, William Gale, Patrick Hanks, Donald Hindle, Using Statistics in Lexical Analysis, Lexical Acquisition: Exploiting On-Line Resources to
Build a Lexicon, 1991.
[12]Junyoung Chung, Caglar Gulcehre and KyungHyun Cho, Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling, arXiv:1412.3555,
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
2014.
[13]Hen-Hsen Huang, Chuen-Tsai Sun, and Hsin-Hsi Chen,Classical Chinese Sentence Segmentation, CIPS-SIGHAN Joint Conference on Chinese Language
Processing, 2010.
[14]Ho, Tin Kam, Random Forest, Proceedings of the 3rd International Conference on Document Analysis and Recognition, 1995.
[15]Mikhail Korobov, sklearn-crfsuite, https://sklearn-crfsuite.readthedocs.io/, 2015.
[16]J. Lafferty, A. McCallum and F. Pereira, Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data, Proceedings of the 8th international conference on machine learning, 282-289, 2001.
[17]R. Rojas, AdaBoost and the Super Bowl of Classifiers: A Tutorial Introduction to Adaptive Boosting, 3-5, 2009.
[18]Ilya Sutskever, Oriol Vinyals and Quoc V. Le, Sequence to Sequence Learning with Neural Networks, Advances in Neural Information Processing Systems 27, NIPS 2014.
[19]Yushi Yao and Zheng Huang, Bi-directional LSTM Recurrent Neural Network for Chinese Word Segmentation, arXiv preprint arXiv:1602.04874, 2016.
‧
‧
下簡單說明∇t的計算方式以及效果,並且在論文中補充說明 CRF-Boosting、CRF-Bagging 各個變數的細節,減少讀者理解上的困擾。∇t在通常的情況 下,也就是錯誤率ϵt小於 0.5 時,一半以上的資料被預測正確,這時∇t的值
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
型結構將斷句系統的效能最佳化。
I. 論文口試本對於實驗設定以及實驗結果的說明太少,造成讀者除了不清楚實 驗比較的基準,也難以從結果中得到有用的資訊。已在第 6 章增加資料輸入 格式的說明、baseline 設定,並且在第 7 章、第 8 章增加實驗結果的分析等 項目,其中也加入了詞表標記特徵以及詞表修正方法的比較及分析說明。