國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 7-6 最佳模型調整(唐代墓誌銘)
實驗項目 LSTM CRF
模型層數 5 None
字嵌入維度 50 None
前後文範圍 10 5
斷詞統計量 △ PMI, t-diff
聲韻 △ △
詞表標記 △ △
CRF 的整合學習 None △
sequence to sequence △ None
7.8 唐代墓誌銘詞表修正結果
由於在 7.3.2 節中提到機器並沒有人類的領域知識,而透過人工設計正規表示式 修正自動斷句的結果可以解決此問題,因此本節藉由 4.6 節所設計方法對 CRF 以及 LSTM 的 baseline 產生的自動斷句結果進行修正,並進行效果的分析。唐 代墓誌銘的自動斷句修正結果如表 7-7 所示,CRF 及 LSTM 的修正的結果分別 是 RE-CRF、RE-LSTM,其結果幾乎與未修正前相同。推估其原因有兩點,第 一點是在 7.3.2 節中便提到的詞表數量過少的問題,而第二點是以正規表示式修 正長官職的方式也會產生錯誤的現象。以表 7-8 為例,一些連續的官職並不是 長官職,而是稱呼不同的人物,如此一來會造成錯誤的修正。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 7-7 詞表與長官職修正結果(唐代墓誌銘)
Precision Recall F1 CRF 0.842 0.794 0.817 RE-CRF 0.842 0.793 0.817 LSTM 0.867 0.858 0.863 RE-LSTM 0.869 0.857 0.863
表 7-8 錯誤的長官職修正
步驟 唐代墓誌銘片段文字
人工標記 給事中,博、陳二州刺史,朝請大夫,襲贊皇縣上柱國開國男 斷句程式 給事中,博、陳二州刺史,朝請大夫,襲贊皇縣上柱國開國男 結果修正 給事中,博、陳二州刺史朝請大夫,襲贊皇縣上柱國開國男
‧
非常高的原因在於 SVM 的參數 max_iteration 設定為 5000,也就是從資料中劃定 斷句、非斷句的邊界調整次數僅 5000 次。在邊界劃分不精確的情況下產生低 Precision、高 Recall 的狀況,也就是大量的文字都被誤判斷為斷句點。若要增加 SVM 的 Precision 可以提高 max_iteration。然而在模型眾多且時間有限的情況下,本研究僅以表 6-1 設定的參數進行比較,不在做進一步的參數調整。
Precision Recall F1
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
8.2 前後文範圍實驗
在表 8-1 的實驗結果中顯示使用前後文中的單字詞、二字詞為特徵的 CRF 在 k=4 時達到 CRF 最好的效果,其中在圖 8.2 中可以看到 k=4 之後的 F1 值開始 下降的現象,可能是資料不足產生的 overfitting 現象。另外以前後文中的單字 詞為特徵的 LSTM 則是在 k=10 達到最高的 F1 值。綜上所述,本實驗將以前後 文範圍 k=4 的單字詞、二字詞作為 CRF 的特徵以及使用 k=10 範圍的單字詞作 為 LSTM 的特徵,其對應 F1 值於表 8-1 以粗體表示,並以此為基礎進行斷句 效果的增強。
圖 8.2 前後文範圍效果比較(中國佛教寺廟志) 0.50
0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90
1 2 3 4 5 6 7 8 9 10
F1 socre
Context Size (k)
LSTM unigram CRF unigram+bigram CRF unigram
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 8-1 CRF、LSTM 的 F1 值比較(中國佛教寺廟志)
CRF LSTM
k unigram unigram+bigram unigram+bigram+trigram unigram unigram +bigram 1 0.514 0.589 0.591 0.566 0.532 2 0.549 0.635 0.634 0.623 0.562 3 0.566 0.648 0.644 0.643 0.576 4 0.577
0.652
0.648 0.664 0.611 5 0.575 0.649 0.644 0.664 0.607 6 0.574 0.643 0.638 0.671 0.617 7 0.571 0.640 0.634 0.673 0.626 8 0.570 0.634 0.628 0.659 0.611 9 0.567 0.629 0.624 0.678 0.621 10 0.565 0.625 0.6190.679
0.6228.3 輔助特徵選擇
本節的目的是在前後文特徵中分別加入輔助特徵,確認哪一些輔助特徵能夠增 加其效果,以下進行詳細的介紹。
8.3.1 斷詞統計量
如表 8-2 所示,斷詞統計量能有效的幫助 CRF 斷句,使其 F1 值增加約 2%左 右。而在表 8-3 的結果中 LSTM 上則不明顯,甚至有降低的趨勢,其原因應與 7.3.1 節說明的相同。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 8-2 中 CRF 的 PMI、t-diff 效果(國佛教寺廟志)
CRF Feature Precision Recall F1
t-diff 0.726 0.614 0.666
PMI 0.736 0.593 0.657
t-diff + PMI 0.733 0.611
0.667
baseline 0.723 0.589 0.649表 8-3 LSTM 的 PMI、t-diff 效果(中國佛教寺廟志)
LSTM Feature Precision Recall F1
t-diff 0.725 0.606 0.660
PMI 0.666 0.667 0.666
t-diff noise 0.675 0.592 0.631 PMI noise 0.675 0.568 0.617 baseline 0.691 0.668
0.679
8.3.2 詞表標記
在 7.3.2 中提到唐代墓誌銘所使用的詞表詞彙數量過少的問題,而本實驗所使用 的佛教詞典取出的詞表詞彙數量相對充足,數量約是唐代墓誌銘所有詞表中的 詞彙總和的 20 倍。因此本實驗的目的是根據本實驗所產生的結果,判斷詞表標 記特徵是否有必要繼續用於自動斷句上。圖 8.3 是佛教詞典的詞表標記與 baseline 進行比較的結果,其中 CRF 詞表效果與 CRF baseline 幾乎相同,而 LSTM 詞表與 LSTM baseline 比較則是略為下降。從結果可以得知效果不好的 原因並不是詞表中的詞彙數量不足的問題,而是詞表中的詞彙作為機器學習的 特徵並不能很有效的幫助自動斷句,因此在詞表的使用方法剩下以 8.8 節中使 用正規語言進行結果的修正。
‧
CRF baseline CRF 詞表 LSTM baseline LSTM 詞表
Precision Recall F1
0.50
Precision Recall F1
‧
Precision Recall F1
‧
能讓 CRF-Boosting 加強的地方相對較多。綜上所述,在中國佛教寺廟志中使用 CRF-Boosting 能夠有效提高斷句的效果。0.50
baseline CRF-Bagging CRF-Boosting
‧
baseline CRF-Bagging CRF-Boosting
0.686 0.708 0.697
0.5880.633 0.6380.671 0.6600.678
0.0 Precision Recall F1
‧
8.6.3 Sequence to sequence
本節的實驗目的以及設定已在 7.6.3 節中詳細說明,以下僅根據結果進行分析以 及選擇較佳的實驗設定。圖 8.10 是 sequence to sequence 與 baseline 使用相同特 徵的實驗結果,結果顯示 sequence to sequence 的兩種架構 F1 值與 baseline 的相 近,其理由與 7.6.3 節所述相同,因此自動斷句系統中仍然以 baseline 所使用的
Precision Recall F1
‧
8-5 之中,其中「None」代表該模型無法使用,而「△」代表無法提升 baseline 效果的特徵或是模型參數、架構。在 CRF+LSTM 的 F1 值超過 LSTM 約 1%,seq2seq seq2seq-coder baseline
Precision Recall F1
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 8-5 最佳模型調整(中國佛教寺廟志)
實驗項目 LSTM CRF
模型層數 5 None
字嵌入維度 50 None
前後文範圍 10 4
PMI、t-diff △ PMI, t-diff
聲韻 △ △
詞表標記 △ △
CRF 的整合學習 None CRF-Boosting sequence to sequence △ None