• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 7-6 最佳模型調整(唐代墓誌銘)

實驗項目 LSTM CRF

模型層數 5 None

字嵌入維度 50 None

前後文範圍 10 5

斷詞統計量 △ PMI, t-diff

聲韻 △ △

詞表標記 △ △

CRF 的整合學習 None △

sequence to sequence △ None

7.8 唐代墓誌銘詞表修正結果

由於在 7.3.2 節中提到機器並沒有人類的領域知識,而透過人工設計正規表示式 修正自動斷句的結果可以解決此問題,因此本節藉由 4.6 節所設計方法對 CRF 以及 LSTM 的 baseline 產生的自動斷句結果進行修正,並進行效果的分析。唐 代墓誌銘的自動斷句修正結果如表 7-7 所示,CRF 及 LSTM 的修正的結果分別 是 RE-CRF、RE-LSTM,其結果幾乎與未修正前相同。推估其原因有兩點,第 一點是在 7.3.2 節中便提到的詞表數量過少的問題,而第二點是以正規表示式修 正長官職的方式也會產生錯誤的現象。以表 7-8 為例,一些連續的官職並不是 長官職,而是稱呼不同的人物,如此一來會造成錯誤的修正。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 7-7 詞表與長官職修正結果(唐代墓誌銘)

Precision Recall F1 CRF 0.842 0.794 0.817 RE-CRF 0.842 0.793 0.817 LSTM 0.867 0.858 0.863 RE-LSTM 0.869 0.857 0.863

表 7-8 錯誤的長官職修正

步驟 唐代墓誌銘片段文字

人工標記 給事中,博、陳二州刺史,朝請大夫,襲贊皇縣上柱國開國男 斷句程式 給事中,博、陳二州刺史,朝請大夫,襲贊皇縣上柱國開國男 結果修正 給事中,博、陳二州刺史朝請大夫,襲贊皇縣上柱國開國男

非常高的原因在於 SVM 的參數 max_iteration 設定為 5000,也就是從資料中劃定 斷句、非斷句的邊界調整次數僅 5000 次。在邊界劃分不精確的情況下產生低 Precision、高 Recall 的狀況,也就是大量的文字都被誤判斷為斷句點。若要增加 SVM 的 Precision 可以提高 max_iteration。然而在模型眾多且時間有限的情況下,

本研究僅以表 6-1 設定的參數進行比較,不在做進一步的參數調整。

Precision Recall F1

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8.2 前後文範圍實驗

在表 8-1 的實驗結果中顯示使用前後文中的單字詞、二字詞為特徵的 CRF 在 k=4 時達到 CRF 最好的效果,其中在圖 8.2 中可以看到 k=4 之後的 F1 值開始 下降的現象,可能是資料不足產生的 overfitting 現象。另外以前後文中的單字 詞為特徵的 LSTM 則是在 k=10 達到最高的 F1 值。綜上所述,本實驗將以前後 文範圍 k=4 的單字詞、二字詞作為 CRF 的特徵以及使用 k=10 範圍的單字詞作 為 LSTM 的特徵,其對應 F1 值於表 8-1 以粗體表示,並以此為基礎進行斷句 效果的增強。

圖 8.2 前後文範圍效果比較(中國佛教寺廟志) 0.50

0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90

1 2 3 4 5 6 7 8 9 10

F1 socre

Context Size (k)

LSTM unigram CRF unigram+bigram CRF unigram

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 8-1 CRF、LSTM 的 F1 值比較(中國佛教寺廟志)

CRF LSTM

k unigram unigram+bigram unigram+bigram+trigram unigram unigram +bigram 1 0.514 0.589 0.591 0.566 0.532 2 0.549 0.635 0.634 0.623 0.562 3 0.566 0.648 0.644 0.643 0.576 4 0.577

0.652

0.648 0.664 0.611 5 0.575 0.649 0.644 0.664 0.607 6 0.574 0.643 0.638 0.671 0.617 7 0.571 0.640 0.634 0.673 0.626 8 0.570 0.634 0.628 0.659 0.611 9 0.567 0.629 0.624 0.678 0.621 10 0.565 0.625 0.619

0.679

0.622

8.3 輔助特徵選擇

本節的目的是在前後文特徵中分別加入輔助特徵,確認哪一些輔助特徵能夠增 加其效果,以下進行詳細的介紹。

8.3.1 斷詞統計量

如表 8-2 所示,斷詞統計量能有效的幫助 CRF 斷句,使其 F1 值增加約 2%左 右。而在表 8-3 的結果中 LSTM 上則不明顯,甚至有降低的趨勢,其原因應與 7.3.1 節說明的相同。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 8-2 中 CRF 的 PMI、t-diff 效果(國佛教寺廟志)

CRF Feature Precision Recall F1

t-diff 0.726 0.614 0.666

PMI 0.736 0.593 0.657

t-diff + PMI 0.733 0.611

0.667

baseline 0.723 0.589 0.649

表 8-3 LSTM 的 PMI、t-diff 效果(中國佛教寺廟志)

LSTM Feature Precision Recall F1

t-diff 0.725 0.606 0.660

PMI 0.666 0.667 0.666

t-diff noise 0.675 0.592 0.631 PMI noise 0.675 0.568 0.617 baseline 0.691 0.668

0.679

8.3.2 詞表標記

在 7.3.2 中提到唐代墓誌銘所使用的詞表詞彙數量過少的問題,而本實驗所使用 的佛教詞典取出的詞表詞彙數量相對充足,數量約是唐代墓誌銘所有詞表中的 詞彙總和的 20 倍。因此本實驗的目的是根據本實驗所產生的結果,判斷詞表標 記特徵是否有必要繼續用於自動斷句上。圖 8.3 是佛教詞典的詞表標記與 baseline 進行比較的結果,其中 CRF 詞表效果與 CRF baseline 幾乎相同,而 LSTM 詞表與 LSTM baseline 比較則是略為下降。從結果可以得知效果不好的 原因並不是詞表中的詞彙數量不足的問題,而是詞表中的詞彙作為機器學習的 特徵並不能很有效的幫助自動斷句,因此在詞表的使用方法剩下以 8.8 節中使 用正規語言進行結果的修正。

CRF baseline CRF 詞表 LSTM baseline LSTM 詞表

Precision Recall F1

0.50

Precision Recall F1

Precision Recall F1

能讓 CRF-Boosting 加強的地方相對較多。綜上所述,在中國佛教寺廟志中使用 CRF-Boosting 能夠有效提高斷句的效果。

0.50

baseline CRF-Bagging CRF-Boosting

baseline CRF-Bagging CRF-Boosting

0.686 0.708 0.697

0.5880.633 0.6380.671 0.6600.678

0.0 Precision Recall F1

8.6.3 Sequence to sequence

本節的實驗目的以及設定已在 7.6.3 節中詳細說明,以下僅根據結果進行分析以 及選擇較佳的實驗設定。圖 8.10 是 sequence to sequence 與 baseline 使用相同特 徵的實驗結果,結果顯示 sequence to sequence 的兩種架構 F1 值與 baseline 的相 近,其理由與 7.6.3 節所述相同,因此自動斷句系統中仍然以 baseline 所使用的

Precision Recall F1

8-5 之中,其中「None」代表該模型無法使用,而「△」代表無法提升 baseline 效果的特徵或是模型參數、架構。在 CRF+LSTM 的 F1 值超過 LSTM 約 1%,

seq2seq seq2seq-coder baseline

Precision Recall F1

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 8-5 最佳模型調整(中國佛教寺廟志)

實驗項目 LSTM CRF

模型層數 5 None

字嵌入維度 50 None

前後文範圍 10 4

PMI、t-diff △ PMI, t-diff

聲韻 △ △

詞表標記 △ △

CRF 的整合學習 None CRF-Boosting sequence to sequence △ None

相關文件