第四章 實驗成果
4.4. 斷詞實驗
這個小節我們將透過宋詞斷詞器進行斷詞的實驗,評估各斷詞模組的必要 性,並分析斷詞過程中影響召回率與精確度的原因。
宋詞斷詞器中包含了六大斷詞模組,分別是:
(1)專有名詞模組:切分詞句中的專有名詞。
(2)領字模組:切分出領字(虛字)。
(3)典故模組:切分詞句中用典資訊。
(4)構詞模組:切分出定詞、量詞、定量複合詞、複疊詞、詞綴。
(5)節奏斷詞模組:根據宋詞節奏(句法)切分詞句。
(6)對仗模組:根據詞句對仗,切分三字詞。
後續的小節,我們設計了幾個實驗,以評估這些模組對於斷詞的貢獻度。
4.4.1. 僅以詞庫斷詞
在這個斷詞的實驗中,採用中央研究院詞庫[八萬目詞]再整合實驗室搜集 的詞彙而成的詞庫(簡稱 KDE 詞庫)進行測試,目的在評估此詞庫對於斷詞系統 的貢獻度。
51
52
採取的比對方式是正向最大匹配法(Maximum Matching method),將詞句中 的字由左至右切割為一、二、三字詞,一一和詞庫中的詞進行比對,若比對到相
53
表 8:僅使用節奏斷詞的結果
百分比
召回率(Recall) 88%
精確度(Precision) 88.3%
效度(Effectiveness) 88%
但只考慮到通用的節奏進行斷詞,會讓一些可識別的詞彙被切分為二,以致 造成召回率與精確度下降。舉例來說,五字句的節奏可能為(2,3)(3,2)(2,
2,1)(1,4)(1,2,2)等,但最常切分為(2,3),只要詞中含領字,單一 首詞的精確度就變低:
錯誤:任寶/匳閒/掩 (系統切分的結果)
正確:任/寶匳/閒掩
–李清照《鳳凰臺上憶吹簫》
若僅使用常用節奏進行斷詞,那麼就無法切分出五字句中(3,2)(2,2,1)
(1,4)(1,2,2)等組合的詞彙。
4.4.3. 使用所有斷詞模組以及標準斷詞順序
這個實驗中,採用斷詞系統中所有的斷詞模組(專有名詞、領字、典故、構 詞、節奏斷詞、對仗),搭配 KDE 詞庫,並根據第三章 3.2.2.節定義的斷詞規則 為斷詞順序進行實驗。同樣針對無法以任何模組切分的三字句或讀,以亂數方式 切分為(2,1)、(1,2),再將每首詞由斷詞系統處理十次,求其平均的精確 度與召回率。
由於採用亂數方式切分斷詞器無法斷出的三字句會影響斷詞的結果,我們也 以不處理系統無法切分的三字句、讀來進行實驗,以做比較。
54
效度(Effectiveness) 88.7% 86.1%
參考表 9,整體的召回率是 88.8%,精確度為 89.4%,資料的效度達 88.7%。 84.03%與 88.4%,效度為 86.1%。很明顯地斷詞器辨認出的詞數與斷詞器正確辨認 出的詞數皆變少,因此召回率和精確率都稍微下降。
55
表 10:除專有名詞模組,使用標準斷詞順序的結果
所有模組 不含專有名詞模組
召回率(Recall) 88.8% 88.1%
精確度(Precision) 89.4% 89%
效度(Effectiveness) 89.1% 88.5%
參考表 10,在召回率、精確度和資料的效度上比前一節的實驗(使用所有模 組)稍為下降一些。無庸至疑,專有名詞模組對於斷詞的結果有正面的影響。統 計李清照五十首詞中,總共有 25 個專有名詞,這些專有名詞恰巧都是兩個字。以 這個實驗而言,若專有名詞詞庫中未收入這些專有名詞,這些名詞也可能被其它 模組斷出,如被節奏斷詞模組正確地切分。不過若專有名詞是三字詞,那麼沒有 專有名詞模組的輔助,就可能被其它模組誤斷。就理論而言,專有名詞模組對於 長度為三以上的詞彙對於斷詞是有絕對的助益的。
4.4.5. 除領字模組,使用標準斷詞順序
這個實驗中,採用斷詞系統中除領字模組之外的所有的斷詞模組(專有名詞、
典故、構詞、節奏斷詞、對仗),搭配 KDE 詞庫,並且使用標準的斷詞順序進行 測試,以分析領字模組的運作情況。同樣以李清照五十首詞進行測試,亂數切分 無法處理的三字詞,求每首詞斷詞十次平均的召回率與精確度做為斷詞結果。
表 11:除領字模組,使用標準斷詞順序的結果
所有模組 不含領字模組
召回率(Recall) 88.8% 87%
精確度(Precision) 89.4% 87.7%
效度(Effectiveness) 89.1% 87.3%
參考表 11,排除領字,與 4.3.3 節的實驗節果比對,召回率和精確度就分別 下降了 1.8%與 1.7%,而資料效度下降了 1.8%。
56
57
表 13:除典故模組,使用標準順序的斷詞結果
所有模組 不含典故模組
召回率(Recall) 88.8% 90%
精確度(Precision) 89.4% 90%
效度(Effectiveness) 89.1% 90%
參考表 13,這個實驗的結果讓召回率、精確度與效度都達到 90%。那麼為何
58
精確度(Precision) 89.4% 89.5%
效度(Effectiveness) 89.1% 89.2%
構詞模組的加入所得到的測試結果和 4.4.3 節的實驗進行比對,相形之下,三 個評估指標都減少 0.1%,如表 14。這代表使用了構詞模組,召回率、精確度和效
59
精確度(Precision) 89.4% 88.9%
效度(Effectiveness) 89.1% 88.6%
參考表 15,不採用對仗模組,斷詞的召回率(88.3%)、精確度(88.9%)、
效度(88.6%)比 4.3.3 節斷詞方式召回率稍為差一些,顯然對仗對斷詞成果有一
60
效度(Effectiveness) 89.1% 82.7%
從實驗的結果得知,使用詞頻總合解歧義並不能有效地提升精確度、召回率
至於構詞模組的部份,後續可從擴大實驗的詞下手,從多家詞人的作品中再 進行規模更大的測試來看其成效。或者,可以斟酌採用更多的構詞規則以補其不 足之處。