第四章 實驗結果與評估
4.2.1 詩歌詞彙擷取演算法與其他演算法之比較
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
112
斷詞實驗結果評估
本節我們將分析《全唐詩》、《全宋詞》和《全宋詩》斷詞實驗結果,其中包 含演算法的調整對斷詞結果的影響,以及和其他研究的斷詞方法比較,討論不同 方法的優缺。量化評估的部分,我們請一位政大語言所博士班學生,協助人工斷 詞,其中若詩歌有專有名詞,則也依照專有名詞斷開。另外,人工斷詞中有一些 狀況是兩種斷法都對,這個時候,則採用統一的規則,例如:《全宋詩》黃庭堅
〈謫居黔南十首〉253「瘴雲稍含毒」可斷為「瘴雲」+「稍」+「含毒」或是「瘴 雲」+「稍含」+「毒」,像是「稍含毒」這種副詞連接動詞再連接其他詞的這種 情況,統一採用副詞和動詞相連,故斷為「稍含」+「毒」。最後再透過 precision(準 確率),recall(召回率),F1-measure 以及 accuracy (準確率) 的計算將抽樣結果量 化,以評估斷詞成效。
4.2.1 詩歌詞彙擷取演算法與其他演算法之比較
本研究提出的詩歌詞彙擷取演算法,和羅鳳珠[54]提出的詩詞句法規律擷取 詞彙的方法,兩者比較之下,我們的方法不需要使用辭典作為詞彙切分的判斷依 據,但也因此可能會有三字詞或三字詞以上的專有名詞被切分,例如《全唐詩》
中崔顥〈黃鶴樓〉以及李白〈黃鶴樓送孟浩然之廣陵〉詩,都使用了專有名詞「黃 鶴樓」,本研究的方法,會將其切分為「黃鶴」和「樓」,可能會因此失去詞彙的 原意。雖然可能會有這樣的缺點,但考量到唐詩中多為單字詞和二字詞,三字詞 或三字詞以上的專有名詞比例上相對少很多,故本研究尚沒有參考專有名詞辭 典。
然而,俞士汶等[30]使用 PMI、共現度、以及提出結合強度取出可能成詞的 準詞彙,再用人工加以判斷,先產生詞典,基於最長長詞優先演算法,輔以結合
253 《全宋詩》黃庭堅〈謫居黔南十首〉苦雨初入梅,瘴雲稍含毒,泥秧水畦稻,
灰種佘田粟。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
113
強度,作為斷詞消歧異的方法,其研究宣稱斷詞結果抽樣準確率高於 99%。俞士 汶等人的方法,其設定為字串頻率大於 20,且其結合強度大於 1 時,有超過 90%
的機率可以確定該字串為一個詞彙。本研究的詩歌詞彙擷取演算法,一則避免設 定篩選閥值(threshold);二則減少了人力成本。
和羅鳳珠老師的斷詞結果無法量化比較,因為無法取得他們所使用的專有名 詞辭典;和俞士汶的比較則可量化比較,但因為其方法有人工的介入,準確率自 然較高。
另外,本研究也嘗試俞士汶研究的經驗,「高於 14 的詞頻,使用結合強度作 為篩選標準,則比 PMI 有更好的效果」,因此,本研究也加入 PMI 混合結合強度,
作為斷詞判斷的另一種標準,其方法為需判斷是否斷點的二字詞頻是否高於 14,
若是則用結合強度作為判斷標準,反之則用 PMI。而結合強度(D)的計算方法如 公式(14),其中 M 為一個二字組 ab,ab 相連出現的字數,W 為 a、b 兩字同時出 現在同一語句的次數。如果 a、b 兩字同時出現在同一語句時,ab 多為相連出現 時,結合強度計算結果較高,反之則低。
D = ( 𝑀
𝑊 ) 2 ∗ ln (𝑀)
(14)
本研究從全唐詩第一首開始,每 500 首取一首,先取了 86 首,剩下 14 首用 亂數抽取,共取 100 首的全唐詩抽樣人工斷詞,以比較三種斷詞方法,以及俞士 汶斷詞研究、依照句法規律以及 PMI 斷詞、依照句法規律以及結合強度斷詞、依照句法規律以及 PMI 混合結合強度斷詞。結果比較如表 4.30,其中 precision(準 確率),recall(召回率),F1-measure 以及 accuracy(準確率),定義公式如下,其中
「斷點」為語句中的每一相鄰兩字間隔,需要判斷是否應切斷的地方,舉例如一 個七字語句,需判斷的「斷點」有六個。
‧
precision =
判斷為切斷且應切斷的斷點數
判斷為切斷且應切斷的斷點數
+判斷為切斷但不應切斷的斷點數
precision + recall(17)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
115
表 4.29 計算了抽樣的 100 首作品,不同斷詞方法所能斷出的詞彙數量,其 中,雖然人工斷詞和自動方法所得的詞彙差異只有一,但斷詞的結果實際上仍有 許多不同,而自動斷詞方法彼此間也是有差異的,像是「句法規律+結合強度」
的斷法有 190 個語句的斷法和人工斷詞不同,而「句法規律+結合強度+PMI」的 斷詞方法則減少為 167 個語句和人工斷詞不一樣,像是李白〈子夜吳歌·春歌〉
中一語句「素手青條上」在「句法規律+結合強度」的斷法下誤斷為「素手」+
「青」+「條上」,而「句法規律+結合強度+PMI」的斷詞方法則可正確斷為「素 手」+「青條」+「上」,再觀察觀察表 4.30 也可以發現,其 precision、recall、
F1-measure 以及 accuracy 的評估結果也都是較好的,在不用人工介入的狀況下,
句法規律結合 PMI 及結合強度的斷詞方法,能夠比其他斷詞方法好上一點,是 因為結合強度和 PMI 針對不同詞頻字高低所組成的詞彙,計算時能夠相互補足。
4.2.2 《全宋詞》和《全宋詩》斷詞實驗結果
本研究進行的《全宋詞》的斷詞實驗分為兩個辦法,第一個是宋詞句法規律 加上領字規則,再加上結合強度進行斷詞,此方法有一些缺點,主要原因是因為 宋詞在句法上的選擇比唐詩還要多,程式誤判的情況也會比較多,一是宋詞的七 字句和五字句的 1+6 和 1+4 句法,常常會造成誤判,所以我們限制每一語句的 第一個字,只有是領字的狀況下,才能斷成如 1+6 或 1+4 的句法,二是七字句 的 3+4 句法會造成太多的誤判,所以七字句的句法規律限制為只有 4+3、1+6 兩 種。
第二種斷詞方法調整為,宋詞句法規律,加上只有領字才能斷開語句頭一個 字,PMI 以及限制 7 字句句法規律。另外,宋詞的創作未必完全遵守格律,所以 用領字格律表所選擇斷開的領字不一定是完全正確的。
《全宋詞》的抽樣辦法,為從第一首開始,每 200 首取一首,先取了 97 首,
剩下三首隨機取得,共取 100 首人工斷詞。各個不同演算法的斷詞結果,所計算
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
116
出的 precision,recall,F1-measure 以及 accuracy 等量化的評估結果如表 4.31。
另外,表 4.32 也計算了《全宋詞》抽樣的 100 首作品,不同斷詞方法所能斷出 的詞彙數量。
表 4.31《全宋詞》斷詞結果評估 斷詞方法 句法規律+結合強度
+領字
句法規律+只有領字才能斷頭字 +PMI+限制 7 字句句法規律
precision 88.52% 92.68%
recall 89.77% 92.89%
F1-measure 89.14% 92.78%
accuracy 90.10% 93.46%
而在《全宋詩》的部分,我們採用和《全唐詩》一樣的詞彙擷取演算法,採 用句法規律加上 PMI 和結合強度。抽樣辦法為從第一首開始,每 2000 首取一首,
先取了 92 首,剩下 8 首隨機取得。precision,recall,F1-measure 以及 accuracy 等量化的評估結果如
表 4.33。在《全宋詩》抽樣 100 首作品中,人工斷詞斷出 2612 個詞彙,斷 詞工具則斷出 2611 個詞彙。
最後,表 4.34 統計了《全唐詩》、《全宋詞》、《全宋詩》三種語料,經由目 前斷詞工具評估最好的演算法斷詞,所能產生的詞彙數量。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
117
表 4.32 《全宋詞》不同斷詞方法提供的詞彙數量 斷詞方法 人工斷詞 句法規律+結合強度
+領字
句法規律+只有領字才能斷頭 字+PMI+限制 7 字句句法規律
詞彙數量 4086 4123 4092
表 4.33《全宋詩》斷詞結果評估 斷詞方法 句法規律+PMI+結合強度
precision 94.47%
recall 94.42%
F1-measure 94.45%
accuracy 94.51%
表 4.34 《全唐詩》、《全宋詞》、《全宋詩》三種語料斷詞詞彙計數
斷詞語料 《全唐詩》 《全宋詞》 《全宋詩》
詞彙數量 1521058 757729 5513303
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
118
詩歌詞彙初步分析結果
詩歌詞彙初步分析結果我們將討論作者特色詞彙,以及相關詩歌作品的觀察 結果。作者特色詞彙分為「只有一人使用的詞彙」,以及「高度集中於某些作者 的詞彙」兩部分,相對比較少作者使用的詞彙,其特色程度推測較高。
以下先列出《全唐詩》、《全宋詞》和《全宋詩》只有一個人使用的一些詞彙,
其中若人名為佚名或無名氏則不列入計算,每一語料中前 20 名的單人使用詞彙 整理如表 4.35。其中可以發現《全宋詞》中,前 20 名中有 10 個詞彙,是宋詞 人史浩所使用,有可能是因為史浩的作品數比較多,或是史浩比較喜歡使用與眾 不同的詞彙,《全唐詩》中,前 20 名中有 8 個詞彙是白居易所使用,也可能是這 樣的狀況。或如《全宋詩》詞頻 10 以上的詞彙中,只有陸游使用「績火」、「耄 年」、「後死」、「寒龜」、「稻陂」、「垂九」、「疾豎」,這些詞彙可以說是陸游的特 色詞彙。
這一些詞彙分析工具依賴斷詞工具的斷詞結果,例如「垂九」這一個詞彙,
在《全宋詩》白玉蟾〈洞庭〉254中的一語句「天垂九馬層雲外」,也有這兩個字 相連的情形,但是斷詞工具將此句斷為「天垂」+「九馬」+「層雲」+「外」,所 以如果斷詞工具判斷此二字是斷開的狀態,則不會再計算詞頻,因為詞彙初步分 析的工具並不會看到所有未斷詞情形之下所有的「垂九」。
254 《全宋詩》白玉蟾〈洞庭〉帆腹膨脝飽北風,一彈指頃萬山空。天垂九馬層雲外,人在孤鴻 過影中。夙世曾遊銀世界,飛精複謁水精宮。湖神波吏須相識,吾在神霄舊有功。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
119
表 4.35 只有一人使用的詞彙
《全唐詩》 《全宋詞》 《全宋詩》
詞彙/詞頻 作者/作品字數 詞彙/詞頻 作者/作品字數 詞彙/詞頻 作者/作品字數
紅兒/70 羅虯/1608 念了/35 史浩/8682 普庵/38 釋印肅/22042 詞曰/10 盧鴻一/652 吹漁/13 史浩/8682 腿腳/25 賈似道/3202 暖寒/9 白居易/111234 花瓶/12 張繼先/2151 湛存/22 釋正覺/32979 船舫/9 白居易/111234 戀花/11 史浩/8682 出礙/21 釋正覺/32979 矣乎/8 李白/49937 奉勞/11 趙令畤/2382 尤延/21 楊萬里/113050 有木/8 白居易/111234 唱蝶/11 史浩/8682 敬哥/20 邵雍/39305 來彼/8 丘光庭/111 眾舞/11 史浩/8682 謪仙/20 楊萬里/113050 元九/8 白居易/111234 果上/11 史浩/8682 績火/19 陸遊/268444 茅鴟/8 丘光庭/111 放瓶/11 史浩/8682 呈陸/16 楊萬里/113050 主母/8 元稹/39095 前聲/10 趙令畤/2382 篆畦/15 舒嶽祥/24295 身健/7 白居易/111234 北宮/10 劉辰翁/15144 歸徠/15 崔敦禮/3522 亂罹/7 羅隱/13914 思晴/10 黃公紹/885 青項/14 賈似道/3202 況吾/7 白居易/111234 估次/10 趙善括/2211 窺開/14 邵雍/39305 雁齒/7 白居易/111234 次對/10 史浩/8682 歸徠/14 嶽珂/29455 汞/6 呂岩/9734 花是/9 史浩/8682 第歸/14 蘇軾/114226 鹽州/6 白居易/111234 法真/9 郭祥正/114 送先/14 蘇軾/114226 爾巫/6 元稹/39095 切/9 趙善括/2211 詩十/14 蘇軾/114226 又進/6 元稹/39095 換坐/9 史浩/8682 翟園/13 楊萬里/113050 失古/6 孟郊/19576 予甥/9 郭祥正/114 耄年/13 陸遊/268444 筆毫/6 姚合/15048 提刑/8 王義山/2266 後死/13 陸遊/268444
高度集中於某些作者的詞彙,將詞彙以正規化的均勻程度(uniformity)由高到 低排列,若詞彙含有特殊符號則不計,《全唐詩》取前 20 名整理如表 4.36。
‧
‧
‧
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
124
自己的作品之中,而其他唐朝詩人沒有使用,我們可能可以用這樣的線索,找出 一些詩歌中比較特別的詞彙。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
125
詞彙語意實驗結果評估
本研究希望能夠透過 Word2vec 加上分群的方法,嘗試是否真正有能力區分
本研究希望能夠透過 Word2vec 加上分群的方法,嘗試是否真正有能力區分