第三章 改良型語意歧異解析演算法
第四節 實驗結果分析與評估
對每一個語彙鏈結,計算其中所有字詞間的相關連結及程度來衡量該 語彙鏈結的重要性,將不具代表意義的語彙鏈結刪除。
For all non-disambiguation senses {
For all words that belong to the context {
搜尋此 sense 的註解中是否包含這些字詞,
若有,則兩者存在一鍵結且按照出現次數給予鍵結強度。
} }
計算保留下來的語彙鍵結中每個字詞所屬的強度值。
若某個字詞具有兩個以上語彙鍵結,則按照強度值分配權重;
否則直接指定其語意。
本節闡述上述所提出的改良型語意歧異解析方法的實驗結果及相關討論。
本實驗利用的文件集為 Semantic Concordance Corpus (簡寫為 SemCor)。
SemCor 包含 500 篇文件,每篇文件的字數均超過 2000 字,這 500 篇文件分為 15 大類 (A~R 類),可以作為評估文件分群時的一個標準文件集。15 大類的主題 如圖 21 所示:
圖 21:SemCor 的 15 類文件主題
為了評估語意歧異解析的結果,本實驗從 SemCor 中挑選 186 篇文件來測試 (SemCor 中對文件的名詞指定好語意的只有 186 篇)。SemCor 中儲存文件的字詞
A. PRESS: REPORTAGE (44 texts)
H. MISCELLANEOUS: GOVERNMENT & HOUSE ORGANS (30 texts) J. LEARNED (80 texts)
K. FICTION: GENERAL (29 texts) L. FICTION: MYSTERY (24 texts) M. FICTION: SCIENCE (6 texts) N. FICTION: ADVENTURE (29 texts) P. FICTION: ROMANCE (29 texts) R. HUMOR (9 texts)
鍵結所對照的 WordNet 版本一致,因此我們拿它來作為字詞語意判斷的文件集。
圖 22 是 SemCor 中 J 大類第 59 篇文件的第一個句子的表示方式。
1 <contextfile concordance=brown>
2 <context filename=br-j59 paras=yes>
3 <p pnum=1>
4 <s snum=1>
5 <wf cmd=done pos=RB lemma=rather wnsn=1 lexsn=4:02:02::>Rather</wf>
6 <wf cmd=done pos=RB ot=notag>than</wf>
7 <wf cmd=done pos=VBG ot=notag>being</wf>
8 <wf cmd=done pos=VB lemma=deceive wnsn=1 lexsn=2:41:00::>deceived</wf>
9 <punc>,</punc>
10<wf cmd=ignore pos=DT>the</wf>
11<wf cmd=done pos=NN lemma=eye wnsn=2 lexsn=1:09:00::>eye</wf>
12<wf cmd=done pos=VBZ ot=notag>is</wf>
13<wf cmd=done pos=VB lemma=puzzle wnsn=1 lexsn=2:31:00::>puzzled</wf>
14<punc>;</punc>
15<wf cmd=done pos=RB lemma=instead wnsn=1 lexsn=4:02:00::>instead</wf>
16<wf cmd=ignore pos=IN>of</wf>
17<wf cmd=done pos=VB lemma=see wnsn=1 lexsn=2:39:00::>seeing</wf>
18<wf cmd=done pos=NN lemma=object wnsn=1 lexsn=1:03:00::>objects</wf>
19<wf cmd=ignore pos=IN>in</wf>
20<wf cmd=done pos=NN lemma=space wnsn=1 lexsn=1:03:00::>space</wf>
21<punc>,</punc>
22<wf cmd=ignore pos=PRP>it</wf>
23<wf cmd=done pos=VB lemma=see wnsn=1 lexsn=2:39:00::>sees</wf>
24<wf cmd=done pos=NN lemma=nothing wnsn=1 lexsn=1:23:00::>nothing</wf>
25<wf cmd=done pos=RB lemma=more wnsn=2 lexsn=4:02:01::>more</wf>
26<wf cmd=done pos=JJ ot=notag>than</wf>
27<punc>-</punc>
28<wf cmd=ignore pos=DT>a</wf>
29<wf cmd=done pos=NN lemma=picture wnsn=1 lexsn=1:06:00::>picture</wf>
30<punc>.</punc>
31</s>
32</p>
圖 22 的具體說明如下:
Ø 每行前面的數字是為了解說方便而標示的,與原來的文件無關。
Ø 第 2 行的 filename=br-j59 代表 SemCor 中 J 大類第 59 篇文件。
Ø <p pnum=1> 的 p 代表段落,pnum=1 是第 1 段。
Ø <s snum=1> 的 s 代表句子,snum=1 是第 1 句。
Ø 因圖 22 為 SemCor 中 J 大類第 59 篇文件的第一個句子。接下來的第 5 行到第 30 行就是這個句子所包含字詞的相關分析。也就是說整個句子 為:
Ø 以第 5 行為例,Rather 這個字詞的 cmd=done 代表它不是停用字(Stop Word),而若 cmd=ignore,如第 10 行的 the,則為停用字;pos=RB 的 pos 是 part-of-speech 的縮寫,亦即該字的詞性,詞性對照表為:
lemma=rather 的 lemma 為 Rather 這個字的標題字,亦即該字經 stemming 後的詞幹;wnsn=1 代表該字的語意是對照 WordNet 1.7 版得到的第 1 個 sense。
3.4.2 實驗評估方法
Rather than being deceived, the eye is puzzled; instead of seeing objects in space, it sees nothing more than-a picture.
NN(noun):名詞
VB(verb):動詞 VBG:現在分詞 VBZ:助動詞
RB:副詞 WRB:疑問副詞
JJ:形容詞 PRP:代名詞
IN:介系詞,前置詞 TO:介系詞,後置詞 CD:連接詞 DT:冠詞
本小節將分別介紹針對語意歧異解析的評估方法和針對文件分群的評估方 法。
& 針對語意歧異解析的評估方法
在比較改良型語意歧異解析方法與 SemCor 所指定語意的差異時,我們分別 計算幾種比率如下:
Ø 正確率:針對多語意的名詞(Polysemous Nouns)來計算,計算方式為:
與 SemCor 指定的語意相同的多語意名詞數目/所有多語意名詞的數目。
Ø 全正確率:以全部的名詞來計算,計算方式為:與 SemCor 指定的語意 相同的名詞數目(包含只有一個語意的名詞)/全部名詞的數目。
Ø 錯誤率(Incorrect):與 SemCor 指定的語意不同的數目/全部名詞的數目。
Ø 無法判斷率(Ambiguous):無法判斷出語意的數目/全部名詞的數目。
由於本論文只針對名詞的語意,因此在比較時僅比較名詞語意歧異解析的效 能。
& 針對文件分群的評估方法
分群好的文件,我們分別計算 inter-cluster 值與 intra-cluster 值,這兩個評估 值是傳統上評估分群方法好壞的依據,其描述如下:
Ø inter-cluster:計算整個分群體中群與群之間的平均分開程度。若計算的 是群與群間的距離,距離愈大,表示群與群愈不相似,因此這個值要愈 大愈好;但若計算的是群與群間的相似度,則這個值要愈小才能表示群 與群愈不相似。在此我們是用群與群間的相似度來計算,計算公式如下:
( ) [ ( ) ]
Ø intra-cluster:計算整個分群體中每群內的相似度,即群內個體的緊密程 度。因為是用相似度來計算,因此這個值要愈大愈好。 監督式方法(Supervised Method),此方法先利用 br-j01 與 br-j02 選取出來的名詞 當作訓練資料(Training Data),而 br-j03∼br-j09 則依據已訓練好的名詞決定其語 意,它是用來對照語彙鍵結結果及本論文所提出的改良型語意歧異解析的結果。
表格 5 是利用語彙鍵結(Lexical Chain)得到的數據;而表格 6 則是利用未加 入鍵結擴充策略的改良型語意歧異解析方法所得到的數據。由於本論文提出的改 良型語意歧異解析方法將一篇文件中的名詞以複合語意來表示,但為了計算正確 率和全正確率,我們將同一個名詞的不同語意取最大權重的那個語意來計算。
文件
文件
由表格 6 也可看出本論文提出的未加入鍵結擴充策略的改良型語意歧異解
文件
在評估本論文提出的改良型語意歧異解析方法中,我們亦針對每個名詞的語 意數計算正確率,表格 10 是從 SemCor 中的 15 大類挑選出的 186 篇文件中,每 篇文件的名詞數和語意歧異解析的正確比率。
表格 10 中的第二行表示 15 大類(A∼R)中選取的文件數,第三行到第八行 分別針對多語意的名詞進行語意歧異解析計算,例如在 A 大類中,第三行顯示 有兩個語意的名詞的個數為 492 個,利用改良型語意歧異解析方法判斷正確的有 415 個,所以大約有 0.8335 的正確率。
語意愈多的名詞,理論上可以正確判斷出語意的比率愈少。表格 10 的結果 亦符合此一現象。
docum_# 2 sense 3 sense 4 sense 5 sense 6~10 >=11 poly_num total_num
A 7 492 343 241 196 630 242 2144 2901
正確個數 415 255 165 147 265 22 1269 2026
比率 0.843495935 0.743440233 0.684647303 0.75 0.420634921 0.090909091 59.19% 69.84%
B 2 124 109 99 70 177 44 623 843
正確個數 91 6 4 75 21 7 4 14 339 559
比率 0.733870968 0.587155963 0.757575758 0.3 0.418079096 0.318181818 54.42% 66.31%
C 3 208 147 124 114 264 80 937 1218
正確個數 182 118 63 54 8 7 9 513 794
比率 0.875 0.802721088 0.508064516 0.473684211 0.329545455 0.1125 54.75% 65.19%
D 4 253 191 229 154 380 154 1361 1655
正確個數 209 123 120 63 137 44 696 990
比率 0.826086957 0.643979058 0.524017467 0.409090909 0.360526316 0.285714286 51.14% 59.82%
E 14 1092 981 786 561 1671 405 5496 7010
正確個數 797 641 518 346 666 141 3109 4623
比率 0.72985348 0.653414883 0.659033079 0.616755793 0.398563734 0.348148148 56.57% 65.95%
F 19 1339 1060 1014 744 1772 579 6508 8700
正確個數 1203 827 682 397 723 244 4076 6268
比率 0.898431665 0.780188679 0.672583826 0.533602151 0.408013544 0.421416235 62.63% 72.05%
G 18 1205 944 1049 750 1609 576 6133 7650
正確個數 905 616 701 264 588 123 3197 4714
比率 0.751037344 0.652542373 0.668255481 0.352 0.365444375 0.213541667 52.13% 61.62%
H 12 922 666 689 544 1406 384 4611 5996
正確個數 764 409 355 244 418 145 2335 3720
比率 0.828633406 0.614114114 0.515239478 0.448529412 0.297297297 0.377604167 50.64% 62.04%
J 43 3249 2370 1977 1867 5113 1453 16029 20801
正確個數 2996 2009 1427 1269 1843 610 10154 14926
比率 0.922129886 0.847679325 0.721800708 0.679700054 0.360453745 0.41982106 63.35% 71.76%
K 29 1544 1102 1279 916 2207 1071 8119 10480
正確個數 1162 670 857 487 657 418 4251 6612
比率 0.752590674 0.607985481 0.67005473 0.531659389 0.297689171 0.390289449 52.36% 63.09%
L 11 415 367 449 261 774 357 2623 3392
正確個數 357 242 277 136 267 116 1395 2164
比率 0.860240964 0.659400545 0.616926503 0.521072797 0.34496124 0.324929972 53.18% 63.80%
M 2 113 7 1 86 43 123 47 483 627
正確個數 87 4 4 51 14 4 8 15 259 403
比率 0.769911504 0.61971831 0.593023256 0.325581395 0.390243902 0.319148936 53.62% 64.27%
N 10 428 399 299 369 839 430 2764 3456
正確個數 342 236 238 267 315 126 1524 2216
比率 0.799065421 0.591478697 0.795986622 0.723577236 0.375446961 0.293023256 55.14% 64.12%
P 6 281 203 222 182 394 218 1500 1962
正確個數 203 123 125 61 181 93 786 1248
比率 0.722419929 0.60591133 0.563063063 0.335164835 0.459390863 0.426605505 52.40% 63.61%
R 6 339 246 243 153 477 120 1578 2123
正確個數 249 182 165 72 165 11 844 1389
比率 0.734513274 0.739837398 0.679012346 0.470588235 0.34591195 0.091666667 53.49% 65.43%
Total 186
表格 11:利用改良型語意歧異解析方法判斷多語意名詞的正確比率
每大類主題因為文件內容不同而有相異的判斷正確率,不過大致上來說正確 率(針對多語意的名詞)可以達到 55%,其中 J 大類的正確率最高。全正確率(針對 全部的名詞)則可以達到 65%,平均為 65.26%。
3.4.4 採用改良型語意歧異解析方法來分群文件之評估
從 SemCor 中挑選 186 篇文件,每類(群)挑選的文件數如下所示,第一行表 示類別,第二行為每類別挑選出的文件數。
A B C D E F G H J K L M N P R 7 2 3 4 14 19 18 12 43 29 11 2 10 6 6
分群後的文件,主要比較下列四種分群方法,說明如下:
1. 基準分群(Base-cluster):針對這 186 篇文件,我們分別計算 inter-cluster 和 intra-cluster 的值,當作基準值。
2. 無 語 意 分 群: 利用資訊擷取方法得到 的關鍵字 做 文 件 分 群 , 計 算 inter-cluster 和 intra-cluster 的值與 1.比較。
3. 語彙鍵結分群:利用語彙鍵結方法判斷出語意的關鍵字做文件分群,計 算 inter-cluster 和 intra-cluster 的值與 1.比較。
4. 改良型語意歧異解析分群:利用改良型語意歧異解析方法得到的關鍵字 做文件分群,計算 inter-cluster 和 intra-cluster 的值與 1.比較。
不論要計算 inter-cluster 值或 intra-cluster 值,在每一種分群方法中代表一篇 文件的向量維度(Dimension)必須要一致,這樣計算出來的評估值才具有意義。因 此我們將每篇文件的關鍵字向量(Keyword Vector)加以修改,修改過程如下:
Ø 無語意分群(關鍵字沒有詞性分別,不過為了方便計算,還是只挑名詞 當作關鍵字)
− 若有一篇文件的關鍵字向量表示法為:D (n1, n2, n3, n4)
− 為了改變向量維度,將其中沒有語意的名詞指定為最常使用的語
意,而權重也分配到這個最常使用的語意上。
− 若 n1 有兩種語意(Sense),且最常使用的語意為 n11;n2 有四種語 意,且最常使用的語意為 n23;n3 有一種語意;n4 有三種語意,
且最常使用的語意為 n42。則 D 修改為(n11, n12, n21, n22, n23, n24, n31, n41, n42, n43),其中這個向量權重≠0 的是 n11, n23, n31, n42。
Ø 語彙鍵結分群(關鍵字具有語意,且只有名詞)
− 某 篇 文 件 經 由 語 彙 鍵 結 方 法 得 到 的 關 鍵 字 向 量 為 : D (n1, n21, n31, n42),其中 ni表示第 i 個名詞,nij表示第 i 個名詞
的第 j 個語意。
− 只有判斷出的關鍵字語意才有權重,如果這個關鍵字無法判斷語
意,例如 n1,則 n11, n12 的權重相同(指定為原來的一半)。
− D 修改為(n11, n12, n21, n22, n23, n24, n31, n41, n42, n43),其中 n11, n12 的權重為 n1 的一半,n22, n23, n24, n41, n43 的權重=0。
Ø 改良型語意歧異解析分群(關鍵字以複合語意表示,且只有名詞)
− 某篇文件經由改良型語意歧異解析方法得到的關鍵字向量為:
D (n1, n21, n22, n23, n31, n41, n42)
− 每個關鍵字語意的權重值按照建構出來的語彙鍵結所佔的鍵結關
係程度的比率來分配,如果這個關鍵字無法判斷語意,例如 n1, 則 n11, n12 的權重相同(指定為原來的一半)。
− D 修改為(n11, n12, n21, n22, n23, n24, n31, n41, n42, n43) ,其中 n11, n12 的權重為 n1 的一半,n24, n43 的權重=0。
四種分群方法計算出來的評估數據如表格 12 所示:
Method
(Keyword_threshold=0.05) Intra-cluster Inter-cluster 基準分群(SemCor) 0.091 0.0157
無語意分群 0.126 0.0128
語彙鍵結分群 0.183 0.0104
改良型語意歧異解析分群 0.196 0.0101
表格 12:各種文件分群方法之比較
Intra-cluster 計算整個分群體中每群內的相似度,即群內個體的緊密程度,
因此這個值要愈大愈好。結果顯示利用改良型語意歧異解析方法計算出來的 intra-cluster 值是最大的。
而 inter-cluster 代表整個分群體中群與群之間的平均分開程度。我們採用的 計算方式為群與群間的相似度,則這個值要愈小才能表示群與群愈不相似,亦即 群 與 群 之 間 愈 分 開 。 結 果 顯 示 利 用 改 良 型 語 意 歧 異 解 析 方 法 計 算 出 來 的
而 inter-cluster 代表整個分群體中群與群之間的平均分開程度。我們採用的 計算方式為群與群間的相似度,則這個值要愈小才能表示群與群愈不相似,亦即 群 與 群 之 間 愈 分 開 。 結 果 顯 示 利 用 改 良 型 語 意 歧 異 解 析 方 法 計 算 出 來 的