• 沒有找到結果。

知識庫建構評估

在文檔中 概念式自動問答探索系統 (頁 54-62)

第四章 實驗結果分析與評估

第三節 知識庫建構評估

本節主要是探討 ACAF 中三個知識庫的建構品質評估,分別是:問題與答 案詞鍵關係的建構品質評估、概念空間的建構品質評估和答案類型知識庫建構 品質評估。

4.3.1 問題與答案詞鍵關係的建構品質評估

ACAF 採用 LSA 的技術學習問題與答案詞鍵間的關係。由第二章第二節可 知 LSA 主要分為二個步驟:(1) 將詞鍵關係矩陣予以奇異值分解,(2) 約化空 間維度。其中不同程度的維度約化會影響 LSA 的學習成效,因此,為了瞭解維 度約化的程度對建構問題與答案詞鍵關係的影響,在這裡我們直接考量不同程 度的維度約化對問答探索系統查詢效能的作用。另一方面,為了降低問答探索 系統本身在查詢效能上的變化因子,我們將 ACAF 系統簡化成只考量問題與答 案詞鍵間的關係,也就是將方程式 22 中的w 和C w 設為 0,而T w 設為 1,此簡w 化後的系統稱為 ACAFW

在問題與答案詞鍵關係的品質評估方面,首先分別將前述三問答集的 10 題測試問題送進 ACAFW中,再針對查詢結果做 TRDR、準確率和查全率的分 析,以判斷維度約化對問題與答案詞鍵關係建構的影響。運動規則問答集的實 驗結果如表格 7 所示,表格 8 顯示一般參考問題問答集的實驗結果,而 表格 9 為常問問答集的實驗結果。表格中 DR 表示維度約化的程度,若矩陣經奇異值 分解後 S 的 Rank 為 n,則 10%的維度約化表示 'S 的 Rank 就是n×10%,DR 為 100%則代表沒有經過維度約化,即原來的 Wq-by-Wa 矩陣;而表格中的每一個 數值為所有測試問題的分析平均值。例如:表格中 10%維度約化的 ACAFW之 TRDR 分析值為 0.710863095,其代表 10 題測試問題的 TRDR 平均值為 0.710863095。

DR TRDR 準確率 (Precision)

查全率 (Recall) 10% 0.710863095 0.317361111 0.514136905 20% 0.68907967 0.286160714 0.51860119 30% 0.635470779 0.310267857 0.420386905 40% 0.61344697 0.296291209 0.338244048 50% 0.64469697 0.318315018 0.348660714 60% 0.634280303 0.312957875 0.348660714 70% 0.655113636 0.320398352 0.359077381 80% 0.778125 0.33974359 0.390327381 90% 0.71264881 0.34672619 0.372470238 100% 0.645982143 0.31547619 0.351636905

表格 7:維度約化對問題與答案詞鍵關係建構的影響 (運動規則問答集)

DR TRDR 準確率

(Precision)

查全率 (Recall) 10% 0.25 0.075 0.051851852 20% 0.583333333 0.263888889 0.301851852 30% 0.638888889 0.275 0.335185185 40% 0.638888889 0.247222222 0.335185185 50% 0.638888889 0.275 0.335185185 60% 0.638888889 0.275 0.335185185 70% 0.638888889 0.275 0.335185185 80% 0.638888889 0.275 0.335185185 90% 0.638888889 0.275 0.335185185 100% 0.638888889 0.275 0.335185185

表格 8:維度約化對問題與答案詞鍵關係建構的影響 (一般參考問題問答集)

DR TRDR 準確率

(Precision)

查全率 (Recall) 10% 0.041666667 0.033333333 0.333333333 20% 0.111111111 0.041666667 0.333333333 30% 0.333333333 0.047619048 0.333333333 40% 0.333333333 0.047619048 0.333333333 50% 0.388888889 0.095238095 0.444444444 60% 0.388888889 0.089285714 0.444444444 70% 0.375 0.084656085 0.444444444

80% 0.375 0.084656085 0.444444444 90% 0.375 0.084656085 0.444444444 100% 0.375 0.084656085 0.444444444

表格 9:維度約化對問題與答案詞鍵關係建構的影響 (常問問答集)

由表格 7 可知:經 70%∼90%的維度約化後,重建之問題詞鍵與答案詞鍵 關係矩陣,能使 ACAFW有較佳的系統效能。TRDR 值由原來的 0.64598 提高至 0.65511 ∼0.77813,最高的增幅可達 20%;準確率從原來的 0.31548 提高到 0.32040∼0.34673,增幅最高可達約 10%;而查全率也由原來的 0.35164 提昇為 0.35908∼0.39033,增幅最大可到約 10%。

此外,經 10%的維度約化後,重建之問題詞鍵與答案詞鍵關係矩陣,使 ACAFW 的 TRDR 值提昇至 0.711、準確率提高為 0.3174、查全率也改善為 0.5141,相較於 70%∼90%的維度約化,雖然其系統效能稍佳,但仔細觀察 10%

維度約化後之重建矩陣發現:此矩陣過度約化,導致此矩陣包含過多的雜訊,

使其表示之詞鍵關係已過度失真。因此,以問題詞鍵與答案詞鍵關係矩陣表達 的意義看來,10%維度約化後,重建之問題詞鍵與答案鍵關係矩陣,儘管能 ACAFW的系統效能,但已失去其代表的意義。

由表格 8 可知:經過維度約化後,重建之問題詞鍵與答案詞鍵關係矩陣,

無法提高 ACAFW的系統效能,這是因為一般參考問題問答集中每一組問答組 所屬之領域的差異過大,造成 LSA 的學習效能不佳!

由表格 9 可知:經 50%∼60%的維度約化後,重建之問題詞鍵與答案詞鍵 關係矩陣,能使 ACAFW有較佳的系統效能。TRDR 值由原來的 0.375 提高至 0.389,增幅為 3.73%;準確率從原來的 0.0847 提高到 0.0893∼0.0952,增幅最 高可達約 12.4%;而查全率則維持在 0.444。

由上述的實驗結果可得到:只要能控制問答集涵蓋的範圍,使其不要太過 度 (intra-cluster)。群間相似度是衡量每一個概念與其它概念的相似程度,公式 如方程式 26(a)所示;而群內相似度是評估在同一概念中詞鍵間的相似程度,

最高的詞鍵來表示該概念的群中心。另一方面,因概念的群中心也是一個詞鍵,

因此二群中心的相似度

j ic

Simc, 的計算方式可直接套用方程式 13 即可。

除了使用平均來度量概念空間的群間相似度和群內相似度外,本論文另外 採用了標準差來做為計算群間相似度和群內相似度時相似度分佈的指標,分別 如 方 程 式 26(b) 和 方 程 式 27(b) 所 示 , 其 中 SD 表 示 標 準 差 (Standard Deviation)。加入這兩個公式的評量是因為經過 LSA 後詞鍵表示法的向量元素 值會有所改變,此時單單只是看平均的話,會因向量的每一個元素值同時變大 而相似度計算會跟著變大,所以群間相似度和群內相似度也隨著變大,這時候 加上方程式 26(b)和方程式 27(b)有關標準差的考量,就能評估這些兩兩的相似 度的分散程度。當同時考量方程式 26(a)、(b)和方程式 27(a)、(b)後,我們可 以知道:對於一個品質精良的概念空間,其概念間相似度的值都會很小,所以 群間相似度的值應該很小,而且 inter-clusterSD的值也會較低;另一方面,每一 個概念中兩兩詞鍵相似度的值都會很大,所以群內相似度的值應該很大,而且 intra-clusterSD的值也會較低。

表格 10、表格 11 和表格 12 為分別以運動規則、一般參考問題和常問問 題為問答集,顯示不同的維度約化和不同的門檻值對概念空間建構品質的影 響,表格中 Threshold 代表平均連結分群法的門檻值,這裡考量了三種不同的 門檻值,分別為 0.6、0.7 和 0.8;此外,intra 表示 intra-cluster;intraSD代表 intra-clusterSD;inter 表示 inter-cluster;而 interSD代表 inter-clusterSD;表格中淺 色的部分表示比原矩陣有較佳的結果。

DR

Analysis 5% 10% 20% 30% 40% 50% 60% 70% 100%

intra 0.8618 0.8101 0.6329 0.5458 0.4860 0.4493 0.4322 0.4279 0.3746 intraSD 0.8295 0.6132 0.4322 0.3563 0.3173 0.2930 0.2798 0.2721 0.2081

Threshold= 0.8

inter 0.2931 0.1674 0.1075 0.0918 0.0827 0.0766 0.0741 0.0735 0.0836

interSD 0.3036 0.2402 0.1810 0.1614 0.1513 0.1442 0.1414 0.1406 0.1451

intra 0.7826 0.7975 0.7743 0.7274 0.6638 0.6332 0.6176 0.6178 0.5768 intraSD 0.7897 0.7308 0.6008 0.5143 0.4654 0.4182 0.3977 0.3943 0.3247

inter 0.3715 0.1785 0.0930 0.0821 0.0743 0.0679 0.0660 0.0660 0.0787

Threshold=0.7 interSD 0.3074 0.2597 0.1815 0.1615 0.1504 0.1416 0.1382 0.1389 0.1445

intra 0.7046 0.7158 0.7330 0.7341 0.7192 0.7096 0.7012 0.6977 0.6725 intraSD 0.7168 0.7063 0.6745 0.6465 0.5954 0.5634 0.5369 0.5313 0.4728

inter 0.4550 0.2056 0.0934 0.0708 0.0612 0.0578 0.0563 0.0570 0.0709

Threshold=0.6 interSD 0.2963 0.2884 0.1934 0.1640 0.1481 0.1411 0.1376 0.1377 0.1459

表格 10:維度約化和不同的門檻值對概念空間建構品質的評量表 (運動規則)

由表格 10 可知:Word-By-Document 矩陣經過 LSA 後所得到的詞鍵表示 法應用在概念空間的建構上,所得到的 intra-cluster 評量結果都比原來未經過 LSA 有較好的結果。當門檻值為 0.8 時,intra-cluster 評估平均增幅在 55.01%左 右;在門檻值為 0.7 時,intra-cluster 評估平均增幅約 21.67%;而門檻值為 0.6 時,intra-cluster 評估平均增幅在 6.24%左右。

以 inter-cluster 評量來說,在門檻值為 0.8 時,只有 40%∼70%有較好的結 果,平均改善程度約 8.25%;當門檻值為 0.7 時,只有 40%∼70%有較好的結果,

平均改善程度在 12.86%左右;而門檻值為 0.6 時,只有 30%∼70%有較好的結 果,平均改善程度約 14.50%。

若再輔以 intra-clusterSD和 inter-clusterSD綜合評估下,可以得到:當門檻值 為 0.8 或 0.7、維度約化為 50%∼70%時,所建的概念空間有較佳之品質評估;

當門檻值為 0.6、維度約化為 40%∼70%時,所建的概念空間有較佳之品質評 估。因此,在 intra-cluster 和 inter-cluster 的評估上,LSA 能改進概念空間的建 構品質。

若由概念空間的內容來看,以 40%和 50%之維度約化和門檻值為 0.7 所建 構的概念空間為例,「驅逐」和「出場」二詞鍵在沒有維度約化和門檻值為 0.7

的概念空間中,分別屬於不同概念,但是在 40%和 50%的維度約化和門檻值為 0.7 的概念空間中,這二個詞鍵是屬於同一個概念。而 我們知道在運動規則「驅 逐」某人和請某人「出場」是代表相同的意思,因此這二個詞應屬於相同的概 念。由此可知:利用 LSA 能改良概念空間的建構品質。

DR

Analysis 5% 10% 20% 30% 40% 50% 60% 70% 100%

intra 0.2583 0.4107 0.5275 0.5924 0.6623 0.6734 0.6274 0.5700 0.5353 intraSD 0.2509 0.3908 0.4914 0.5107 0.5210 0.5159 0.4512 0.3986 0.3795

inter 0.0037 0.0037 0.0024 0.0020 0.0022 0.0023 0.0021 0.0019 0.0016

Threshold=0.8 interSD 0.0582 0.0611 0.0478 0.0432 0.0415 0.0417 0.0391 0.0353 0.0308

intra 0.2515 0.4032 0.5329 0.6124 0.7094 0.7477 0.7181 0.6728 0.6451 intraSD 0.2487 0.3936 0.5070 0.5503 0.5844 0.5907 0.5241 0.4705 0.4582

inter 0.0035 0.0036 0.0023 0.0017 0.0019 0.0019 0.0018 0.0015 0.0011

Threshold=0.7 interSD 0.0575 0.0604 0.0474 0.0414 0.0402 0.0400 0.0370 0.0323 0.0254

intra 0.2441 0.3951 0.5206 0.6023 0.7054 0.7542 0.7295 0.6931 0.6724 intraSD 0.2460 0.3890 0.5064 0.5609 0.6221 0.6297 0.5696 0.5159 0.5080

inter 0.0035 0.0036 0.0023 0.0016 0.0017 0.0018 0.0016 0.0012 0.0007

Threshold=0.6 interSD 0.0578 0.0606 0.0478 0.0407 0.0390 0.0393 0.0358 0.0296 0.0209

表格 11:維度約化和不同的門檻值對概念空間建構品質的評量表 (一般參考問題)

由表格 11 可知:Word-By-Document 矩陣經過 LSA 後所得到的詞鍵表示 法應用在概念空間的建構上,40%∼70%的維度約化所得到的 intra-cluster 評量 結果比原來未經過 LSA 有較好的結果。當門檻值為 0.8 時,intra-cluster 評估平 均增幅在 16.8%左右;在門檻值為 0.7 時,intra-cluster 評估平均增幅約 6.7%;

而門檻值為 0.6 時,intra-cluster 評估平均增幅在 4.8%左右。但一般參考問題問 答集所建構的概念空間,在 inter-cluster 的評估上反而得到較差的數值。追究其 原因,亦是因為一般參考問題問答集所涵蓋之範圍過於零散,導致 LSA 的學習 效能不彰!

DR

Analysis 20% 30% 40% 50% 60% 70% 80% 90% 100%

intra 0.8399 0.7999 0.7413 0.6810 0.6112 0.5653 0.5518 0.3995 0.3926 intraSD 0.7620 0.6968 0.6147 0.5596 0.5155 0.4855 0.4491 0.2686 0.2679

inter 0.0960 0.0558 0.0303 0.022 0.0191 0.0171 0.0161 0.0193 0.0191

Threshold=0.8 interSD 0.2103 0.1672 0.1308 0.1111 0.1004 0.0932 0.0898 0.0878 0.0875

intra 0.8223 0.8381 0.8213 0.7990 0.7714 0.7440 0.7273 0.6354 0.6356 intraSD 0.7868 0.7788 0.7347 0.6777 0.6485 0.6134 0.5794 0.4153 0.4126

inter 0.0906 0.0539 0.0276 0.0190 0.0160 0.0144 0.0138 0.0170 0.0170

Threshold=0.7 interSD 0.2164 0.1731 0.1326 0.1109 0.0995 0.0913 0.0878 0.0859 0.0855

intra 0.7653 0.7857 0.7952 0.7909 0.7835 0.7698 0.7572 0.7044 0.7045 intraSD 0.7634 0.7894 0.7715 0.7435 0.7346 0.7271 0.6939 0.5791 0.5718

inter 0.0937 0.0546 0.0270 0.0168 0.0136 0.0118 0.0112 0.0129 0.0131

Threshold=0.6 interSD 0.2231 0.1799 0.1363 0.1117 0.0984 0.0908 0.0868 0.0790 0.0781

表格 12:維度約化和不同的門檻值對概念空間建構品質的評量表 (常問問題)

由表格 12 可知:Word-By-Document 矩陣經過 LSA 後所得到的詞鍵表示 法應用在概念空間的建構上,20%∼80%的維度約化所得到的 intra-cluster 評量 結果比原來未經過 LSA 有較好的結果。當門檻值為 0.8 時,intra-cluster 評估平 均增幅在 29.2%左右;在門檻值為 0.7 時,intra-cluster 評估平均增幅約 15.4%;

而門檻值為 0.6 時,intra-cluster 評估平均增幅在 7.4%左右。

以 inter-cluster 評量來說,在門檻值為 0.8 時,只有 60%∼80%有較好的結 果,平均改善程度約 8.73%;當門檻值為 0.7 時,只有 60%∼80%有較好的結果,

平均改善程度在 13.3%左右;而門檻值為 0.6 時,只有 70%∼90%有較好的結果,

平均改善程度約 8.65%。

綜合上述評估,只要能控制訓練問答集涵蓋的範圍,使其不要過於零散,

則在 intra-cluster 和 inter-cluster 的評估上,LSA 能改進概念空間的建構品質。

4.3.3 答案類型知識庫建構評估

在 ACAF 的答案類型知識庫中記錄了疑問詞鍵對於每一個答案類型的可能 性,為了評量本論文建置疑問詞鍵對答案類型的可能性,我們根據學習機制中

得到的答案類型知識庫,計算出每一個測試問題的可能答案類型,並比較先前 人工所指定的答案類型,計算出答案判別的正確率,如表格 13 所示。表格中 測試問題 QN-M 表示第 N 個問題,以人工判斷的答案類型之類型代號為 M;

而 ACAF 判斷之可能答案類型 M(w)代表 ACAF 判斷答案類型為 M,其權重為 w。由表格 13 可知,利用簡單的機率模組,ACAF 判斷新問題的答案類型之平 均正確率可達 66.82%。

測試問題 ACAF 判斷之可能答案類型 正確率

Q1 – 7 7(1) 1.0

Q2 – 3 1(0.6)、3(0.4) 0.4

Q3 – 3 3(1) 1.0

Q4 – 3 3(0.875)、6(0.125) 0.875 Q5 – 2 1(0.5)、2(0.5) 0.5

Q6 – 3 3(1) 1.0

Q7 – 3 1(0.6)、3(0.4) 0.4 Q8 – 3 1(0.6)、3(0.4) 0.4 Q9 – 1 1(0.25)、2(0.25)、3(0.2)、6(0.3) 0.25 Q10 – 6 5(0.142857)、6(0.857143) 0.857143

0.6682

表格 13:答案類型知識庫建構評估表

在文檔中 概念式自動問答探索系統 (頁 54-62)

相關文件