ACAF 查詢結果評估

第四章實驗結果分析與評估

第四節 ACAF 查詢結果評估

這一節主要是討論 ACAF 對於使用者新問題的查詢結果，利用第二節提到的 TRDR、準確率和查全率三個評估方法來證明概念空間和答案類型在問答探索系統上的可行性。

在實驗的設計上，本論文以傳統的資訊擷取技術為基準 (Base Line)，並將 ACAF 分為 3 個階段來評估 ACAF 系統在 3 個階段的改善程度。在資訊擷取技術方面，先將測試問題視為查詢字串，經過斷詞切字後直接比對先前對訓練問答集所建置的索引，找到符合測試問題的答案。本論文針對訓練問答集的 3 種

不同範圍建置索引，分別是問題 (Question)、答案 (Answer) 和問答 (Q & A) 部分。在建置問題索引時，把訓練問答集中的每一問題視為一篇文件，因此訓練問答集的問題部分就形成了資訊擷取中的文件集；而答案索引在建置時，是將訓練問答集中的每一答案視為一篇文件，所以訓練問答集的答案部分就構成了資訊擷取中的文件集；至於建構問答索引時，則是把訓練問答集中的每一個問題和相對應的答案(即問答組)視為一篇文件，故訓練問答集中的所有問題和相對應的答案就組成了資訊擷取中的文件集。確立了文件集後，再套用資訊擷取的技術，即可建構該文件集的索引。

在 ACAF 系統方面，本論文考量三個階段的 ACAF 系統。首先在第一階段中，僅根據問題與答案詞鍵間的關係，來衡量測試問題與訓練問答集中的答案相似度，為了標記方便，稱此一系統為 ACAFW；其次在第二階段，除了考量問題與答案詞鍵間的關係外，還加入了概念空間的概念描述，讓此問答探索系統同時考慮測試問題和訓練問答集中的答案在詞鍵間的關係和概念描述的正確性，稱此系統為 ACAFWC；最後，在第三階段中將 ACAFWC系統加入了答案類型的判別，即本論文所發展的系統 ACAF。表格 14、表格 15 和表格 16 分別為 ACAF 以運動規則、一般參考問題和常問問題為問答集針對先前所述之測試問題的查詢結果效能評估表。

TRDR 準確率

(Precision)

查全率 (Recall) Question 0.3542 0.1979 0.1210

Answer 0.3125 0.1458 0.0595 資訊擷取

(IR)

Q & A 0.1250 0.0833 0.0417 ACAFW 0.7781 0.3397 0.3903 ACAFW C 0.7893 0.3595 0.4082 ACAF 0.8372 0.3679 0.4332

表格 14：ACAF 查詢結果效能評估表 (運動規則問答集)

TRDR 準確率 (Precision)

查全率 (Recall) Question 0.5833 0.2778 0.3019

Answer 0.5000 0.2500 0.0796 資訊擷

取(IR)

Q & A 0.8333 0.3611 0.3296 ACAFW 0.6389 0.275 0.3352 ACAF_{W C} 0.8889 0.3583 0.3630 ACAF 0.8889 0.4167 0.4463

表格 15：ACAF 查詢結果效能評估表 (一般參考問題問答集)

TRDR 準確率

(Precision)

查全率 (Recall) Question 0.1667 0.0833 0.0152

Answer 0.2500 0.1389 0.1875 資訊擷取

(IR)

Q & A 0.1667 0.0833 0.0152 ACAFW 0.3889 0.0893 0.4444 ACAFW C 0.8889 0.3750 0.5051 ACAF 0.9000 0.3472 0.5051

表格 16：ACAF 查詢結果效能評估表 (常問問答集)

由表格 14 可知：以運動規則為問答集，在運用資訊擷取技術的三個系統(分別為 Question、Answer 和 Q&A)中，利用問題索引的查詢效能在 TRDR、準確率和查全率的評估有較好的表現；由表格 15 可知：以一般參考問題為問答集，

在運用資訊擷取技術的三個系統中，利用問答索引的查詢效能在 TRDR、準確率和查全率的評估有較好的表現；由表格 16 可知：以常問問題為問答集，在運用資訊擷取技術的三個系統中，利用答案索引的查詢效能在 TRDR、準確率和查全率的評估有較好的表現。然而相較於 3 個階段的 ACAF 系統，ACAFW、 ACAFWC和 ACAF 在三個問答集的評估中，均遠優於資訊擷取系統。

以運動規則為問答集之詞鍵間關係的實驗可知：70%∼80%的維度約化能得到較佳的詞鍵間關係矩陣，此外，依概念空間的實驗結果，ACAF_WC和 ACAF

採用門檻值為 0.6 和 40%的維度約化所建構之概念空間。由表格 14 可知：不論是 TRDR、準確率或是查全率評估，ACAFWC的查詢效能優於 ACAFW，而 ACAF 又優於 ACAFWC。

以一般參考問題為問答集之詞鍵間關係和概念空間的實驗可知：雖然 LSA 並不能改善一般參考問題的問題詞鍵和答案詞鍵間關係矩陣亦不能改良概念空間的品質，但由表格 15 可知：不論是 TRDR、準確率或是查全率評估，ACAFWC

的查詢效能優於 ACAFW，而 ACAF 又優於 ACAFWC。

以常問問題為問答集之詞鍵間關係的實驗可知：50%∼60%的維度約化能得到較佳的詞鍵間關係矩陣，此外，依概念空間的實驗結果，ACAFWC和 ACAF 採用門檻值為 0.7 和 60%的維度約化所建構之概念空間。由表格 16 可知：ACAF 在 TRDR 的評量上有最佳的查詢效能，ACAFWC次之，而 ACAFW與前二系統相較，其 TRDR 只有 0.3889，而加入概念的比對後，增幅高達 129%；另在準確率的評估上，ACAFWC有最佳的查詢效能，ACAF 次之，而 ACAFW則僅有 0.0893；最後在查全率的估量上，ACAFW加入概念比對之 ACAF_WC，其查全率由 0.4444 提昇至 0.5051，而 ACAFWC加入答案類型的判別之 ACAF，其查全率仍維持 0.5051。

由上述三種問答集之查詢效能可知：導入概念空間的概念描述和答案類型的判別，不僅能使回傳的結果更精確，也能找到較多相關答案。

在文檔中概念式自動問答探索系統 (頁 62-66)

第四章 實驗結果分析與評估

第四節 ACAF 查詢結果評估

第四章實驗結果分析與評估