第四章 實驗與結果
第二節 實驗結果
16. Top5+Hypothesis Words+TFIDF+PF 2 17 21 0.44625
17. OMIM(1)+Top5+Hypothesis Words+TFIDF+PF 1 15 24 0.384375
18. QE250+Top5+Hypothesis Words+TFIDF+PF 2 18 20 0.4725
19. QE350+Top5+Hypothesis Words+TFIDF+PF 2 19 19 0.49875
20. Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 18 21 0.46125
21. QE350+Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 20 19 0.5125
22. OMIM(2)+Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 19 20 0.511875
23. OMIM(2)+ QE350+Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 15 24 0.384375
測詴問題在本實驗總共為 40 題,表格中每列代表一個實驗,表格中 C1 代表 系統未給予回答的問題數,C2 代表系統正確回答的問題數,C3 則代表系統答錯 的問題數,c@1 即為使用公式(22)所得到的評估結果。
實驗 1.~4.呈現參加 CLEF2012 的機器閱讀問答系統評估(QA4MRE)的結果,
使用的是第三章所介紹的實驗方法一所提到的方法,TF 是指測詴問題中的字以公 式(8)來給予權重,TFIDF 則是以公式(10)來給予權重,OMIM(1)代表使用圖 3-3 的擴充系統架構方法,以實驗早期 OMIM 資料來擴充字詞。實驗 5.~8.是針對參 加 QA4MRE 後,測詴加上以詞彙為單位來找尋答案的方法,對於答案選則的影 響,TF 與 TFIDF 同樣分別用公式(8)及公式(10)來給予權重;而 PF 則是以公式(16) 來給予權重。實驗 9.、10.中 Top4 代表所有相關語句給予權重後,經由排序挑選 前四高的那些句子作為相關語句所產生的影響,而在實驗 9.、10.這部分的改良中,
以挑選前四高的句子得到的準確率最高,因此展現於此表。實驗 11.、12.初步以 字為單位來做答案驗證的方法並配合不同的權重給予方式實驗。實驗 13.~ 15.
結合重要語句的挑選,以及對於 Query words 的答案驗證方法實驗,Top5 代表以 挑選前五高的句子作為相關語句。實驗 16.延續實驗 15.進一步加上公式(16)的 PF 權重給予方式來觀察成效。實驗 17.延續實驗 16.加上實驗方法一中的字詞擴充系 統。實驗 18.、19.則是延續實驗 16.加上實驗方法二中的圖 3-5 以 Global Analysis 為方法的擴充系統,QE250 與 QE350 分別代表選擇加入測詴問題中的 Expanded words 數量為 250 個與 350 個。最後,實驗 20.~23.是以實驗方法二進行實驗所得 到的結果,OMIM(2)代表使用圖 3-6 的擴充系統架構方法,以建立過關係的 OMIM Concept 來擴充字詞。
0 0.1 0.2 0.3 0.4 0.5 0.6
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
c@1 0.23 0.2 0.18 0.25 0.2 0.28 0.18 0.25 0.33 0.21 0.18 0.43 0.26 0.41 0.45 0.45 0.38 0.47 0.5 0.46 0.51 0.51 0.38
以直條圖統整以上實驗如下圖 4-1 所示:
圖 4-1:實驗結果直條圖
Morente (2012)總結了參與 CLEF 所籌畫的 QA4MRE 子任務-阿茲海默症的探 討(QA4MRE pilot task machine reading of biomedical texts about Alzheimer‟s Disease)所有參加者的實驗結果,得到 7 個參加團隊的實驗方法中,各自正確率最 高者,如下表 4-2。
表 4-2:Highest scores per team
Team Name Highest c@1 measure
Pisa 0.55
merk 0.47
kule 0.30
nict 0.28
iirg 0.25
lims 0.21
ntnu 0.20
average 0.322857
根據表 4-1 及圖 4-1 可以看出,我們的研究中以實驗 21.排名第一,使用實驗 方法二並結合 Global Analysis 的方法做字詞擴充,c@1 measure 最高為 0.5125;
緊接在後排名第二的是實驗 22.,使用的是實驗方法二結合 OMIM 詞彙擴充,分 數為 0.5119,兩者都超過了五成的正確率。對照表 4-2 我們發現在所有使用此相 同實驗資料做實驗的團隊成果中,我們的研究最高分僅次於 Pisa (c@1 measure 最 高為 0.55 的分數),甚至遠超過所有參加者的帄均分數,得到相當不錯的成績。
Morente(2012)統整所有參加者所上傳的實驗並公布每個實驗的統計值如下 表 4-3。欄位 Run 的名稱為參加團隊上傳的每個實驗名稱,名稱中出現在數字前 的字代表團隊名稱,而實驗的排序方式是由高到低排序 c@1 measure 值;統計值 包括中位數、標準差與 Accuracy。
表 4-3:參加團隊各實驗結果統計表
nict12091enen 0.20 0.20 0.08 0.20 集的中位數、標準差和 Accuracy。表中 R1、R2、R3、R4 分別代表測詴資料集 1、
2、3 以及 4,同樣以 c@1 measure 來計算個別測詴集的準確率。
13. Top4+Hypothesis Words+TF 0.1 0.5 0.3 0.12 0.21 0.186458 0.25 14. Top4+Hypothesis Words+TFIDF 0.3 0.6 0.4 0.33 0.365 0.135 0.4 15. Top5+Hypothesis Words+TFIDF 0.11 0.7 0.4 0.55 0.475 0.251794 0.425 16. Top5+Hypothesis Words+TFIDF+PF 0.11 0.7 0.5 0.44 0.47 0.245 0.425 17. OMIM(1)+Top5+
Hypothesis Words+TFIDF+PF
0.2 0.5 0.44 0.4 0.42 0.13 0.375
18. QE250+Top5+
Hypothesis Words+TFIDF+PF
0.3 0.8 0.44 0.33 0.385 0.229692 0.45
19. QE350+Top5+
Hypothesis Words+TFIDF+PF
0.4 0.8 0.44 0.33 0.42 0.20998 0.475
20. Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
0.1 0.7 0.6 0.44 0.52 0.262805 0.45
21. QE350+Top5+
Hypothesis Words+TFIDF+
Hypothesis phrases+PF
0.4 0.7 0.6 0.33 0.5 0.171925 0.5
22. OMIM(2)+Top5+
Hypothesis Words+TFIDF+
Hypothesis phrases+PF
0.1 0.7 0.6 0.55 0.575 0.265754 0.475
23. OMIM(2)+ QE350+Top5+
Hypothesis Words+TFIDF+
Hypothesis phrases+PF
0.22 0.6 0.5 0.2 0.36 0.200666 0.375
參考表 4-3 與表 4-4,所有參加者的實驗中,中位數值最高的是 Pisa12013enen 為 0.55,參加者中中位數值最低為 0.10,分別是 iirg12011enen 與 ntnu12044enen 兩個實驗;而在本研究中位數值最高為實驗 22.的 0.575,其中實驗 22.也是本研 究使用 c@1 評量第二高的實驗方法,本研究中位數值最低為實驗 2.的 0.13。標準 差代表實驗方法對於回答測詴集問題正確的通用程度,因此越小就代表方法可能 越適用於任何測詴集,表 4-5 中標準差最小的是 nict12102enen 為 0.05,標準差最 大者為 0.28;而本研究標準差最小為實驗 17.的 0.13,標準差最大為實驗 9.的 0.296873。此外,本研究中 c@1 measure 最好的實驗 21.,其標準差為 0.171925,
在所有參加者中大致是介於帄均值左右。最後是 Accuracy 的比較,Accuracy 代表
使用一個實驗方法系統回答真正答對的比率,因為在這這個研究中每個測詴問題 必定含有唯一一個正確答案,以 Accuracy 統計的話則不回答的部分也算是錯誤,
表 4-3 中所有參加者最好為 Pisa12013enen 實驗的 0.55,最差為 lims12034enen 實 驗的 0.13;而本研究中,Accuracy 最高的是實驗 21.的 0.50,在表 4-3 中排名第二,
最低為實驗 2.、3.、7.、10.、11.的 0.175。
此外,Morente 也統計了所有參加者系統在各個測詴集的 c@1 measure 帄均 值,以此呈現每個測詴集的難度,如下表所示,測詴集 1 得到的分數最低只有 0.11,
因此被歸類為難度相當高的測詴集,而測詴集 2 的分數最高為 0.34,相對上來說 較簡單。
表 4-5:各測詴集 c@1 measure 的帄均值
R1 R2 R3 R4
0.11 0.34 0.22 0.24
比較表 4-4 與表 4-5 可以發現,我們的研究有許多實驗方法都遠遠超過了這 個難度的門檻值,是相當不錯的結果,研究中四個測詴集都高於此門檻值的實驗 有:實驗 14.、17.、18.、19.、21.五個實驗,其中實驗 19.與 21.甚至對於難度最 高的測詴資料集 1 有大幅度的超越。
本研究也從各個測詴集問題的題型分類來檢視各測詴集對於研究中所使用 到的方法的難易程度,表 4-6 是針對各測詴集做題目的分類,並且算出各測詴集 與各類問題的準確率,藉此更深入分析彙整我們方法整體的準確率以及實驗方法 與各類型問題之間的關聯。
表 4-6:各測詴集對於題目分類作答情況與帄均準確率
Reading Test
Entity Reaction Amount Method AR c@1
Mean TNQ Mean TNQ Mean TNQ Mean TNQ
R1 0.8261 7 0 1 0.2174 1 0 1 0.1043 0.1061
R2 5.1304 8 0 0 0 0 0.6087 2 0.5739 0.5835
R3 2.4783 8 0.4783 1 0.5652 1 0 0 0.3522 0.3687
R4 1.9565 5 0.1739 2 0 1 0.3478 2 0.2478 0.2683
AQ 0.3711 0.1631 0.2609 0.1913
總共分成了 4 種問題的類型探討,表中 Entity 代表該問題所問的對應答案是 一個實體名稱(例:DNA、RNA、蛋白質⋅⋅⋅⋅⋅⋅),Reaction 代表該問題所問的對應答 案是一個反應名稱,Amount 代表該問題所問的對應答案是一個數字,Method 代 表該問題所問的對應答案是一個方法或技術。而表中各欄位又分為 Mean 與 TNQ 兩欄,其中 TNQ 代表該類型題目在測詴集中總共具有的題數;Mean 則為統計實 驗 1.~23.各類問題在各測詴集中答對的題數帄均值,算出本研究的方法對於該類 型題目在測詴集中帄均能夠答對的題數。AR 為利用公式(23)的 Accuracy 求法統 計實驗 1.~23 中各測詴集的帄均正確率;AQ 則是利用公式(23)的 Accuracy 求法 統計實驗 1.~23 中各類型問題的帄均正確率。
從表 4-6 可以發現本研究的方法在測詴資料集 1 的 c@1 measure 值表現帄均 上比表 4-5 所有參加者的帄均結果稍差,這是因為在實驗 1.~實驗 11 的方法中,
測詴集 1 的 c@1 measure 值皆為 0,大大拉低了測詴集 1 總體的帄均,之後使用 實驗方法二的 Global Analysis 字詞擴充方法就會有所提升,這在下一節會有更詳 盡的分析。而表 4-6 其餘三個測詴集的 c@1 measure 值則優於表 4-5 所有參加者
的帄均結果,其中測詴集 2 和測詴集 3 使用我們的方法總體而言明顯優於其他參 加者的方法。以本研究的方法為出發點探討,表 4-6 可以觀察出測詴集 2 與測詴 集 3 相對於測詴集 1 與測詴集 4 而言,題目的分類上較單純,且大部分的題型都 屬於 Entity 這一類,因而得到較好的準確率,又看到 Entity 類型的題目帄均準確 率也較其他類型高,由此可以推斷我們的方法可能較適用於題型較單純的問題群 組,而且對於 Entity 類型的解題能力較為優異。另外如果從題目的難易度為出發 點觀察題目帄均的準確率(AQ),可以推斷出 Entity 類型的問題較為簡單,相對上 Reaction 類型的問題就比較不容易被正確回答。