第四章 實驗與結果
第三節 結果分析與探討
TFIDF 得到更好的效果的。然而結合答案驗證方法後,亦即實驗 13.與 14.,這樣 的情況馬上被推翻。因為我們的研究欲以答案驗證方法來實現系統,又綜合上述 的分析,說明使用 TFIDF 能夠讓答案具有一定的準確性,因此實驗 15.之後都以 TFIDF 來實驗並加入其他方法來檢視成效,接下來的實驗探討,也以 TFIDF 為主 要權重給予方式。再來觀察並比較實驗 2.與實驗 6.,可以觀察到方法中使用詞彙 來輔助搜尋文章對於答案選擇正確性有不錯的提升。因為實驗普遍上使用 PF 都 不會發生準確度變差的情況,因此我們認為其確實具有輔助的效果,實驗 16.以 後都加入 PF 來嘗詴提升系統準確度。
表 4-8:答案驗證方法的影響
Experiment ID
Experiment Name C1 C2 C3 c@1
2. TFIDF 6 7 27 0.20125
12. Hypothesis Words+TFIDF 0 17 23 0.425
16. Top5+Hypothesis Words+TFIDF+PF 2 17 21 0.44625
20. Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 18 21 0.46125
接下來我們探討使用答案驗證方法對本研究的影響,如表 4-8,我們觀察到 實驗 2.與實驗 12.有非常大的差異,實驗 12.因為使用答案驗證而得到非常大的提 升,這是因為答案中通常包含非常重要的資訊,因此與問題合併來尋求答案更能 在文章中找到正確的相關語句,這也是實驗 2.使用實驗方法一的結果不好的原因。
此外,如果以詞彙為單位做答案驗證方法並使用 PF 來給予權重,也可以看到使 用答案驗證以及 phrase 能夠輔助語義的效果,如實驗 16.與實驗 20.的比較。
表 4-9:重要相關語句的挑選
TopN 0.3575 0.3844 0.3588 0.41 0.4463 0.375 0.375 0.4 0.425 0.425 0.425 0
其中,每個問題得到的相關語句幾乎都不超過 50 個,圖中 x 軸代表挑選前
16. Top5+Hypothesis Words+TFIDF+PF 2 17 21 0.44625
17. OMIM(1)+Top5+Hypothesis Words+TFIDF+PF 1 15 24 0.384375 20. Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 18 21 0.46125
22. OMIM(2)+Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 19 20 0.511875
語句卻因加入擴充的字而權重被不相關的句子超越,進而低於前五高而被忽略造 成下降。簡而言之,這些擴充字詞中某些字造成問題意義的改變成為雜訊,我們 需要建立 OMIM 專有詞彼此之間的關聯並只選擇相關的字加入問題,才能避免這 樣的情況達到提升。因此,之後以實驗方法二改良過後的 OMIM 擴充系統來實驗,
以 OMIM Concept 以及 Concept 之間建立關聯的方式加入測詴文章中,避免直接 影響到問題的語義,如實驗 20.與 22.兩者的比較,實驗 22.加入擴充字詞後確實 得到了提升。
接著討論的是使用實驗方法二中以 Global Analysis 為字詞擴充方法的成效,
如表 4-11,我們在實驗 16.初次使用這樣的方式,實驗 18.與 19.代表的結果是當 每個問題加入的字數來到 250 個時,答案選擇的正確率有所上升,當字數為 350 個時其準確率又略有提升。
表 4-11:Global Analysis 擴充系統的影響
Experiment ID
Experiment Name C1 C2 C3 c@1
16. Top5+Hypothesis Words+TFIDF+PF 2 17 21 0.44625
18. QE250+Top5+Hypothesis Words+TFIDF+PF 2 18 20 0.4725
19. QE350+Top5+Hypothesis Words+TFIDF+PF 2 19 19 0.49875
20. Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 18 21 0.46125
21. QE350+Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 20 19 0.5125
圖 4-3 說明實驗挑選不同字數的結果。
圖 4-3:提高擴充字詞數對正確率影響評估圖
圖中 x 軸代表擴充系統加入問題中的字數,x 軸值為 0 即為實驗 16.不加入任 何擴充字的實驗。由圖中可以看出擴充字數在 350 個時為最佳,低於 350 時,背 景知識庫中相關於問題的字還沒有被完全加入,而高於字數 350 之後,字數 400 得到的正確率與字數 350 相當,這代表在字數 350~400 這段區間中,已經沒有 任何正確的字影響原本錯誤答案的改變,而在加入字數超過 400 後,則開始發生 正確率降低的情況,表示背景知識庫中越來越多無關問題的字被加入造成雜訊,
雖然準確率沒有非常顯著的下降,然而我們從實驗時發現:(一)當超過 350 之後,
擴充字數越往上加,某些原本正確問題的答案選項配分有越來越相近的趨勢,這 代表系統越來越不確定這個問題的答案,所以原本問題的意義因擴充字數增加漸 漸變得模糊。(二)某些系統原本回答不出的問題卻變成回答錯誤,這是因為模稜 兩可、也就是有雜訊干擾回答的現象,因此可以確定字數超過 350 後,準確率不 會再提高了。綜合以上的敘述,之後的實驗 21.我們決定以字數 350 來擴充,與
0 50 100 150 200 250 300 350 400 450 500 750 1000 2000 4000 QE:X 0.446 0.43 0.43 0.457 0.43 0.473 0.473 0.499 0.499 0.473 0.473 0.446 0.446 0.461 0.457 0.38
0.4 0.42 0.44 0.46 0.48 0.5 0.52
c@1 measure
實驗 20.相比也可以發現有不錯的效果。
這個實驗在字數達到 350 時與不加入任何字相比對於測詴資料集 1 特別具有
17. OMIM(1)+Top5+Hypothesis Words+TFIDF+PF 1 15 24 0.384375 20. Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 18 21 0.46125
21. QE350+Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 20 19 0.5125
22. OMIM(2)+Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 19 20 0.511875
23. OMIM(2)+ QE350+Top5+Hypothesis Words+TFIDF+
Hypothesis phrases+PF
1 15 24 0.384375
上述的缺點也導致實驗 23.的失敗,如表 4-13 所示,實驗 23.嘗詴把實驗方法 二的兩個擴充系統結合,然而無論與實驗 20.或延續實驗 20.只單獨加入實驗方法 二中兩個擴充系統其一的系統(實驗 21.、22.)相比,不難發現準確性嚴重的下降,
這是因為實驗 22.所使用以 OMIM 為基礎的擴充方法擴充的是測詴文章,實驗 21.
則是針對每個問題給予擴充,當這兩者配合起來時反而會放大上述所提到的缺點,
因為那些擴充後與問題無關的字因為測詴文章中也被加入了 OMIM 的擴充詞彙,
因而使找尋相關語句時字詞更容易吻合而視為相關,然而這樣的相關卻可能是錯 誤的,於是這又再次發生如同實驗 17.失敗的原因,因為使用到挑選重要句子的 方式,原本應該相關的語句卻因加入擴充的字而權重被不相關的句子超越,進而 低於前五高而被忽略造成下降。
(二) 個別題目分析
這裡我們嘗詴更深入的對 40 個問題中的一些問題進行討論,從不同的面向 理解檢視題目與對應答案的架構、意涵或各種實驗方法造成的影響,抑或推測可 能回答錯誤的原因,進而更透徹的做剖析與探討。
首先看到測詴集 2.的第 6 題,我們以實驗結果最好的實驗 21.代表系統回答 的答案,如下:
What kind of glial cell is able to phagocyte b-amyloid?
(a) neprilysin (b) siRNA (c) brain
(d) culture medium (e) microglia
system: (a) correct: (e)
此問題中 b-amyloid 代表 beta-amyloid 的意思,但因為測詴文章中對於這個名 詞的稱呼為β-amyloid、beta-amyloid,因此沒有與問題中的 b-amyloid 相符合的字,
我們推測有可能會造成回答的錯誤。
再來看到測詴集 4.的第 2 題,同樣以實驗 21.代表系統答案:
When APH1 genes are overexpressed in MEF KO what happens with the Aβ?
system: unanswered correct: (d)
這個問題的選項中並沒有特別重要的字詞足以決定出該問題的答案,依照這
Experiment Name : Top5+Hypothesis Words+TFIDF+PF c@1 : 0.44625
Experiment Name : OMIM(1)+Top5+Hypothesis Words+TFIDF+PF c@1 : 0.384375
表 4-14 與表 4-15 中,Q1~Q10 欄位代表各閱讀測詴集中問題的答題情況,
O 代表該題回答正確,X 代表該題回答錯誤,UN 則代表該題系統不給予回答。
我們從中發現到某些在實驗 17.答對的題目是使用其他實驗方法無法答對的,代 表早期 OMIM 資料所擴充的 1549 字中有些字與問題特別相關,而我們希望能實 際了解該題目補充了哪些字能完整的補足題意並找出對應相關語句而求得正確 答案,因此特別將這些題目獨立出來討論。這些題目包括測詴集 1 中的第 9 與第 10 題,測詴集 2 中的第 6 題,以及測詴集 4 中的第 3 與第 8 題。實驗方法是將早 期 OMIM 資料(1549 個字)一個字一個字加入這 5 個問題,以實驗 16.的方法來檢 視字對各 Hypothesis 配分的影響,每個字加入後可能造成三種影響:(一)正影響:
對於包含正確答案的 Hypothesis 分數提升或其他包含不正確答案的 Hypothesis 分 數下降、(二)負影響:對於包含正確答案的 Hypothesis 分數下降或其他包含不正 確答案的 Hypothesis 分數上升、(三)無影響:對於所有 Hypothesis 分數都不造成 影響。這裡我們挑選產生正影響並轉而使答案正確的字視為能補足問題題意的字。
根據這樣的方法,我們發現在測詴集 1 的問題 9.與問題 10.中加入擴充字 valproate 能使這兩個問題正確回答,而這個字也在使用 global analysis 的擴充系統加入擴 充字數量達到 350 時,成功加入到測詴集 1 的這兩個題目中,使得實驗 19.、實 驗 21.這兩個實驗對於測詴集 1 的準確率得到相當大的提升。測詴集 2 的問題 6 中加入 sst 能夠正確回答問題,而在本節-(二)的一開始就針對這題做了錯誤的分 析,在這裡可以更進一步推測 sst 這個字與 beta-amyloid 之間具有關聯性,且因為 加 入 這 個 字 在 測 詴 文 章 中 找 到 了 真 正 相 關 的 語 句 因 而 讓 包 含 正 確 答 案 的 Hypothesis 得到最高分。最後測詴集 4 的問題 3 中加入 aph1b 得到正確答案,我 們從 OMIM 的網站中找到這題的正確答案(d) psen1 與 aph1b 具有的關聯性,因而
據此來創造出實驗方法二中找 OMIM Concept 與建立 Concept 彼此之間關係的方 法,而在實驗 22.使用後來改良過的 OMIM 資料來做擴充的實驗中,這個題目也 確實的答對了;而問題 8 則是加入 paraparesis、pharynx 與 aph1b 後得到正確答案,
但目前我們還沒有發現到題目與這些字之間的關聯性。