第四章 實驗與結果
第四節 公式(9)與公式(14)補充說明
在公式(9)與公式(14)給予 Query word 或 Hypothesis word 的 IDF 權重的公式 中,當從背景知識庫無法找到與 Query word 或 Hypothesis word 相符合的字時,
我們判斷這兩者是否存在於測詴文章中,如果存在則給予 IDF 值 0.1 做 smoothing 的修飾調整。而這裡我們要以實驗來確立使用 0.1 能得到不錯的結果,但這個參 數的改變對整個測詴資料的影響其實不大,因為要觸發這個條件的機會相當低,
因為背景知識庫幾乎包含了所有 Query word 或 Hypothesis word 會出現的字,但 當條件發生時,從直觀的角度下計算 TFIDF 有必要使 IDF 較低來減少該字的重要 性,但仍希望 IDF 值不會直接為 0 而造成 TFIDF 值也為 0。基於這樣的理由,一 開始實驗時我們就假設此條件下 IDF 設為 0.1,之後再予以驗證。這裡我們主要 以使用到 TFIDF 來決定相關語句權重的實驗 2.(使用公式(9))與實驗 15.(使用公式 (14))為代表呈現結果,而因為參數改變的影響不易觀察,我們可能會從每個測詴 集的答題情況,甚至每個題目中各答案選項配分變化來分析參數值給予的優劣。
首先我們要界定 IDF 的最大值與最小值來決定實驗參數的範圍。根據公式(9) 與公式(14)很容易即可看出當
Qi
n
或n
Hi與背景知識庫總共的文件數相等時為最 小,其最小值為 0;當Qi
n
或n
Hi值為 1 時,則為 IDF 的最大值,我們背景知識庫總共有 9035 的文章數,因此最大值為log29035,大約為 13.14。因此在實驗中我 們將 IDF 值從 0、0.1、0.5、1、2、5、10、13、14 做實驗,其中間距的擴大是為 了更明顯看出其變化,最後取 14 來實驗是為了驗證在發生此條件時,給予的 IDF 權重值如果超過最大值而更進一步讓 Query word 或 Hypothesis word 得到的 TFIDF 加大的極端情況下,是否能使結果更好。接著我們以使用第三章提到實驗 方法一的實驗 2.(使用公式(9))初步來做實驗驗證,如下表。
表 4-16:在實驗 2.中調整 IDF 權重給予對各測詴集的影響
IDF R1 R2 R3 R4
0 0 4 1 1
0.1~14 0 5 1 1
表中 IDF 欄位為當背景知識庫無法找到與 Query word 相符合的字但 Query word 存在測詴文章的條件時,所給予 Query word 的 IDF 權重值。表中記錄的是 每個測詴集所答對的題數,而每個測詴集都有 10 個問題。當給予的 IDF 權重值 從 0.1 一直到 14 各測詴集答對的題數都一樣,從表中可以推測在實驗 2.使用實驗 方法一給予相關語句 TFIDF 的方法中,當 IDF 發生上述的條件時,設為 0.1~14 皆能得到較好的結果。但我們更進一步觀察發現:當 IDF 所給的值逐漸加大時,
大部分測詴集中的問題的答案選項配分都沒有太大改變,除了測詴集 1 的第 1 題 能明顯觀察到變化,代表這個問題發生這個條件的次數較多,如下表 4-17。
表 4-17:測詴集 1 第 1 題各答案選項配分情況
圖 4-4:在實驗 15.中調整 IDF 權重的影響圖
上圖 x 軸代表當背景知識庫無法找到與 Hypothesis word 相符合的字但 Hypothesis word 存在測詴文章的條件時,所給予 Hypothesis word 的 IDF 權重值。
從表 4-18 及圖 4-4 可以發現,IDF 值設小於 0.1 對於使用到答案驗證方法以及挑 選重要相關語句的實驗 15.會得到較好的正確率。
綜合上述實驗 2.與實驗 15.兩個使用 TFIDF 來決定相關語句權重的代表性實 驗中 IDF 權重給予方式,我們可以得到以下結論:(一)當到背景知識庫無法找到 與 Query word 或 Hypothesis word 相符合的字,但這兩者出現於測詴文章中時,
給予的 IDF 值太大或甚至超過 IDF 公式的最大值相當可能造成準確度的下降。(二) 此值設為 0.1 無論在何種方法中都獲得最好的準確度。而這樣的發現也與我們一 開始的假設相當接近,因此實驗中發生此情況我們給予 IDF 值 0.1 做 smoothing 的修飾調整。
0 0.1 0.5 1 2 5 10 13 14
IDF 0.4463 0.4463 0.42 0.42 0.42 0.41 0.3844 0.3844 0.3844 0.35
0.36 0.37 0.38 0.39 0.4 0.41 0.42 0.43 0.44 0.45 0.46
c@1 measure