第三章 研究方法
第四節 研究方法一介紹
如圖 3-2 所示,因為 QA4MRE 的測詴資料為 XML 的格式,因此我們先將一 些不需要的格式做去除處理成文字檔,並且從中區分出測詴文章(documents)、問 題(questions)和答案選項(answers)。方法的概念是如同人類回答選擇題時,首先接
收到一個問題,會先閱讀並搜尋文章中與問題相關的句子尋求解答,相關的句子 可能有數句,因此每個句子會有讀者所認為的關聯性高低,接著再觀察答案選項 與這些句子何者最相似、相關,最後回答覺得最可信的答案。因此,研究方法大 致分為 5 個步驟,將在以下小節中一一詳細討論,分別為:(一)前處理、(二) Query words 相關語句擷取、(三) Query words 權重給予、(四)相關語句權重給予、(五) 答案選擇方法。此外,圖 3-3 為擴充系統的架構,將在(六)擴充 Query words 會有 詳細的探討。
(一) 前處理
將 QA4MRE 的測詴資料分成三個部分後,要實際使用仍需做一些前置處理,
以去除搜尋時的一些雜訊影響實驗結果。
1. 大寫轉小寫
三個部份的測詴資料都將大寫字一併轉為小寫。
2. Stop words 去除
本論文的 stop word list 是使用一個 English stop word 的網站6所列的 stop words,在三個部份的測詴資料中,問題和答案選項兩個部分有進行 stop words 的去除。例如:do、by、can、the⋅⋅⋅⋅⋅⋅為 stop words。
3. 標點符號去除
所有問題和答案選項的標點符號都有做去除的處理。例如:“http://wt.jrc.it/”
或者“[email protected]”標點去除後分別為“http wt jrc it”與“doug nutch org”。
4. Stemming
Standard Porter stemming algorithm (Porter, 1980)7是本論文用以 stemming 的演 算方法,使用對象為所有測詴資料,包含測詴文章、問題以及答案選項。
經過上述處理後,測詴問題與答案選項中剩餘的字我們稱為 Query words 與 Answer words。
(二) Query words 相關語句擷取
得到 Query words 後,接著使用它來擷取測詴文章中相關的句子。擷取的方 法為,當 Query words 與句子中的字相吻合時,則視該句子為相關並且擷取出來。
(三) Query words 權重給予
為了決定每個 Query word 對句子的重要性,我們需要給予其權重值。在這裡 使用了 TF 以及 TF-IDF 的方法進行實驗。
TF Weighting,公式如下公式(8):
i i
i i
Q Q Q
Q
f
TF f
1 max
(8)上式中
TF
Qi是 Query word Qi的詞頻。f
Qi代表測詴文章中出現Qi的次數。因 為經過前處理過的 Query words,我們希望每個字都具有一定的權重值,所以實驗7http://tartarus.org/martin/PorterStemmer/
中我們假設每個 Query word 的字都擁有基礎的權重值為 1,另外再以測詴文章中
i answer word 與相關語句中的字相符時,該答案選項就獲得該句子的權重值為其分 數。而每個答案選項的得分即為該選項的 answer word 與相關語句中字相符的句
子權重總和。得分最高者即為最後的答案,如果同時有多個選項為最高分,則該 題選擇不回答。
(六) 擴充 Query words
實驗中我們使用本章節第二節-(三)-1.相關於阿茲海默症的 OMIM 專有詞來 當做額外知識的詞語擴充。如圖 3-3 所示,OMIM 專有詞首先經過了 stop word 去除、標點符號去除以及 stemming 的前處理。產生的字即稱為擴充 Query words,
這些字與原本的 Query words 結合後重新計算新的權重值以得到新的答案。