• 沒有找到結果。

第三章 研究方法

第四節 研究方法一介紹

如圖 3-2 所示,因為 QA4MRE 的測詴資料為 XML 的格式,因此我們先將一 些不需要的格式做去除處理成文字檔,並且從中區分出測詴文章(documents)、問 題(questions)和答案選項(answers)。方法的概念是如同人類回答選擇題時,首先接

收到一個問題,會先閱讀並搜尋文章中與問題相關的句子尋求解答,相關的句子 可能有數句,因此每個句子會有讀者所認為的關聯性高低,接著再觀察答案選項 與這些句子何者最相似、相關,最後回答覺得最可信的答案。因此,研究方法大 致分為 5 個步驟,將在以下小節中一一詳細討論,分別為:(一)前處理、(二) Query words 相關語句擷取、(三) Query words 權重給予、(四)相關語句權重給予、(五) 答案選擇方法。此外,圖 3-3 為擴充系統的架構,將在(六)擴充 Query words 會有 詳細的探討。

(一) 前處理

將 QA4MRE 的測詴資料分成三個部分後,要實際使用仍需做一些前置處理,

以去除搜尋時的一些雜訊影響實驗結果。

1. 大寫轉小寫

三個部份的測詴資料都將大寫字一併轉為小寫。

2. Stop words 去除

本論文的 stop word list 是使用一個 English stop word 的網站6所列的 stop words,在三個部份的測詴資料中,問題和答案選項兩個部分有進行 stop words 的去除。例如:do、by、can、the⋅⋅⋅⋅⋅⋅為 stop words。

3. 標點符號去除

所有問題和答案選項的標點符號都有做去除的處理。例如:“http://wt.jrc.it/”

或者“[email protected]”標點去除後分別為“http wt jrc it”與“doug nutch org”。

4. Stemming

Standard Porter stemming algorithm (Porter, 1980)7是本論文用以 stemming 的演 算方法,使用對象為所有測詴資料,包含測詴文章、問題以及答案選項。

經過上述處理後,測詴問題與答案選項中剩餘的字我們稱為 Query words 與 Answer words。

(二) Query words 相關語句擷取

得到 Query words 後,接著使用它來擷取測詴文章中相關的句子。擷取的方 法為,當 Query words 與句子中的字相吻合時,則視該句子為相關並且擷取出來。

(三) Query words 權重給予

為了決定每個 Query word 對句子的重要性,我們需要給予其權重值。在這裡 使用了 TF 以及 TF-IDF 的方法進行實驗。

 TF Weighting,公式如下公式(8):

i i

i i

Q Q Q

Q

f

TF f

 1 max

(8)

上式中

TF

Qi是 Query word Qi的詞頻。

f

Qi代表測詴文章中出現Qi的次數。因 為經過前處理過的 Query words,我們希望每個字都具有一定的權重值,所以實驗

7http://tartarus.org/martin/PorterStemmer/

中我們假設每個 Query word 的字都擁有基礎的權重值為 1,另外再以測詴文章中

i answer word 與相關語句中的字相符時,該答案選項就獲得該句子的權重值為其分 數。而每個答案選項的得分即為該選項的 answer word 與相關語句中字相符的句

子權重總和。得分最高者即為最後的答案,如果同時有多個選項為最高分,則該 題選擇不回答。

(六) 擴充 Query words

實驗中我們使用本章節第二節-(三)-1.相關於阿茲海默症的 OMIM 專有詞來 當做額外知識的詞語擴充。如圖 3-3 所示,OMIM 專有詞首先經過了 stop word 去除、標點符號去除以及 stemming 的前處理。產生的字即稱為擴充 Query words,

這些字與原本的 Query words 結合後重新計算新的權重值以得到新的答案。

相關文件