研究方法一介紹

第三章研究方法

第四節研究方法一介紹

如圖 3-2 所示，因為 QA4MRE 的測詴資料為 XML 的格式，因此我們先將一些不需要的格式做去除處理成文字檔，並且從中區分出測詴文章(documents)、問題(questions)和答案選項(answers)。方法的概念是如同人類回答選擇題時，首先接

收到一個問題，會先閱讀並搜尋文章中與問題相關的句子尋求解答，相關的句子可能有數句，因此每個句子會有讀者所認為的關聯性高低，接著再觀察答案選項與這些句子何者最相似、相關，最後回答覺得最可信的答案。因此，研究方法大致分為 5 個步驟，將在以下小節中一一詳細討論，分別為：(一)前處理、(二) Query words 相關語句擷取、(三) Query words 權重給予、(四)相關語句權重給予、(五) 答案選擇方法。此外，圖 3-3 為擴充系統的架構，將在(六)擴充 Query words 會有詳細的探討。

(一) 前處理

將 QA4MRE 的測詴資料分成三個部分後，要實際使用仍需做一些前置處理，

以去除搜尋時的一些雜訊影響實驗結果。

1. 大寫轉小寫

三個部份的測詴資料都將大寫字一併轉為小寫。

2. Stop words 去除

本論文的 stop word list 是使用一個 English stop word 的網站⁶所列的 stop words，在三個部份的測詴資料中，問題和答案選項兩個部分有進行 stop words 的去除。例如：do、by、can、the⋅⋅⋅⋅⋅⋅為 stop words。

3. 標點符號去除

所有問題和答案選項的標點符號都有做去除的處理。例如：“http://wt.jrc.it/”

或者“[email protected]”標點去除後分別為“http wt jrc it”與“doug nutch org”。

4. Stemming

Standard Porter stemming algorithm (Porter, 1980)⁷是本論文用以 stemming 的演算方法，使用對象為所有測詴資料，包含測詴文章、問題以及答案選項。

經過上述處理後，測詴問題與答案選項中剩餘的字我們稱為 Query words 與 Answer words。

(二) Query words 相關語句擷取

得到 Query words 後，接著使用它來擷取測詴文章中相關的句子。擷取的方法為，當 Query words 與句子中的字相吻合時，則視該句子為相關並且擷取出來。

(三) Query words 權重給予

為了決定每個 Query word 對句子的重要性，我們需要給予其權重值。在這裡使用了 TF 以及 TF-IDF 的方法進行實驗。

 TF Weighting，公式如下公式(8)：

i i

Q Q Q

f

TF f





 1 max

₍₈₎

上式中

TF

_Q_i是 Query word Q_i的詞頻。

f

_Q_i代表測詴文章中出現Q_i的次數。因為經過前處理過的 Query words，我們希望每個字都具有一定的權重值，所以實驗

7http://tartarus.org/martin/PorterStemmer/

中我們假設每個 Query word 的字都擁有基礎的權重值為 1，另外再以測詴文章中

i answer word 與相關語句中的字相符時，該答案選項就獲得該句子的權重值為其分數。而每個答案選項的得分即為該選項的 answer word 與相關語句中字相符的句

子權重總和。得分最高者即為最後的答案，如果同時有多個選項為最高分，則該題選擇不回答。

(六) 擴充 Query words

實驗中我們使用本章節第二節-(三)-1.相關於阿茲海默症的 OMIM 專有詞來當做額外知識的詞語擴充。如圖 3-3 所示，OMIM 專有詞首先經過了 stop word 去除、標點符號去除以及 stemming 的前處理。產生的字即稱為擴充 Query words，

這些字與原本的 Query words 結合後重新計算新的權重值以得到新的答案。

在文檔中以答案驗證方法為基礎之生醫相關問答系統 (頁 26-32)

第三章 研究方法

第四節 研究方法一介紹

f

TF f



 1 max

TF

f

第三章研究方法

第四節研究方法一介紹