研究方法二介紹

第三章研究方法

第六節研究方法二介紹

如圖 3-4 所示，因為 QA4MRE 的測詴資料為 XML 的格式，因此我們先將一些不需要的格式做去除處理成文字檔，並且從中區分出測詴文章(documents)、問題(questions)和答案選項(answers)。方法使用的是答案驗證的概念：首先系統接收到一個問題時，將答案選項分別與問題配合(問題與各個答案選項結合，稱為 Hypothesis)到文章裡面閱讀並搜尋相關的句子尋求解答，相關的句子可能有數句，

因此每個句子會有與各個 Hypothesis 之間的關聯性高低，算出句子關聯性的分數後，接著將與此 Hypothesis 相關的句子分數加總起來，最高分的 Hypothesis 代表讀完文章後該 Hypothesis 所包含的答案選項與問題是最有關聯的。因此，該答案

QA4MRE Test Data

Documents s

OMIM Concepts:

OMIM Related Concepts

Expanded Documents Query Expansion

Main System Architecture

選項則視為最後回答中覺得最可信的答案。

在研究中 Hypothesis 分為(1)以字為單位的 word 來進行實驗，以及(2)以詞彙為單位的 phrase 來進行實驗，兩者方法的概念大致相同如上述，而實驗中考量以詞彙為單位的原因主要是輔助只以字為單位容易造成語義上判斷的不足，例如：

“stuffy nose”，代表感冒流鼻水，然而兩個字分開看卻無法看出其意義，當視為詞彙時，就可以輕易的了解“cold”與“stuffy nose”是具有相近意義的詞彙。

本論文的研究方法大致分為 5 個步驟，將在以下一一詳細討論，分別為：(一) 前處理、(二) Hypothesis words/phrases 產生、(三) Hypothesis words/phrases 權重給予、(四)相關語句權重給予、(五) Hypothesis 配分與答案選擇方法。此外，圖 3-5 與圖 3-6 為擴充系統的架構，將在(六)字詞擴充中會有詳細的探討。

(一) 前處理

1. Query words、Answer words 的產生

將 QA4MRE 的測詴資料分成三個部分後，要實際使用仍需做一些前置處理，

以去除搜尋時的一些雜訊影響實驗結果。

(1) 大寫轉小寫

三個部份的測詴資料都將大寫字一併轉為小寫。

(2) Stop words 去除

本論文的 stop word list 是使用如本章第四節 English stop word 的網站所列的 stop words，在三個部份的測詴資料中，問題和答案選項兩個部分有做 stop words 的去除。

(3) 標點符號去除

所有問題和答案選項的標點符號都有做去除的處理。例如：“http://wt.jrc.it/”

或者“[email protected]”標點去除後分別為“http wtj rc it”與“doug nutch org”。

(4) Stemming

Standard Porter stemming algorithm (Porter, 1980)⁸是本論文用以 stemming 的演算方法，其使用在所有測詴資料包含測詴文章、問題以及答案選項。

經過上述處理後，測詴問題與答案選項中剩餘的字我們接下來稱為 Query words 與 Answer words。

2. Document phrases、Question phrases、Answer phrases 的產生

我們使用 GDep parser ⁹處理 QA4MRE 的測詴資料分出的測詴文章、問題與答案選項以得到 Chunking 的結果，Chunking 過後仍需要一些前置處理才能擷取出真正有用途的詞彙(phrases)。

在測詴文章與問題中，我們只擷取詞性為名詞(noun phrase, NP)的詞彙，因為在生物文章中，重要的詞彙通常都包含於 NP 裡，避免擷取其他詞性的詞彙而得到的雜訊。但答案選項則是取所有詞性的詞彙，原因在於答案選項中通常都包含了關鍵重要的資訊而不能輕易地去除。

(1) Stop words 去除

在擷取測詴文章中的詞彙時，為了預防取出的詞彙為 stop words，這裡也使本章第四節註明的 English stop word 網站所列的 stop words 來去除詞彙與 stop

8http://tartarus.org/martin/PorterStemmer/

9http://people.ict.usc.edu/~sagae/parser/gdep/index.html

words 吻合的情形。

(2) 問句 NP 的去除

將測詴問題中包含疑問詞(例：what、which、who……)的問句 NP 去除。

(3) 大寫轉小寫

三個部份的測詴資料擷取出的 phrases 都將大寫字一併轉為小寫。

經由 Chunking 的結果與上述處理擷取出的詞彙分別為 Document phrases、

Question phrases、Answer phrases。

(二) Hypothesis words/phrases 產生

1. Hypothesis words 產生

將 Query words 分別與各答案選項的 Answer words 結合即成為 Hypothesis words。

2. Hypothesis phrases 產生

將 Question phrases 分別與各答案選項的 Answer phrases 結合即成為 Hypothesis phrases。以 QA4MRE 測詴資料集中的 Reading test 1, Question 1 為例：

Which technique was used to determine the cellular locations of the CLU1 and CLU2 gene products?

(a) intracellular and secreted (b) ER

(e) immunofluorescence experiments

Query words：techniqu, determin, cellular, locat, clu1, clu2, gene, product

Answer words：

(a) intracellular, secret (b) er

(e) immunofluoresc, experi Hypothesis words：

H_1:techniqu, determin, cellular, locat, clu1, clu2, gene, product, intracellular, secret

H_2:techniqu, determin, cellular, locat, clu1, clu2, gene, product, er

H_3:techniqu, determin, cellular, locat, clu1, clu2, gene, product, intracellular, local

H_4:techniqu, determin, cellular, locat, clu1, clu2, gene, product, golgi, apparatu H_5:techniqu, determin, cellular, locat, clu1, clu2, gene, product, immunofluoresc,

experi

Question phrases：the cellular location, the clu1 and clu2 gene product

Answer phrases：

(a) intracellular, secrete (b) er

(e) immunofluorescenceexperiment Hypothesis phrases：

H_1:the cellular location, the clu1 and clu2 gene product, intracellular, secrete

H_2:the cellular location, the clu1 and clu2 gene product, er

H_3:the cellular location, the clu1 and clu2 gene product, intracellularlocalization H_4:the cellular location, the clu1 and clu2 gene product, golgi, apparatu

H_5:the cellular location, the clu1 and clu2 gene product, immunofluorescenceexperiment

(三) Hypothesis words/phrases 權重給予

1. Hypothesis words 權重給予

為了決定每個 Hypothesis word 對句子的重要性，我們需要給予其權重值。在這裡使用了 TF 以及 TF-IDF 的方法來進行實驗，公式與研究方法一的公式(8)~(10) 相類似，只是 Query word 改為 Hypothesis word。

 TF Weighting，公式如下公式(13)： 數。因為經過前處理過的 Hypothesis words，我們希望每個字都具有一定的權重值，

所以實驗中我們假設每個 Hypothesis word 的字都擁有基礎的權重值為 1，另外再以測詴文章中出現的次數來區別每個 Hypothesis word 的重要性。如此一來，即使測詴文章沒有出現任何 Hypothesis word

H ，

TF 的值仍然為 1。

 IDF Weighting，公式如下公式(14)：

 

2. Hypothesis phrases 權重給予：

為了決定每個 Hypothesis phrase 對句子的重要性，我們也對 phrase 定義一種權重值的計算方式，稱為 Phrase Frequency(PF)，主要是根據 Hypothesis phrase 出現在測詴文章中的次數來決定權重值的大小。

PF Weighting，公式如下公式(16)：

i i

P P P

f

PF f



 max

⁽¹⁶⁾

上式中

TF

Pi是 Hypothesis phrase

P 的詞頻。

f

_P_i代表測詴文章中出現

P 的次數。

實驗中因為詞彙是用來輔助單以字為單位所造成語義上的不足，因此這裡不給予每個 Hypothesis phrase 基礎的權重值。

(四) 相關語句選擇與權重給予

1. Hypothesis words/phrases 相關語句擷取

得到 Hypothesis words/phrases 後，接著使用它來擷取測詴文章中相關的句子。

擷取的方法為，當 Hypothesis words/phrases 在句子中出現，則視該句子為相關並且擷取出來。

2. 相關語句權重給予

當 Hypothesis phrase 出現於之前所擷取出的相關語句中時，則該句子得到該 Hypothesis phrase 的權重值，詳細公式如下所示：





3. 排序並重新選取相關語句

雖然一個問題中的關鍵字可能出現在文章中的無數句話裡，但一般而言，一個問題的答案僅落於文章中的幾句話中而已，其他的句子與問題的相關性較不大，

考量到這個情況，本節的步驟(一)所擷取到的相關語句可能會有該句子雖然出現 Hypothesis words/phrases 但其實相關性不大的情況，如果將所有擷取到的相關語句都視為非常相關，反而會造成相關性上不精確的判斷。

因此，在實驗中我們先將本節步驟(二)給予的相關語句權重排序，然後視權重值來挑選前五高的句子當作最後真正相關的語句。另外，實驗中也有測詴挑選權重值前四高的句子來作為相關語句。

(五) Hypothesis 配分與答案選擇方法

根據句子權重的配分，我們就可以從這裡計算每個 Hypothesis 的分數。當一個 Hypothesis word/phrase 與相關語句中相符時，該 Hypothesis 就獲得該句子的權重值為其分數。而每個 Hypothesis 的得分即為該選項的 Hypothesis word/phrase 與相關語句中字相符的句子的權重總和。得分最高的 Hypothesis 所包含的答案選項即為最後的答案，如果同時有多個 Hypothesis 得到最高分，則該題選擇不回答。

上述介紹，本節的步驟(四)如何決定挑選出相關語句並且判斷句子的重要性是整個系統中最重要的環節，因為這將直接影響到每個 Hypothesis 所得到的配分，

進而影響答案選擇的正確性。

(六) 字詞擴充

本章節將討論的是本實驗針對測詴問題的字詞擴充(query expansion)。在問答系統中，良好的字詞擴充方法是最直接補充 Query 中語義的方式，能夠有效的提升準確率。這裡我們使用了兩種字詞擴充的方法來嘗詴其效果，一者為參考 Qiu 和 Frei (1993)於 1993 年提出的全球分析方法做字詞的擴充，因為這個方法的特點為只要運用相關的背景知識庫就能在初始時即給予問題字詞擴充，達到提升判斷正確率的效果；另一種字詞擴充的法則延續實驗方法一所使用的 OMIM 資料，但使用本章第二節-(三)-2.的 OMIM 專有詞及其關係來擴充。因此以下分兩部分講解擴充方法：(1)使用全球分析(global analysis)方法擴充，(2)使用 OMIM 專有詞擴充。

1. 使用全球分析(global analysis)方法擴充

如圖 3-5 所示，將 QA4MRE 的測詴資料分出的問題部分做前處理；另一方面，

為了將背景知識庫的字詞擴充到測詴問題中，也需要先做一些前處理以去除雜訊，

實驗中僅以背景知識庫 Open Access Full Articles PMC, Smaller Collection 作為背景知識來擷取字詞擴充。這裡做的前處理包含大寫轉小寫、stop words 去除、標點符號去除和 stemming，處理過後的資料分別為 Query words 與 Background words。

再來分為 4 個步驟完成詞語的擴充，分別是(1)建立 Background Words-Documents 矩陣、(2)計算 Query words-Query 向量、(3)Term 與 Query 之 Similarity 計算、(4) 排序並選擇要加入擴充的字詞

(1) 建立 Background Words-Documents 矩陣

首先建立一個如下圖 3-7 的矩陣：

圖 3-7：Background Words-Documents 矩陣

在上圖中，每一列代表一個 Background word

K 以 Background collections 的

_i 文章

D 為空間維度的向量

K

_i，N 代表

D 的總數，t 為

K 的總數，矩陣內𝑊

_i _𝑖,𝑗則

代表

K

_i中每一個維度的權重值，亦即 Background collections 中

K 與

D 的矩陣權

_j 重值，𝑊_𝑖,𝑗詳細公式在第二章第二節已介紹過，現重述如下：

𝑊_𝑖,𝑗 = ^(0.5+0.5

𝑓𝑖,𝑗

max𝑔 𝑓𝑖,𝑔)×𝐼𝑇𝐹_𝑗

√∑ [(0.5+0.5 ^{𝑓𝑖,𝑙}

max𝑔 𝑓𝑖,𝑔)×𝐼𝑇𝐹_𝑙]² 𝑁𝑙=1

(1)

𝑓_𝑖,𝑗代表𝐷_𝑗中出現𝐾_𝑖的次數，𝐼𝑇𝐹_𝑗代表𝐷_𝑗的逆向字頻率(Inverse Term Frequency, ITF)，ITF 的涵義為評量一篇文章的重要性，當一篇文章中包含越多不同的字，

表示該文章的主題可能越不明顯，因此而越不重要，ITF 式子如第二章第二節所介紹之公式(2)：

t terms

𝐾𝑢→

𝐾𝑣→

. . .

N Documents

𝐼𝑇𝐹_𝑗 = log(_𝑡^𝑡

𝑗) (2)

其中 t 代表文獻資料庫中總共不同的字總數，𝑡_𝑗代表在𝐷_𝑗中所出現的不同的字數。

(2) 計算 Query words-Query 向量

接著做全球分析，目的在將整個 Query 中的字對應到 Background Words-Documents 矩陣，求得一向量

→，參考公式(3)而修改得公式(20)所示： 𝑞

→ = {𝑞 ∑ 𝑊_𝑖,𝑞×

𝐾_𝑖

→ 𝑖𝑓 𝐾_𝑖 𝑖𝑛 𝐵𝑎𝑐𝑘𝑔𝑟𝑜𝑢𝑛𝑑 𝑤𝑜𝑟𝑑𝑠

𝐾_𝑖∊𝑞

∑ 𝑊_𝑖,𝑞×

𝑍𝑒𝑟𝑜𝑉𝑒𝑐𝑡𝑜𝑟

→ 𝑖𝑓 𝐾_𝑖 𝑛𝑜𝑡 𝑖𝑛 𝐵𝑎𝑐𝑘𝑔𝑟𝑜𝑢𝑛𝑑 𝑤𝑜𝑟𝑑𝑠

𝐾_𝑖∊𝑞 (20)

其中𝐾_𝑖代表 Query words，

K

_i則代表𝐾_𝑖對應在 Background Words-Documents 矩陣中的向量，然而實際上，背景知識庫並不包含所有的字，可能會出現一個 Query word 卻從未出現在背景知識庫中的情況，因此無法在 Background Words-Documents 矩陣中尋求向量，此時我們使用一個向量稱為𝑍𝑒𝑟𝑜𝑉𝑒𝑐𝑡𝑜𝑟⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ 進行額外的處理以便避免這樣的可能性，𝑍𝑒𝑟𝑜𝑉𝑒𝑐𝑡𝑜𝑟⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ 定義如下：

𝑍𝑒𝑟𝑜𝑉𝑒𝑐𝑡𝑜𝑟

⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ = ( ^{0.5×𝐼𝑇𝐹}¹

√∑^𝑁_𝑙=1(0.5×𝐼𝑇𝐹_𝑙)² , ^{0.5×𝐼𝑇𝐹}²

√∑^𝑁_𝑙=1(0.5×𝐼𝑇𝐹_𝑙)² , … … , ^{0.5×𝐼𝑇𝐹}^𝑁

√∑^𝑁_𝑙=1(0.5×𝐼𝑇𝐹_𝑙)²) (21)

(3) Term 與 Query 之 Similarity 計算

最後將整個 Query 與所有 Background words 做相似度的計算，目的是要知道

在文檔中以答案驗證方法為基礎之生醫相關問答系統 (頁 34-49)

第三章 研究方法

第六節 研究方法二介紹

H ，