研究方法二介紹

第三章研究方法

第四節研究方法二介紹

第二節實驗資料

本研究使用 QA4MRE pilot task - machine reading of biomedical texts about Alzheimer’s Disease at CLEF2012 所提供的實驗資料為依據，其中包含背景知識庫以及測試資料，以及使用蔡秉翰(2013)所提出的問答系統之相關資料做為本研究之實驗資料。

(一) 背景知識庫

包含三類背景知識庫來源，以下是這三類知識庫文獻的介紹：

1. Open Access Full Articles PMC：總共 7512 篇由 Pubmed Central Open Access 所提供的生物文章全文，這些文章原本為 PDF 格式，在這裡使用了 LA-PDFText (Ramakrishnan, 2012)這個工具轉換為文字檔格式儲存⁷。

2. Open Access Full Articles PMC, Smaller Collection：總共 1041 篇由 Pubmed Central 所提供的文章全文，此處特別以阿茲海默症為關鍵字搜尋相關文章，

將 HTML 格式存為文字檔。

3. Elsevier Full Articles：總共 379 篇全文文章，以及 103 篇文章摘要，這些文章是由美國麻薩諸塞州的阿茲海默症研究中心(Massachusetts Alzheimer’s Disease Research Center)的教授提姆克拉克(Tim Clark)所整理提供，格式為文字檔。

(二) 測試資料

QA4MRE pilot task machine reading of biomedical texts about Alzheimer’s Disease at CLEF2012 所提供的測試資料共有四個關於阿茲海默症的測試資料集，

每個測試集包含一篇文章、10 個測試問題，測試集中的文章與對應測試集的問題主題關聯性較大。問題答案皆為單選題，其中每個問題有五個選項供選擇，因此一個測試集共有 50 個選項。整個測試集則總共有 40 個問題，以及 200 個答案選項。

(三) 蔡秉翰所提出的問答系統之相關資料

7http://code.google.com/p/lapdftext/

蔡秉翰在 2013 年提出兩個研究方法之問答系統，分別為研究方法一之問答系統及研究方法二之問答系統，本研究利用這兩個系統做為研究方法一之基礎，

以及利用擴充詞語做為實驗方法二中之相關資料。

第三節研究方法一介紹

本研究方法利用蔡秉翰(2013)所提出的生醫相關問答系統為基礎，該問答系統中共有兩個研究方法，在此我們將這兩種研究方法分別稱為蔡秉翰研究方法 A 主系統及蔡秉翰研究方法 B 主系統，並與 LexRank 自動摘要系統結合為本研究方法之主要概念。研究方法一之主系統架構圖如圖 3-1 所示：

圖 3-1 研究方法一之主系統架構圖

蔡秉翰研究方法 A 主系統結合 LexRank 自動摘要系統後之架構圖如圖 3-2 所示，蔡秉翰研究方法 B 主系統結合 LexRank 自動摘要系統後之架構圖如圖 3-3 所示。圖 3-2 與圖 3-3 中橘黃色圖形為蔡秉翰(2013)研究方法本身架構中的圖形，紅色圖形為結合 LexRank 自動摘要系統後所新增至其架構中之圖形。

圖 3-2 蔡秉翰研究方法 A 主系統結合 LexRank 自動摘要系統後之架構圖

圖 3-3 蔡秉翰研究方法 B 主系統結合 LexRank 自動摘要系統後之架構圖

如圖 3-1 所示，利用蔡秉翰(2013)提出的兩個研究方法為基礎，結合 LexRank 自動摘要系統為本研究方法之主要架構。研究策略共有三種，如下所述：

策略1. 利用 LexRank 自動摘要系統將測試資料中的測試文章做摘要，再將此摘

要過後的測試文章做為蔡秉翰研究方法中輸入的測試文章。

策略2. 利用 LexRank 自動摘要系統將背景知識庫中的 9034 篇文獻個別做摘要，

再將此個別摘要過後的 9034 篇文獻做為蔡秉翰研究方法中輸入的背景知識庫。

策略3. 利用 LexRank 自動摘要系統將測試資料中的測試文章以及背景知識庫

中的 9034 篇文獻皆個別做摘要，再將此摘要過後的文章做為蔡秉翰研究方法的輸入測試文章及背景知識庫。

第四節研究方法二介紹

研究方法二之主系統架構圖如圖 3-4 所示：

圖 3-4 研究方法二之主系統架構圖

如圖 3-4 所示，因為 QA4MRE 的測試資料為 XML 的格式，因此我們先將一些不需要的格式去除轉成文字檔，並且從中區分出測試文章(Documents)、問題 (Questions)及答案選項(Answers)。本研究方法的概念是認為問題與正確答案之間的資訊距離應小於問題與其他候選答案之間的資訊距離，因此本研究利用 Li 等人 (2008)提出的資訊距離方法為基礎，針對 QA4MRE 的資料特性將方法改良，並加入了 TF-IDF 之權重計算方法及擴充詞語。

研究方法大致分為 5 個步驟，將在以下各小節中一一詳細討論，分別為：(一) 前處理、(二) Question Focus 及 Candidate 的擷取、(三) Question Focus 及 Candidate 出現次數的計算、(四)資訊距離的權重計算、(五)答案選擇方法。

(一) 前處理

將 QA4MRE 的測試資料分成 Documents、Questions 及 Answers 三個部分後，

若要實際使用它們則必須做一些前置處理，以去除檢索時的一些雜訊，避免影響實驗結果。

1. 大寫轉小寫

Documents、Questions 及 Answers 三個部分的測試資料都將大寫字一併轉為小寫。

2. Stopword 去除

本論文的 Stopword List 是使用一個 English Stopword 的網站⁸所列的 Stop words，在 Questions 和 Answers 這兩個部分進行 Stopwords 的去除。例如：do、

8http://www.lextek.com/manuals/onix/stopwords1.html

by、can、the…等等即為 Stopwords。

3. 標點符號去除

針對 Questions 及 Answers 這兩個部份的標點符號都做去除的處理。例如：

“http://wt.jrc.it/”或者“[email protected]”標點去除後分別為“http wt jrc it”與“doug nutch org”。

4. Part-of-speech tagging

使用 GDep parser⁹處理 QA4MRE 測試資料分出的 Questions 部分以得到問題中每個字的詞性標記結果。

5. Stemming

Standard Porter stemming algorithm (Porter, 1980)¹⁰是本論文用來進行 stemming 的演算方法，其使用在所有測試資料，包含 Documents、Questions 以及 Answers 三個部分。

Documents、Questions 及 Answers 三個部分的測試資料經過上述前處理後，

分別稱做 Stemmed Documents、Question words 與 Answer words 。Stemmed Documents 表示測試文章經過 Stem 處理後之結果，Question words 與 Answer words 表示 Questions 與 Answers 經過前處理後剩餘的字。

(二) Question Focus 及 Candidate 的擷取

得到 Question words 與 Answer words 後，希望從中挑選出對於該問題真正重

9http://people.ict.usc.edu/~sagae/parser/gdep/index.html

10http://tartarus.org/martin/PorterStemmer/

要的字，策略如下：

策略1. 為了決定每個 Question words 及 Answer words 在對應之測試文章中的重要程度，我們需要給予權重值，本策略使用 Term Frequency 的方法進行計算。Term Frequency 的計算方法為統計每個 Question word 及 Answer word 在測試文章中出現的次數，並依照權重值挑選出所需的字，從 Question words 中挑選出來的字在本研究方法稱為 Question Focus，從 Answer words 中挑選出來的字稱為 Candidate。

策略2. 從賦有詞性標記的 Question words 中，挑選出詞性為 NN、NNS、NNP、

NNPS 者，其中 NN 表示名詞(單數或不可數)，NNS 表示名詞複數，NNP

(三) Question Focus 及 Candidate 出現次數的計算

為了下個步驟的需要，必須在測試文章中計算以下三個部分之出現次數，分別為(一)共有多少句子包含 Question Focus，(二)共有多少句子包含 Candidate，(三) 共有多少句子同時包含 Question Focus 及 Candidate。

(四) 資訊距離的權重計算

Li 等人於 2008 年提出資訊距離方法，如果完全依其方法套用，我們發覺不適合使用於 QA4MRE 之測試資料，說明如下：若依照文獻探討中探討該方法所述，利用 Condition Pattern 在測試文章中檢索，明顯不容易找出對應之結果，舉例如下：

 Question：Which of the two CLU isoforms is the main one expressed in the choroid plexus?

 Answers：

(a) fetal tissue (b) CLU1 (c) clusterin (d) CLU2

(e) cerebrospinal fluid

 Question Focus：the main one expressed in the choroid plexus

 Candidate：

(a) fetal tissue (b) CLU1

(e) cerebrospinal fluid

 Condition Pattern：<c> is <f>

以選項(d) CLU2 為例，則𝑓(𝑐(𝑥, ∅))、𝑓(𝑐(∅, 𝑦))、𝑓(𝑐(𝑥, 𝑦))及𝑓(𝑐(∅, ∅))之表示分別如下：

 𝑓(𝑐(𝑥, ∅))表示在測試文章中共有多少句子包含“CLU2 is”，其結果為 3 句。

 𝑓(𝑐(∅, 𝑦))表示在測試文章中共有多少句子包含“is the main one expressed in the choroid plexus”，其結果為 0 句。



𝑓(𝑐(𝑥, 𝑦)) 表示在測試文章中共有多少句子包含 “CLU2 is the main one expressed in the choroid plexus”，其結果為 0 句。

 𝑓(𝑐(∅, ∅))表示在測試文章中共有多少句子曾被檢索，其結果為 3 句。

將上述𝑓(𝑐(𝑥, ∅))、𝑓(𝑐(∅, 𝑦))、𝑓(𝑐(𝑥, 𝑦))及𝑓(𝑐(∅, ∅))之統計結果帶入公式中可明顯看出此方法不適合使用於 QA4MRE 之測試資料中。因此，本研究利用 Li 等人(2008)提出的資訊距離方法為基礎，並針對 QA4MRE 的資料特性將方法改良，改良的主要概念為移除 Condition Pattern 之項目，其公式(5)如下：

𝑑

_𝑚𝑖𝑛

(𝑥, 𝑦) =

log 𝑓(𝑥,𝑦)−min{log 𝑓(𝑥,∅),log 𝑓(∅,𝑦)}

max{log 𝑓(𝑥,∅),log 𝑓(∅,𝑦)}−log 𝑓(∅,∅) (5)

其中 x 表示候選答案(Candidate)，y 表示問題重點(Question Focus)。若 log 𝑓(𝑥, ∅)或log 𝑓(∅, 𝑦)為 0，表示 Question Focus 或 Candidate 在文章中未曾出現，

表示兩者間的資訊距離很遠，因此將不計算這種情況的資訊距離。

以上述相同問題為例：

 Question：Which of the two CLU isoforms is the main one expressed in the choroid plexus?

 Answers：

(a) fetal tissue (b) CLU1 (c) clusterin (d) CLU2

(e) cerebrospinal fluid

Question 及 Answers 經過前處理後所產出之 Question words 及 Answer words 如下所示：

 Question words：clu、isoform、main、express、choroid、plexu

 Answer words：

(a) fetal、tissue

(b) clu1 (c) clusterin (d) clu2

(e) cerebrospin、fluid

利用小節(二)所述之策略 1 的擷取方法在 Question words 及 Answer words 中挑選出 Term Frequency 最高者做為 Question Focus 及 Candidate，如下所示：

 Question Focus：clu

 Candidate：

(a) tissue (b) clu1 (c) clusterin (d) clu2

(e) cerebrospin

以選項(d) clu2 為例，則改良過後的𝑓(𝑥, ∅)、𝑓(∅, 𝑦)、𝑓(𝑥, 𝑦)及𝑓(∅, ∅)之表示分別如下：

 𝑓(𝑥, ∅)表示在測試文章中共有多少句子包含

“clu2”

，其結果為 77 句。

 𝑓(∅, 𝑦)表示在測試文章中共有多少句子包含

“

clu

”

，其結果為 55 句。



𝑓(𝑥, 𝑦)表示在測試文章中共有多少句子同時包含

“

clu2

”

及

“clu”

，其結果為 16 句。

 𝑓(∅, ∅)表示在測試文章中共有多少句子曾被檢索，其結果為 116 句。

有了以上結果後，將其代入改良後的公式(5)中，如下所示：

𝑑_𝑚𝑖𝑛(𝑥, 𝑦) = log 𝑓 (𝑥, 𝑦) − min{log 𝑓(𝑥, ∅), log 𝑓(∅, 𝑦)}

max{log 𝑓(𝑥, ∅), log 𝑓(∅, 𝑦)} − log 𝑓(∅, ∅)= log16 − log55 log77 − log116

= 3.01315

因此(d)選項之資訊距離的權重計算結果即為 3.01315，(a)、(b)、(c)及(e)選項分別使用上述方法的權重計算結果為(a)10.7256、(b)3.21853、(c)3.14024、

(e)19.4061。

(五) 答案選擇方法

因為 Question Focus 及 Candidate 擷取策略的不同，會影響 Question Focus 及每個選項中 Candidate 的數量。如小節(四)中之範例，若利用小節(二)所述之策略 1 的擷取方法在 Question words 及 Answer words 中挑選出 Term Frequency 最高者做為 Question Focus 及 Candidate，則 Question Focus 為

“clu”，

各選項中之 Candidate 分別為(a) tissue、(b) clu1、(c) clusterin、(d) clu2 及(e) cerebrospin，Question Focus 及每個選項中 Candidate 的數量皆為 1 個，但若利用小節(二)所述之策略 2 的擷取方法，將所有前處理後且 Term Frequency 大於 0 的 Question words 及 Answer words 皆挑選為 Question Focus 及 Candidate，則 Question Focus 分別為 clu、isoform、

main、express、choroid 及 plexu，各選項中之 Candidate 分別為(a) fetal、tissue、

(b) clu1、(c) clusterin、(d) clu2 及(e) cerebrospin、fluid，Question Focus 及每個選項中 Candidate 的數量可能大於 1 個，因此在(a)及(e)選項中會計算出 12 個資訊距離之權重，(b)、(c)及(d)選項皆為 6 個，原因如下：

以(d)選項為例，6 個 Question Focus 與 1 個 Candidate 之配對共有6 × 1種，

分別為：

(clu, clu2) (isoform, clu2) (main, clu2) (express, clu2) (choroid, clu2) (plexu, clu2)

6 種配對皆各別計算出對應之資訊距離權重值，分別為：

(clu, clu2)為 3.01315 (isoform, clu2)為 4.30339 (main, clu2)為 0

(express, clu2)為 2.56898 (choroid, clu2)為 17.2934 (plexu, clu2)為 17.2934

決定選項之權重值可由兩個策略來決定，如下所示：

策略1. 選擇資訊距離之權重值最小者做為該選項之權重值。

策略2. 計算資訊距離權重值之算術平均數。

若選擇策略 1，則該選項之權重值為 0，若選擇策略 2，則該選項之權重值為 7.41205。

最後，算出各選項之權重值，選擇最小者為該問題之答案。

29 閱讀問答系統評估(QA4MRE)中所使用的評量標準 c@1 measure 來評估實驗結果，

其公式如下公式(6)：

在文檔中應用摘要系統與資訊距離方法於生醫問答系統之研究 (頁 22-39)

第三章 研究方法

第四節 研究方法二介紹



𝑑

(𝑥, 𝑦) =

“clu2”

“

”



“

”

“clu”

“clu”，

第三章研究方法

第四節研究方法二介紹