相關研究探討 - 以答案驗證方法為基礎之生醫相關問答系統

本章將探討與整理本論文參考的相關文獻以及實驗依據。分為兩節討論，第一節是實驗所利用到的文獻資料與工具，第二節則是討論與本論文相關的研究以及他們的實驗方法與成果。

第一節文獻探討

(一) 機器閱讀問答系統評估(QA4MRE)任務介紹

機器閱讀問答系統評估(Question Answering for Machine Reading Evaluation, QA4MRE)²是由跨語言評估會議(Cross-Language Evaluation Forum, CLEF)³所舉辦的一項機器評估測詴。CLEF 每年定期在資訊檢索範疇舉辦學術研究會議，並且特別提供各種語言的研究資料來源，進行跨語言的研究，主要經由實驗並制定評估標準來評量各種議題並分享全世界參與學術會議者的成果。其中 QA4MRE 是相當熱門的研究項目，其下細分成了許多不同領域討論，每個領域都提供不同語言的測詴資料以供實驗，宗旨在於讀取一篇測詴文章以便回答測詴資料中的問題，

另外可以挑選合適的文獻資料庫做為背景知識的來源，而問題回答則是以單選題的方式進行，每個問題包含五個選項，進而進行實驗成果的評估。

本研究著重於 QA4MRE 子任務-阿茲海默症的探討(QA4MRE pilot task - machine reading of biomedical texts about Alzheimer‟s Disease)，目的在於理解測詴

2http://celct.fbk.eu/ResPubliQA/

問題的涵意並擷取文章中相關字句資訊作評分計算，從中得到正確的答案，並利用此任務所制定的評估標準與方法評量準確率，達成一個高精準度的問答系統。

(二) 相關文獻介紹

以下有多篇參考文獻是參加上述 QA4MRE 任務者的實驗方法，可分為答案驗證、以詞彙為基礎、指代詞、詞語擴充、多個策略方法的共同投票答案決策與單一策略答案決策、及語彙鍊等六種方法，現分別簡介如下：

1. 答案驗證(answer validation)的方法

在 Bhaskar 等人(2012)及 Pakray 等人(2011)參加 QA4MRE 的任務中，作者以答案驗證的方式進行實驗。答案驗證是將問題與該問題對應的選項預先結合產生出假設(Hypothesis, H)，例如有一個問題為：

Where is the U.S. nuclear waste repository located?

(a) at Oklo (b) in Morsleben (c) in New Mexico

(d) in a suitable geological formation (e) in Nevada

Pakray 將其處理成以下五個假設：

H_1:the U.S. nuclear waste repository located at Oklo H_2:the U.S. nuclear waste repository located in Morsleben H_3:the U.S. nuclear waste repository located in New Mexico

H_4:the U.S. nuclear waste repository located in a suitable geological formation H_5:the U.S. nuclear waste repository located in Nevada

接著使用問題與答案中的字擷取文章中相關的句子(Text, T)，因此就可以產生出許多對相關句子與假設的配對(T-H Pair)，對於每個配對給予評分，最後加總每個假設所得到的分數，最高分者即為該問題的答案。

而在 Bhattacharya 和 Toldo (2012)參與 QA4MRE 的論文中，也實際實驗這種事先結合問題與答案來評分的方法，以及之後再對每個答案給予評分的方法，前者所得到的準確度明顯比後者來的高。

2. 以詞彙為基礎(phrase-based)的方法

由於現今網路上以社群概念發展的問答集越來越多，Zhou 等人(2011)的論文想以詞彙為基礎，將問答集中的文章轉換為查詢的問題。常常問答集中的文章與查詢的問題雖然概念意義上相同，但卻鮮少出現一模一樣的字的情況，因此以詞彙為基礎的好處在於更能擷取出正確的意義，例如：“stuffy nose”，代表感冒流鼻水，然而兩個字分開看卻無法看出其義，當視為詞彙時，就可以輕易的了解“cold”

與“stuffy nose”是具有相近意義的詞彙。

此外，Bhaskar 等人(2012)及 Pakray 等人(2011)的論文中也有提到以詞彙為基礎的方法，他們以 part of speech (POS)資訊為基準使用 Conditional Random Field (CRF) based chunker (Phan, 2006)為工具擷取出句子中的詞彙(phrase)，來當作答案驗證方法中評分 T-H Pair 的一種方式。

3. 指代語(anaphora)的決定方法

Bhaskar 等人(2012)及 Pakray 等人(2011)的論文中也使用到一些簡單的指代語

的決定規則，共分為兩類：(1)第一人稱代名詞{„I‟, „me‟, „my‟, „myself‟}：因為文獻中的來源文資料庫皆為論文著作，因此 Pakray 認為第一人稱代名詞指的是該篇文章的作者，但在直述句中，例：Frankie said, “I am ⋅⋅⋅⋅⋅⋅.”，第一人稱代名詞指的是句子中的說話者(如上例中的 Frankie)。(2)第二人稱代名詞{„he‟, „his‟, „him‟,

„her‟, „she‟}：一般都用來指於上一個句子中上一次出現的名稱(Named Entity, NE)，但在非直述句中，例如：Mary said that her ⋅⋅⋅⋅⋅⋅.，第二人稱代名詞則指句子中的說話者(如上例中的 Mary)。

4. 詞語擴充(query expansion)的方法

接著介紹詞語擴充的方法，該方法由 Qiu 和 Frei (1993)於 1993 年提出，是全球分析中相當具有代表性的方法，用以下的公式(1)來建立文獻資料庫中每個字與文章的矩陣：

𝑊_𝑢,𝑗 = ^(0.5+0.5

𝑓𝑢,𝑗

max𝑔 𝑓𝑢,𝑔)×𝐼𝑇𝐹_𝑗

√∑ [(0.5+0.5 ^{𝑓𝑢,𝑙}

max𝑔 𝑓𝑢,𝑔)×𝐼𝑇𝐹_𝑙]² 𝑁𝑙=1

(1)

其中𝑊_𝑢,𝑗代表文獻資料庫中的字𝐾_𝑢與文章𝐷_𝑗的矩陣權重值，𝑓_𝑢,𝑗代表𝐷_𝑗中出現 𝐾_𝑢的次數，𝐼𝑇𝐹_𝑗代表𝐷_𝑗的逆向字頻率(Inverse Term Frequency, ITF)，ITF 的涵義為評量一篇文章的重要性。當一篇文章中包含越多不同的字，表示該文章的主題可能越不明顯，因此而越不重要，ITF 式子如以下公式(2)：

𝐼𝑇𝐹_𝑗 = log(_𝑡^𝑡

𝑗) (2)

其中 t 代表文獻資料庫中總共不同的字總數，𝑡_𝑗代表在𝐷_𝑗中所出現的不同的字數。

接著做全球分析(global analysis)，將整個 Query 中的字對應到𝐾_𝑢與𝐷_𝑗所構成的矩陣空間中，如下公式(3)所示：

→ = ∑𝑞 _𝐾_𝑢_∊𝑞𝑊_𝑢,𝑞×

𝐾_𝑢

→ (3)

其中𝐾_𝑢與𝐷_𝑗所構成的矩陣中每列視為一個向量值

𝐾𝑢

→ (代表文獻資料庫中的字 𝐾_𝑢的向量值)，

→為整個 Query 對應到向量空間中的向量。 𝑞

最後從整個 Query 與文獻資料庫中的字做相似度的計算，如下公式(4)所示：

𝑠𝑖𝑚(𝑞, 𝐾_𝑣) = (

→) ⋅ (𝑞 𝐾_𝑉

→ ) = (∑_𝐾_𝑢∊𝑞𝑊_𝑢,𝑞×(

𝐾_𝑢

→ )) ⋅ (

𝐾_𝑉

→ ) = ∑_𝐾_𝑢_∊𝑞𝑊_𝑢,𝑞× 𝐶_𝑢,𝑣 (4)

另外在 Attardi (2012)參加 QA4MRE 的任務中也使用了 WordNet (Millar,1995) 中的同義詞(synonym)以及上位詞(hypernym)兩種關係做為其詞語擴充的方法。

5. 多個策略方法的共同投票答案決策 V.S.單一策略答案決策

而在 Bhattacharya 和 Toldo (2012)參與 QA4MRE 的論文中也以多種不同的策略決定其答案，最後便有一個問題因不同策略方法而產生多種答案的情況，因此額外做一個共同投票的策略來比較其精準度會不會提高。方法是比較其他策略方法回答一個問題的答案，當某個答案選項有比較多的策略選擇它時，則投票策略就選擇這個答案為其答案。但實驗結果卻沒有比其他以單一策略決定其答案的方法來的好。

Bhaskar 等人(2012)及 Pakray 等人(2011)在 CLEF 2011 與 CLEF 2012 兩年所參與的 QA4MRE 中，也顯示了類似的結果，2012 年以投票的方式決定多個策略所產生的答案，2013 年將多個策略做整合給予每個策略選出答案的權重分數，成為一個單一的決策系統，與 2012 年的實驗結果相比有非常顯著的進步。

6. 使用語彙鍊(lexical chain)的方法

Cao (2011)在參加 QA4MRE 的任務中以 WordNet (Fellbaum, 1998)為基礎，發展了語彙鍊的技術。他認為，機器閱讀應該如同人的閱讀以及作答選擇題的方式，

分為三個步驟：(1) 定位(locating)：讀取問題並從文章段落中擷取與問題相關的句子。(2) 回答(answering)：仔細地讀這些句子，並決定哪一句最可能是該問題的答案。(3) 選擇(choosing)：讀取選擇題的答案選項，並選擇一個涵意與步驟(2)選出的句子涵意相同的選項當作答案。而語彙鍊正是用來選出步驟(2)中最可能是該問題答案的句子的方法，是整個步驟裡相當核心的技術，式子如下公式(5)所示：

𝑅𝑒𝑙𝑎𝑡𝑖𝑜𝑛(𝑆_𝑖, 𝑆_𝑗) = ∑ 𝑆𝑐𝑜𝑟𝑒(𝑟_𝑖 _𝑖) (5)

其中𝑆_𝑖是來源於問題所對應到 WordNet 中的同義詞詞林(synset)，𝑆_𝑗是來源於文章段落中所對應到 WordNet 中的 synset，𝑟_𝑖是S_i與𝑆_𝑗所含的 WordNet 關聯性。

synset 與 synset 之間在 WordNet 的關係中都具有權重值的設定，如下表 2-1 所示：

表 2-1：WordNet 關係的權重值

Hypernym 是 WordNet 中的上義關係，當字 X 是字 Y 的其中一種時，則稱 Y 為 X 的 Hypernym，例：animal 為 dog 的 Hypernym。Hyponym 是 WordNet 中的下義關係，當 Y 是 X 的其中一種時，則稱 Y 為 X 的 Hyponym，例：dog 為 animal 的 Hyponym。Synonym 是 WordNet 中的同義關係，當 X 與 Y 兩者意義相同時則具有 Synonym 關係，例：hi 的 Synonym 為 hello。Meronym 是 WordNet 中的部分關係，

當 X 為 Y 的一部份時，則稱 X 為 Y 的 Meronym，例：window 為 building 的 Meronym。

Holonym 為 WordNet 中的全體關係，當 Y 是 X 的一部份時，則稱 X 為 Y 的 Holonym，

例：building 為 window 的 Holonym。Attribute 是 WordNet 中的屬性關係，特定具有屬性描述的名詞才存在這樣的關係，例：Weight 的 Attribute 為 light、

heavy⋅⋅⋅。Cause 是 WordNet 中的導致關係，是 WordNet 中針對動詞定義的關係，

當 X 是導致一個行為發生的字，而字 Y 為因 X 發生導致的結果時，則稱 X Cause

Y，例：show Cause see、give Cause have。Entailment 是 WordNet 中的繼承關係，是 WordNet 中針對動詞定義的關係，當 X 的行為要發生則必定需要 Y 才能觸發，則稱 X Entailment Y，例：snore Entailment sleep。Gloss 是 WordNet 中的註解關係，當字 X 在 WordNet 中的註解提及字 Y，則稱 X 的 Gloss 為 Y，例：

musician 的註解中出現 profession，因此 musician 的 Gloss 為 profession。R-Gloss 即為 Gloss 的相反，例：profession 的 R-Gloss 為 musician。

再來是 Score 的公式定義，如下公式(6)所示：

Score(r) = 𝐼 × ∏^{𝑙𝑒𝑛𝑔𝑡ℎ(𝑟)}_𝑖=1 (𝑊_𝑅_𝑖× 𝑀𝐺_𝐶_𝑖) (6)

其中 I 為固定值，代表初始分數值，𝑊_𝑅_𝑖即為表 2-1 所示關係的權重值，

𝑙𝑒𝑛𝑔𝑡𝑕(𝑟)代表考慮幾層 synset 之間的關係，𝑀𝐺_C式子定義如下公式(7)：

𝑀𝐺_𝑐 = _{𝐶𝑂𝑁𝑆𝑇+𝑁}^{𝐶𝑂𝑁𝑆𝑇}

𝑅−𝐺𝑙𝑜𝑠𝑠 (7)

其中 CONST 為一個常數，𝑁_{𝑅−𝐺𝑙𝑜𝑠𝑠}代表一個字總共具有的 R-Gloss 關係數。

在文檔中以答案驗證方法為基礎之生醫相關問答系統 (頁 13-21)