本章將探討與整理本論文參考的相關文獻以及實驗依據。分為兩節討論,第 一節是實驗所利用到的文獻資料與工具,第二節則是討論與本論文相關的研究以 及他們的實驗方法與成果。
第一節 文獻探討
(一) 機器閱讀問答系統評估(QA4MRE)任務介紹
機器閱讀問答系統評估(Question Answering for Machine Reading Evaluation, QA4MRE)2是由跨語言評估會議(Cross-Language Evaluation Forum, CLEF)3所舉辦 的一項機器評估測詴。CLEF 每年定期在資訊檢索範疇舉辦學術研究會議,並且 特別提供各種語言的研究資料來源,進行跨語言的研究,主要經由實驗並制定評 估標準來評量各種議題並分享全世界參與學術會議者的成果。其中 QA4MRE 是 相當熱門的研究項目,其下細分成了許多不同領域討論,每個領域都提供不同語 言的測詴資料以供實驗,宗旨在於讀取一篇測詴文章以便回答測詴資料中的問題,
另外可以挑選合適的文獻資料庫做為背景知識的來源,而問題回答則是以單選題 的方式進行,每個問題包含五個選項,進而進行實驗成果的評估。
本研究著重於 QA4MRE 子任務-阿茲海默症的探討(QA4MRE pilot task - machine reading of biomedical texts about Alzheimer‟s Disease),目的在於理解測詴
2http://celct.fbk.eu/ResPubliQA/
問題的涵意並擷取文章中相關字句資訊作評分計算,從中得到正確的答案,並利 用此任務所制定的評估標準與方法評量準確率,達成一個高精準度的問答系統。
(二) 相關文獻介紹
以下有多篇參考文獻是參加上述 QA4MRE 任務者的實驗方法,可分為答案 驗證、以詞彙為基礎、指代詞、詞語擴充、多個策略方法的共同投票答案決策與 單一策略答案決策、及語彙鍊等六種方法,現分別簡介如下:
1. 答案驗證(answer validation)的方法
在 Bhaskar 等人(2012)及 Pakray 等人(2011)參加 QA4MRE 的任務中,作者以 答案驗證的方式進行實驗。答案驗證是將問題與該問題對應的選項預先結合產生 出假設(Hypothesis, H),例如有一個問題為:
Where is the U.S. nuclear waste repository located?
(a) at Oklo (b) in Morsleben (c) in New Mexico
(d) in a suitable geological formation (e) in Nevada
Pakray 將其處理成以下五個假設:
H_1:the U.S. nuclear waste repository located at Oklo H_2:the U.S. nuclear waste repository located in Morsleben H_3:the U.S. nuclear waste repository located in New Mexico
H_4:the U.S. nuclear waste repository located in a suitable geological formation H_5:the U.S. nuclear waste repository located in Nevada
接著使用問題與答案中的字擷取文章中相關的句子(Text, T),因此就可以產 生出許多對相關句子與假設的配對(T-H Pair),對於每個配對給予評分,最後加總 每個假設所得到的分數,最高分者即為該問題的答案。
而在 Bhattacharya 和 Toldo (2012)參與 QA4MRE 的論文中,也實際實驗這種 事先結合問題與答案來評分的方法,以及之後再對每個答案給予評分的方法,前 者所得到的準確度明顯比後者來的高。
2. 以詞彙為基礎(phrase-based)的方法
由於現今網路上以社群概念發展的問答集越來越多,Zhou 等人(2011)的論文 想以詞彙為基礎,將問答集中的文章轉換為查詢的問題。常常問答集中的文章與 查詢的問題雖然概念意義上相同,但卻鮮少出現一模一樣的字的情況,因此以詞 彙為基礎的好處在於更能擷取出正確的意義,例如:“stuffy nose”,代表感冒流鼻 水,然而兩個字分開看卻無法看出其義,當視為詞彙時,就可以輕易的了解“cold”
與“stuffy nose”是具有相近意義的詞彙。
此外,Bhaskar 等人(2012)及 Pakray 等人(2011)的論文中也有提到以詞彙為基 礎的方法,他們以 part of speech (POS)資訊為基準使用 Conditional Random Field (CRF) based chunker (Phan, 2006)為工具擷取出句子中的詞彙(phrase),來當作答案 驗證方法中評分 T-H Pair 的一種方式。
3. 指代語(anaphora)的決定方法
Bhaskar 等人(2012)及 Pakray 等人(2011)的論文中也使用到一些簡單的指代語
的決定規則,共分為兩類:(1)第一人稱代名詞{„I‟, „me‟, „my‟, „myself‟}:因為文 獻中的來源文資料庫皆為論文著作,因此 Pakray 認為第一人稱代名詞指的是該篇 文章的作者,但在直述句中,例:Frankie said, “I am ⋅⋅⋅⋅⋅⋅.”,第一人稱代名詞 指的是句子中的說話者(如上例中的 Frankie)。(2)第二人稱代名詞{„he‟, „his‟, „him‟,
„her‟, „she‟}:一般都用來指於上一個句子中上一次出現的名稱(Named Entity, NE),但在非直述句中,例如:Mary said that her ⋅⋅⋅⋅⋅⋅.,第二人稱代名詞則指 句子中的說話者(如上例中的 Mary)。
4. 詞語擴充(query expansion)的方法
接著介紹詞語擴充的方法,該方法由 Qiu 和 Frei (1993)於 1993 年提出,是全 球分析中相當具有代表性的方法,用以下的公式(1)來建立文獻資料庫中每個字與 文章的矩陣:
𝑊𝑢,𝑗 = (0.5+0.5
𝑓𝑢,𝑗
max𝑔 𝑓𝑢,𝑔)×𝐼𝑇𝐹𝑗
√∑ [(0.5+0.5 𝑓𝑢,𝑙
max𝑔 𝑓𝑢,𝑔)×𝐼𝑇𝐹𝑙]2 𝑁𝑙=1
(1)
其中𝑊𝑢,𝑗代表文獻資料庫中的字𝐾𝑢與文章𝐷𝑗的矩陣權重值,𝑓𝑢,𝑗代表𝐷𝑗中出現 𝐾𝑢的次數,𝐼𝑇𝐹𝑗代表𝐷𝑗的逆向字頻率(Inverse Term Frequency, ITF),ITF 的涵義為 評量一篇文章的重要性。當一篇文章中包含越多不同的字,表示該文章的主題可 能越不明顯,因此而越不重要,ITF 式子如以下公式(2):
𝐼𝑇𝐹𝑗 = log(𝑡𝑡
𝑗) (2)
其中 t 代表文獻資料庫中總共不同的字總數,𝑡𝑗代表在𝐷𝑗中所出現的不同的字 數。
接著做全球分析(global analysis),將整個 Query 中的字對應到𝐾𝑢與𝐷𝑗所構成 的矩陣空間中,如下公式(3)所示:
→ = ∑𝑞 𝐾𝑢∊𝑞𝑊𝑢,𝑞×
𝐾𝑢
→ (3)
其中𝐾𝑢與𝐷𝑗所構成的矩陣中每列視為一個向量值
𝐾𝑢
→ (代表文獻資料庫中的字 𝐾𝑢的向量值),
→為整個 Query 對應到向量空間中的向量。 𝑞
最後從整個 Query 與文獻資料庫中的字做相似度的計算,如下公式(4)所示:
𝑠𝑖𝑚(𝑞, 𝐾𝑣) = (
→) ⋅ (𝑞 𝐾𝑉
→ ) = (∑𝐾𝑢∊𝑞𝑊𝑢,𝑞×(
𝐾𝑢
→ )) ⋅ (
𝐾𝑉
→ ) = ∑𝐾𝑢∊𝑞𝑊𝑢,𝑞× 𝐶𝑢,𝑣 (4)
另外在 Attardi (2012)參加 QA4MRE 的任務中也使用了 WordNet (Millar,1995) 中的同義詞(synonym)以及上位詞(hypernym)兩種關係做為其詞語擴充的方法。
5. 多個策略方法的共同投票答案決策 V.S.單一策略答案決策
而在 Bhattacharya 和 Toldo (2012)參與 QA4MRE 的論文中也以多種不同的策 略決定其答案,最後便有一個問題因不同策略方法而產生多種答案的情況,因此 額外做一個共同投票的策略來比較其精準度會不會提高。方法是比較其他策略方 法回答一個問題的答案,當某個答案選項有比較多的策略選擇它時,則投票策略 就選擇這個答案為其答案。但實驗結果卻沒有比其他以單一策略決定其答案的方 法來的好。
Bhaskar 等人(2012)及 Pakray 等人(2011)在 CLEF 2011 與 CLEF 2012 兩年所參 與的 QA4MRE 中,也顯示了類似的結果,2012 年以投票的方式決定多個策略所 產生的答案,2013 年將多個策略做整合給予每個策略選出答案的權重分數,成為 一個單一的決策系統,與 2012 年的實驗結果相比有非常顯著的進步。
6. 使用語彙鍊(lexical chain)的方法
Cao (2011)在參加 QA4MRE 的任務中以 WordNet (Fellbaum, 1998)為基礎,發 展了語彙鍊的技術。他認為,機器閱讀應該如同人的閱讀以及作答選擇題的方式,
分為三個步驟:(1) 定位(locating):讀取問題並從文章段落中擷取與問題相關的 句子。(2) 回答(answering):仔細地讀這些句子,並決定哪一句最可能是該問題的 答案。(3) 選擇(choosing):讀取選擇題的答案選項,並選擇一個涵意與步驟(2)選 出的句子涵意相同的選項當作答案。而語彙鍊正是用來選出步驟(2)中最可能是該 問題答案的句子的方法,是整個步驟裡相當核心的技術,式子如下公式(5)所示:
𝑅𝑒𝑙𝑎𝑡𝑖𝑜𝑛(𝑆𝑖, 𝑆𝑗) = ∑ 𝑆𝑐𝑜𝑟𝑒(𝑟𝑖 𝑖) (5)
其中𝑆𝑖是來源於問題所對應到 WordNet 中的同義詞詞林(synset),𝑆𝑗是來源於 文章段落中所對應到 WordNet 中的 synset,𝑟𝑖是Si與𝑆𝑗所含的 WordNet 關聯性。
synset 與 synset 之間在 WordNet 的關係中都具有權重值的設定,如下表 2-1 所示:
表 2-1:WordNet 關係的權重值
Hypernym 是 WordNet 中的上義關係,當字 X 是字 Y 的其中一種時,則稱 Y 為 X 的 Hypernym,例:animal 為 dog 的 Hypernym。Hyponym 是 WordNet 中的下 義關係,當 Y 是 X 的其中一種時,則稱 Y 為 X 的 Hyponym,例:dog 為 animal 的 Hyponym。Synonym 是 WordNet 中的同義關係,當 X 與 Y 兩者意義相同時則具有 Synonym 關係,例:hi 的 Synonym 為 hello。Meronym 是 WordNet 中的部分關係,
當 X 為 Y 的一部份時,則稱 X 為 Y 的 Meronym,例:window 為 building 的 Meronym。
Holonym 為 WordNet 中的全體關係,當 Y 是 X 的一部份時,則稱 X 為 Y 的 Holonym,
例:building 為 window 的 Holonym。Attribute 是 WordNet 中的屬性關係,特定 具有屬性描述的名詞才存在這樣的關係,例:Weight 的 Attribute 為 light、
heavy⋅⋅⋅。Cause 是 WordNet 中的導致關係,是 WordNet 中針對動詞定義的關係,
當 X 是導致一個行為發生的字,而字 Y 為因 X 發生導致的結果時,則稱 X Cause
Y,例:show Cause see、give Cause have。Entailment 是 WordNet 中的繼承 關係,是 WordNet 中針對動詞定義的關係,當 X 的行為要發生則必定需要 Y 才能 觸發,則稱 X Entailment Y,例:snore Entailment sleep。Gloss 是 WordNet 中的註解關係,當字 X 在 WordNet 中的註解提及字 Y,則稱 X 的 Gloss 為 Y,例:
musician 的註解中出現 profession,因此 musician 的 Gloss 為 profession。R-Gloss 即為 Gloss 的相反,例:profession 的 R-Gloss 為 musician。
再來是 Score 的公式定義,如下公式(6)所示:
Score(r) = 𝐼 × ∏𝑙𝑒𝑛𝑔𝑡ℎ(𝑟)𝑖=1 (𝑊𝑅𝑖× 𝑀𝐺𝐶𝑖) (6)
其中 I 為固定值,代表初始分數值,𝑊𝑅𝑖即為表 2-1 所示關係的權重值,
𝑙𝑒𝑛𝑔𝑡(𝑟)代表考慮幾層 synset 之間的關係,𝑀𝐺C式子定義如下公式(7):
𝑀𝐺𝑐 = 𝐶𝑂𝑁𝑆𝑇+𝑁𝐶𝑂𝑁𝑆𝑇
𝑅−𝐺𝑙𝑜𝑠𝑠 (7)
其中 CONST 為一個常數,𝑁𝑅−𝐺𝑙𝑜𝑠𝑠代表一個字總共具有的 R-Gloss 關係數。