以答案驗證方法為基礎之生醫相關問答系統

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文指導教授：侯文娟博士以答案驗證方法為基礎之生醫相關問答系統 Biomedical Related Question Answering System Based on Answer Validation Approach. 研究生：中華民國. 蔡秉翰. 一○二. 年. 撰六月.

(2) 摘要. 本論文的研究，是以阿茲海默症為主題，實現一個問答系統來回答問題。目的在於能夠讀取一篇測詴文章，回答相關文章的問題，正確理解測詴問題的涵意，並擷取文章中相關字句資訊作評分計算，從中得到正確的答案，達成一個高精準度的問答系統。本論文的測詴資料共包含了四個主題為阿茲海默症的測詴資料集，每個測詴集包含一篇測詴文章、10 個關於該文章的測詴問題，每個問題都有五個選項供選擇，問題答案皆為單選題。另外使用到背景知識庫，資料來源包含從 Pubmed Central 得到關於阿茲海默症的醫學文獻資料庫(Medical Literature Analysis and Retrieval System Online, Medline)的文章，以及美國麻薩諸塞州的阿茲海默症研究中心(Massachusetts Alzheimer‟s Disease Research Center)所提供關於阿茲海默症的生物文章及摘要。我們也從線上人類孟德爾遺傳學 (Online Mendelian Inheritance in Man, OMIM)的網站針對阿茲海默症作為關鍵字，擷取此疾病的相對應基因名稱，再利用連結內文來建立基因關係。此研究首先以人類回答選擇題時最常使用的方式為模式：當接收到一個問題，會先閱讀並搜尋文章中與問題相關的句子尋求解答，接著再觀察答案選項與這些句子何者最相似、相關，最後回答覺得最可信的答案。再來我們嘗詴答案驗證的方法，將問題與該問題對應可能的答案選項預先結合產生出假設 (Hypothesis)，再利用這些假設到文章裡閱讀並搜尋相關的句子尋求解答，相關的句子根據假設中相符的字來找尋並且用 TFIDF 的方法給予評分。而根據假設. I.

(3) 得到分數越高的句子就代表與該篇測詴文章的主題內容越相符。最後再根據這些句子的分數給予每個假設評分，最高分的假設代表該假設所包含的答案選項為最後回答中覺得最可信的答案。在研究中分為以字為單位以及以詞彙為單位來進行實驗。此外，研究中另外使用背景知識庫以及 OMIM 網站取得的資源來達成詞語擴充的方法。最後，我們將所有方法的組合進行 23 種實驗，前幾個實驗方法因為忽略答案選項中重要的資訊而使準確率大約只有一到兩成。再來我們改以答案驗證方法實驗，準確率就得到了高度的提升。之後加上詞彙的輔助、重要語句挑選以及字詞擴充，並分析評估這些方法如何使用及其影響，慢慢就達成準確率的上升，最後甚至能夠提升到五成左右，與使用相同測詴資料的眾多研究相比較，此結果為不錯的成果。. 關鍵字：答案驗證、機器閱讀問答系統評估、跨語言評估會議、字詞擴充、線上人類孟德爾遺傳學、阿茲海默. II.

(4) ABSTRACT. In our study, we use Alzheimer‟s disease as a subject to implement a question answering system. The purpose of the thesis is to read a document and identify the answers to a set of document-related questions. We try to realize the meaning of the questions and extract related sentences from document. How to get the correct answer and achieve a high-precision question answering system is our goal. The test set is composed of 4 reading tests. Each reading test consists of one document, with 10 questions and a set of five choices per question. There always is one and only one correct option. We also use background collections from the articles of Medical Literature Analysis and Retrieval System Online, called Medline, and Massachusetts Alzheimer‟s Disease Research Center. Besides, we reference to the website named “Online Mendelian Inheritance in Man, OMIM” and use “Alzheimer” as a key word to extract the gene names, then we use the content to build gene-gene relations. First, our system is similar to the scenario of human‟s answering a multiple choice question. When we receive a question, we will read and retrieve sentences from document which may be related to the question. After that, we read all the choices to choose the one most similar to the related sentences. Second, we use the method of “Answer Validation” to combine the question part and answer part as hypothesis, and find answers in the document according to the hypothesis. Relevant sentences are retrieved from the associated document based on TFIDF of the matching words. The higher score the hypothesis gets, the more consistent of the subject matches in test document. Finally, we compute every hypothesis‟ score based on the weight of related sentences. The hypothesis which gets the highest score is the III.

(5) most confident answer at last. This study divides in words as well as phrases as a unit to carry out experiments. In addition, we use background collections and OMIM terms as other resources to implement query expanded methods. We consist of all the 23 kinds of methods as results in our experiment. The accuracy of the first few experiments is only about ten to twenty percent because of our ignoring important information in the answer options. Then we use the method of Answer Validation and get higher accuracy. After that we add the assistance of phrases, top related sentence choosing and query expansion. Also, we try to evaluate these experiments and their impact. Gradually, the accuracy rises again, and approaching about fifty percent. It shows a pretty good result comparing to the other researches which use the same test set as our study.. Key words: Answer validation、QA4MRE、CLEF、Query expansion、OMIM、 Alzheimer. IV.

(6) 僅獻給‧‧‧‧ 勇於不間斷求知的你，我，他⋅⋅⋅⋅⋅⋅. V.

(7) 誌謝. 首先我要感謝在碩士的兩年中細心指導的侯文娟老師，因為老師在各個階段所給的練習才能讓原本對這個領域毫無所知的我漸漸有所了解，並且從老師的引導與建議之中，解決研究上遇到的挫折，完成這個研究。這兩年中上課教課的老師也是我想感謝的對象，在課堂上提供了各種觀點方法來激發我們，並且讓我學習到許多技術，無論是解決問題的能力或是程式的能力都能有所提升。再來要感謝口詴委員們對於研究的肯定，讓我確信自己付出努力的價值，更相信自己將來要走的路。當然免不了要感謝這兩年來陪我一起度過的朋友們，讓我碩士研究的生涯擁有不一樣的精彩，沒有你們，這份研究恐怕也頓然失色。最後一定要感謝的是我的家人，總是支持我的決定，做我永遠的後盾。有你們的存在，才有今天的我，謝謝你們。. VI.

(8) 目錄. 附表目錄 VIII 附圖目錄 IX 第一章簡介 ....................................................................................................... 1 研究動機........................................................................................................ 1 研究目的........................................................................................................ 2 論文組織........................................................................................................ 2 第二章相關研究探討 ....................................................................................... 3 文獻探討........................................................................................................ 3 第三章研究方法 ............................................................................................. 11 第一節緒論.............................................................................................. 11 第二節實驗資料...................................................................................... 11 第三節研究方法一架構.......................................................................... 15 第四節研究方法一介紹.......................................................................... 16 第五節研究方法二架構.......................................................................... 22 第六節研究方法二介紹.......................................................................... 24 第四章實驗與結果 ......................................................................................... 39 第一節評估測量標準.............................................................................. 39 第二節實驗結果...................................................................................... 40 第三節結果分析與探討.......................................................................... 50 第四節公式(9)與公式(14)補充說明 ...................................................... 61 第五章. 結論與未來發展 ................................................................................. 65. 參考著作.............................................................................................................. 67 附錄...................................................................................................................... 71. VII.

(9) 附表目錄表 2-1 WordNet 關係的權重值 ..................................................................................... 9 表 4-1 實驗結果總覽 .................................................................................................. 40 表 4-2 Highest scores per team ............................................................................ 43 表 4-3 參加團隊各實驗結果統計表 .......................................................................... 44 表 4-4 各測詴集實驗結果總覽 .................................................................................. 45 表 4-5 各測詴集 c@1 measure 的帄均值 .................................................................. 47 表 4-6 各測詴集對於題目分類作答情況與帄均準確率 .......................................... 48 表 4-7 TF、TFIDF、PF 的比較表 ............................................................................. 50 表 4-8 答案驗證方法的影響 ...................................................................................... 51 表 4-9 重要相關語句的挑選 ...................................................................................... 52 表 4-10 使用 OMIM 資料擴充系統的比較 ............................................................... 53 表 4-11 Global Analysis 擴充系統的影響 .................................................................. 54 表 4-12 擴充字增加對各測詴集的影響 .................................................................... 56 表 4-13 兩種擴充系統的結合探討 ............................................................................ 57 表 4-14 實驗 16.各測詴集答題情況與總體正確率 .................................................. 59 表 4-15 實驗 17.各測詴集答題情況與總體正確率 .................................................. 59 表 4-16 在實驗 2.中調整 IDF 權重給予對各測詴集的影響 .................................... 62 表 4-17 測詴集 1 第 1 題各答案選項配分情況 ........................................................ 63 表 4-18 在實驗 15.中調整 IDF 權重的影響 .............................................................. 63. VIII.

(10) 附圖目錄圖 3-1 相關於阿茲海默症的 OMIM 連結之一示意圖 ............................................. 13 圖 3-2 實驗方法一：主系統架構圖 .......................................................................... 15 圖 3-3 實驗方法一：字詞擴充系統架構圖 .............................................................. 16 圖 3-4 實驗方法二：主系統架構圖 .......................................................................... 22 圖 3-5 實驗方法二：字詞擴充(使用 Global Analysis)系統架構圖 ......................... 23 圖 3-6 實驗方法二：字詞擴充(使用 OMIM)系統架構圖 ....................................... 24 圖 3-7：Background Words-Documents 矩陣 ............................................................ 35 圖 4-1 實驗結果直條圖 .............................................................................................. 42 圖 4-2 挑選前 N 句作為重要相關語句之正確率評估圖 ......................................... 52 圖 4-3 提高擴充字詞數對正確率影響評估圖 .......................................................... 55 圖 4-4 在實驗 15.中調整 IDF 權重的影響圖 ............................................................ 64. IX.

(11) 第一章簡介. 第一節研究動機. 問答系統(Question Answering, QA)是科技與人類語言最直接的接觸，讓人能夠以簡單方便的方式得到想要的資訊並有效的應用科技，也是自然語言處理應用上非常有貢獻且熱門的區塊。傳統的資訊檢索系統以關鍵字配合邏輯等語法做搜尋，回傳結果為相關於關鍵字的網頁資訊，而問答系統則是直接以口語化方式提問，例如「哪裡可以買到牛奶？」，而系統理解問句後則是直接給予明確回答，如「xxx 超市、ooo 便利商店……」，使用者不頇一一檢視搜尋引擎回傳的網頁，更加具有人性化。目前也有些搜尋引擎結合了問答系統讓搜尋結果更明確，例如 Ask Jeeves1就能夠以口語方式提問，得到直接答案與相關搜尋並列的結果。蘋果公司也對於其智慧型手機發展了相當知名的高度智慧型語音問答系統(Siri)，無論是對於視覺障礙者抑或一般使用者都有極大的方便及功能性。2011 年，IBM 的華森(Watson)系統更挑戰了綜藝問答節目「危險邊緣」(Jeopardy) (Wren, 2011)，這是有史以來綜藝問答節目中機器與人類的對決，而華森也在最後一集中打敗了其他衛冕者，呈現其優秀的知識處理能力。由此可見，問答系統是蓬勃發展且被高度關注的技術。隨著全球人口老化的趨勢，以及人類對於健康的重視，阿茲海默症成為近年來重要的研究議題，許多國家的政府也有持續的心力、資金投入研究，不同的領. 1. http://www.ask.com 1.

(12) 域也從不同的面相探討這個議題，而資訊領域則是憑藉其大量運算、儲存空間的能力，做整合、分析，如疾病與基因的關聯度、生物文章摘要等。本研究便針對阿茲海默症領域進行問答系統技術的研究探討，希望能藉由機器的能力，憑藉現有的相關文獻與背景知識庫選出此類問題的確定答案。. 第二節研究目的. 在本研究中，每個關於阿茲海默症的測詴資料集中都包含一篇測詴文章，及 10 個關於該文章的測詴問題，而每個問題共含 5 個選項。實驗行為為讀取一篇測詴文章以便回答測詴資料中的問題，另外可以挑選合適的文獻資料庫做為背景知識的來源，而問題回答則是以單選題的方式進行，每個問題都只有一個正確答案。如何讀取一篇測詴文章來回答相關文章的問題、正確理解測詴問題的涵意，並擷取文章中相關字句資訊作評分計算，從中得到正確的答案，完成一個高精準度的問答系統，是本實驗的目的。. 第三節論文組織. 本論文的組織架構如下：第一章為簡介，說明研究動機與目的；第二章為相關研究的探討，介紹該領域相關的研究背景；第三章則是提出本次研究的架構，並詳細說明本論文所提出的研究方法；第四章為實驗過程與實驗結果；第五章將會說明本論文的結論以及未來的發展方向。. 2.

(13) 第二章相關研究探討. 本章將探討與整理本論文參考的相關文獻以及實驗依據。分為兩節討論，第一節是實驗所利用到的文獻資料與工具，第二節則是討論與本論文相關的研究以及他們的實驗方法與成果。. 第一節. 文獻探討. (一) 機器閱讀問答系統評估(QA4MRE)任務介紹機器閱讀問答系統評估(Question Answering for Machine Reading Evaluation, QA4MRE)2是由跨語言評估會議(Cross-Language Evaluation Forum, CLEF)3所舉辦的一項機器評估測詴。CLEF 每年定期在資訊檢索範疇舉辦學術研究會議，並且特別提供各種語言的研究資料來源，進行跨語言的研究，主要經由實驗並制定評估標準來評量各種議題並分享全世界參與學術會議者的成果。其中 QA4MRE 是相當熱門的研究項目，其下細分成了許多不同領域討論，每個領域都提供不同語言的測詴資料以供實驗，宗旨在於讀取一篇測詴文章以便回答測詴資料中的問題，另外可以挑選合適的文獻資料庫做為背景知識的來源，而問題回答則是以單選題的方式進行，每個問題包含五個選項，進而進行實驗成果的評估。本研究著重於 QA4MRE 子任務-阿茲海默症的探討(QA4MRE pilot task machine reading of biomedical texts about Alzheimer‟s Disease)，目的在於理解測詴 2. http://celct.fbk.eu/ResPubliQA/ http://clef2012.org/. 3. 3.

(14) 問題的涵意並擷取文章中相關字句資訊作評分計算，從中得到正確的答案，並利用此任務所制定的評估標準與方法評量準確率，達成一個高精準度的問答系統。. (二) 相關文獻介紹以下有多篇參考文獻是參加上述 QA4MRE 任務者的實驗方法，可分為答案驗證、以詞彙為基礎、指代詞、詞語擴充、多個策略方法的共同投票答案決策與單一策略答案決策、及語彙鍊等六種方法，現分別簡介如下：. 1.. 答案驗證(answer validation)的方法在 Bhaskar 等人(2012)及 Pakray 等人(2011)參加 QA4MRE 的任務中，作者以. 答案驗證的方式進行實驗。答案驗證是將問題與該問題對應的選項預先結合產生出假設(Hypothesis, H)，例如有一個問題為： Where is the U.S. nuclear waste repository located? (a) at Oklo (b) in Morsleben (c) in New Mexico (d) in a suitable geological formation (e) in Nevada Pakray 將其處理成以下五個假設： H_1:the U.S. nuclear waste repository located at Oklo H_2:the U.S. nuclear waste repository located in Morsleben H_3:the U.S. nuclear waste repository located in New Mexico H_4:the U.S. nuclear waste repository located in a suitable geological formation H_5:the U.S. nuclear waste repository located in Nevada. 4.

(15) 接著使用問題與答案中的字擷取文章中相關的句子(Text, T)，因此就可以產生出許多對相關句子與假設的配對(T-H Pair)，對於每個配對給予評分，最後加總每個假設所得到的分數，最高分者即為該問題的答案。而在 Bhattacharya 和 Toldo (2012)參與 QA4MRE 的論文中，也實際實驗這種事先結合問題與答案來評分的方法，以及之後再對每個答案給予評分的方法，前者所得到的準確度明顯比後者來的高。. 2.. 以詞彙為基礎(phrase-based)的方法由於現今網路上以社群概念發展的問答集越來越多，Zhou 等人(2011)的論文. 想以詞彙為基礎，將問答集中的文章轉換為查詢的問題。常常問答集中的文章與查詢的問題雖然概念意義上相同，但卻鮮少出現一模一樣的字的情況，因此以詞彙為基礎的好處在於更能擷取出正確的意義，例如：“stuffy nose”，代表感冒流鼻水，然而兩個字分開看卻無法看出其義，當視為詞彙時，就可以輕易的了解“cold” 與“stuffy nose”是具有相近意義的詞彙。此外，Bhaskar 等人(2012)及 Pakray 等人(2011)的論文中也有提到以詞彙為基礎的方法，他們以 part of speech (POS)資訊為基準使用 Conditional Random Field (CRF) based chunker (Phan, 2006)為工具擷取出句子中的詞彙(phrase)，來當作答案驗證方法中評分 T-H Pair 的一種方式。. 3.. 指代語(anaphora)的決定方法 Bhaskar 等人(2012)及 Pakray 等人(2011)的論文中也使用到一些簡單的指代語. 5.

(16) 的決定規則，共分為兩類：(1)第一人稱代名詞{„I‟, „me‟, „my‟, „myself‟}：因為文獻中的來源文資料庫皆為論文著作，因此 Pakray 認為第一人稱代名詞指的是該篇文章的作者，但在直述句中，例：Frankie said, “I am ⋅⋅⋅⋅⋅⋅.”，第一人稱代名詞指的是句子中的說話者(如上例中的 Frankie)。(2)第二人稱代名詞{„he‟, „his‟, „him‟, „her‟, „she‟}：一般都用來指於上一個句子中上一次出現的名稱(Named Entity, NE)，但在非直述句中，例如：Mary said that her ⋅⋅⋅⋅⋅⋅.，第二人稱代名詞則指句子中的說話者(如上例中的 Mary)。. 4.. 詞語擴充(query expansion)的方法接著介紹詞語擴充的方法，該方法由 Qiu 和 Frei (1993)於 1993 年提出，是全. 球分析中相當具有代表性的方法，用以下的公式(1)來建立文獻資料庫中每個字與文章的矩陣：. 𝑊𝑢,𝑗 =. 𝑓𝑢,𝑗 )×𝐼𝑇𝐹𝑗 max𝑔 𝑓𝑢,𝑔. (0.5+0.5. 𝑓𝑢,𝑙 2 √∑𝑁 𝑙=1[(0.5+0.5max𝑔 𝑓𝑢,𝑔 )×𝐼𝑇𝐹𝑙 ]. (1). 其中𝑊𝑢,𝑗 代表文獻資料庫中的字𝐾𝑢 與文章𝐷𝑗 的矩陣權重值，𝑓𝑢,𝑗 代表𝐷𝑗 中出現 𝐾𝑢 的次數，𝐼𝑇𝐹𝑗 代表𝐷𝑗 的逆向字頻率(Inverse Term Frequency, ITF)，ITF 的涵義為評量一篇文章的重要性。當一篇文章中包含越多不同的字，表示該文章的主題可能越不明顯，因此而越不重要，ITF 式子如以下公式(2)：. 6.

(17) 𝑡. 𝐼𝑇𝐹𝑗 = log(𝑡 ). (2). 𝑗. 其中 t 代表文獻資料庫中總共不同的字總數，𝑡𝑗 代表在𝐷𝑗 中所出現的不同的字數。接著做全球分析(global analysis)，將整個 Query 中的字對應到𝐾𝑢 與𝐷𝑗 所構成的矩陣空間中，如下公式(3)所示：. → = ∑𝐾𝑢∊𝑞 𝑊𝑢,𝑞 × → 𝑞. (3). 𝐾𝑢. 其中𝐾𝑢 與𝐷𝑗 所構成的矩陣中每列視為一個向量值→ (代表文獻資料庫中的字 𝐾𝑢. 𝐾𝑢 的向量值)，→為整個 Query 對應到向量空間中的向量。 𝑞. 最後從整個 Query 與文獻資料庫中的字做相似度的計算，如下公式(4)所示：. 𝑠𝑖𝑚(𝑞, 𝐾𝑣 ) = (→) ⋅ (→ ) = (∑𝐾𝑢∊𝑞 𝑊𝑢,𝑞 × (→ )) ⋅ (→ ) = ∑𝐾𝑢∊𝑞 𝑊𝑢,𝑞 × 𝐶𝑢,𝑣 𝑞. 𝐾𝑉. 𝐾𝑢. 𝐾𝑉. (4). 另外在 Attardi (2012)參加 QA4MRE 的任務中也使用了 WordNet (Millar,1995) 中的同義詞(synonym)以及上位詞(hypernym)兩種關係做為其詞語擴充的方法。. 5.. 多個策略方法的共同投票答案決策 V.S.單一策略答案決策. 7.

(18) 而在 Bhattacharya 和 Toldo (2012)參與 QA4MRE 的論文中也以多種不同的策略決定其答案，最後便有一個問題因不同策略方法而產生多種答案的情況，因此額外做一個共同投票的策略來比較其精準度會不會提高。方法是比較其他策略方法回答一個問題的答案，當某個答案選項有比較多的策略選擇它時，則投票策略就選擇這個答案為其答案。但實驗結果卻沒有比其他以單一策略決定其答案的方法來的好。 Bhaskar 等人(2012)及 Pakray 等人(2011)在 CLEF 2011 與 CLEF 2012 兩年所參與的 QA4MRE 中，也顯示了類似的結果，2012 年以投票的方式決定多個策略所產生的答案，2013 年將多個策略做整合給予每個策略選出答案的權重分數，成為一個單一的決策系統，與 2012 年的實驗結果相比有非常顯著的進步。. 6.. 使用語彙鍊(lexical chain)的方法 Cao (2011)在參加 QA4MRE 的任務中以 WordNet (Fellbaum, 1998)為基礎，發. 展了語彙鍊的技術。他認為，機器閱讀應該如同人的閱讀以及作答選擇題的方式，分為三個步驟：(1) 定位(locating)：讀取問題並從文章段落中擷取與問題相關的句子。(2) 回答(answering)：仔細地讀這些句子，並決定哪一句最可能是該問題的答案。(3) 選擇(choosing)：讀取選擇題的答案選項，並選擇一個涵意與步驟(2)選出的句子涵意相同的選項當作答案。而語彙鍊正是用來選出步驟(2)中最可能是該問題答案的句子的方法，是整個步驟裡相當核心的技術，式子如下公式(5)所示：. 𝑅𝑒𝑙𝑎𝑡𝑖𝑜𝑛(𝑆𝑖 , 𝑆𝑗 ) = ∑𝑖 𝑆𝑐𝑜𝑟𝑒(𝑟𝑖 ). 8. (5).

(19) 其中𝑆𝑖 是來源於問題所對應到 WordNet 中的同義詞詞林(synset)，𝑆𝑗 是來源於文章段落中所對應到 WordNet 中的 synset，𝑟𝑖 是Si 與𝑆𝑗 所含的 WordNet 關聯性。 synset 與 synset 之間在 WordNet 的關係中都具有權重值的設定，如下表 2-1 所示：. 表 2-1：WordNet 關係的權重值. Hypernym 是 WordNet 中的上義關係，當字 X 是字 Y 的其中一種時，則稱 Y 為 X 的 Hypernym，例：animal 為 dog 的 Hypernym。Hyponym 是 WordNet 中的下義關係，當 Y 是 X 的其中一種時，則稱 Y 為 X 的 Hyponym，例：dog 為 animal 的 Hyponym。Synonym 是 WordNet 中的同義關係，當 X 與 Y 兩者意義相同時則具有 Synonym 關係，例：hi 的 Synonym 為 hello。Meronym 是 WordNet 中的部分關係，當 X 為 Y 的一部份時，則稱 X 為 Y 的 Meronym，例：window 為 building 的 Meronym。 Holonym 為 WordNet 中的全體關係，當 Y 是 X 的一部份時，則稱 X 為 Y 的 Holonym，例：building 為 window 的 Holonym。Attribute 是 WordNet 中的屬性關係，特定具有屬性描述的名詞才存在這樣的關係，例：Weight 的 Attribute 為 light、 heavy⋅⋅⋅。Cause 是 WordNet 中的導致關係，是 WordNet 中針對動詞定義的關係，當 X 是導致一個行為發生的字，而字 Y 為因 X 發生導致的結果時，則稱 X Cause. 9.

(20) Y，例：show Cause see、give Cause have。Entailment 是 WordNet 中的繼承關係，是 WordNet 中針對動詞定義的關係，當 X 的行為要發生則必定需要 Y 才能觸發，則稱 X Entailment Y，例：snore Entailment sleep。Gloss 是 WordNet 中的註解關係，當字 X 在 WordNet 中的註解提及字 Y，則稱 X 的 Gloss 為 Y，例： musician 的註解中出現 profession，因此 musician 的 Gloss 為 profession。R-Gloss 即為 Gloss 的相反，例：profession 的 R-Gloss 為 musician。再來是 Score 的公式定義，如下公式(6)所示：. 𝑙𝑒𝑛𝑔𝑡ℎ(𝑟). Score(r) = 𝐼 × ∏𝑖=1. (𝑊𝑅𝑖 × 𝑀𝐺𝐶𝑖 ). (6). 其中 I 為固定值，代表初始分數值，𝑊𝑅𝑖 即為表 2-1 所示關係的權重值， 𝑙𝑒𝑛𝑔𝑡𝑕(𝑟)代表考慮幾層 synset 之間的關係，𝑀𝐺C 式子定義如下公式(7)：. 𝑀𝐺𝑐 =. 𝐶𝑂𝑁𝑆𝑇 𝐶𝑂𝑁𝑆𝑇+𝑁𝑅−𝐺𝑙𝑜𝑠𝑠. (7). 其中 CONST 為一個常數，𝑁𝑅−𝐺𝑙𝑜𝑠𝑠 代表一個字總共具有的 R-Gloss 關係數。. 10.

(21) 第三章研究方法. 第一節. 緒論. 由於本研究一開始以參加機器閱讀問答系統評估(QA4MRE)為發展目標，因此在發展過程中根據不同的架構方法做了不同的實驗，實驗方法一以參加 QA4MRE 的方法稍加修正得出一實驗結果，而實驗方法二以答案驗證方法為概念改良方法一以便得到更準確的結果，並加入了(一)以詞彙為單位的判斷、(二)重要相關語句判定的改良、(三)新的字詞擴充方法。以下章節將先介紹本研究所使用的實驗資料，再對此兩種方法詳細的介紹，分為第二節實驗資料、第三節實驗方法一架構、第四節實驗方法一介紹、第五節實驗方法二架構、第六節實驗方法二介紹。. 第二節. 實驗資料. 本研究使用 QA4MRE pilot task- machine reading of biomedical texts about Alzheimer‟s Disease at CLEF2012 所提供的實驗資料為依據，其中包含背景知識庫以及測詴資料。此外，為了能夠更精確找出阿茲海默症與基因的關聯性，我們使用美國國家生物資訊中心(National Center for Biotechnology Information, NCBI)所建立的網站裡的線上人類孟德爾遺傳學(Online Mendelian Inheritance in Man,. 11.

(22) OMIM)4，它是一個將人類遺傳疾病分類，並且會與相關聯的人類基因進行連結的線上資料庫。我們以阿茲海默症作為關鍵字，目的在擷取此疾病的相對應基因名稱。. (一) 背景知識庫包含三類背景知識庫來源，以下是這三類知識庫文獻的介紹： 1.. Open Access Full Articles PMC：總共 7512 篇 Pubmed Central Open Access 中所提供的生物文章全文，這些文章原本為 PDF 格式，在這裡使用了 LA-PDFText5 (Ramakrishnan, 2012)這個工具轉換為文字檔格式儲存。. 2.. Open Access Full Articles PMC, Smaller Collection：總共 1041 篇由 Pubmed Central 所提供的文章全文，此處特別以阿茲海默症為關鍵字搜尋相關文章，將 HTML 格式存為文字檔。. 3.. Elsevier Full Articles：總共 379 篇文章，以及 103 篇文章摘要，這些文章是由美國麻薩諸塞州的阿茲海默症研究中心(Massachusetts Alzheimer‟s Disease Research Center)的教授提姆克拉克(Tim Clark)所整理提供，格式為文字檔。. (二) 測詴資料測詴資料共有四個關於阿茲海默症的測詴資料集，每個測詴集包含一篇文章、10 個測詴問題，測詴集中的文章與對應測詴集的問題主題關聯性較大。問題答案皆為單選題，每個問題有五個選項供選擇，因此一個測詴集共有 50 個選項。 4. http://omim.org/ http://code.google.com/p/lapdftext/. 5. 12.

(23) 整個測詴集則總共有 40 個問題，以及 200 個答案選項。. (三) 相關於阿茲海默症的 OMIM 專有詞. 圖 3-1：相關於阿茲海默症的 OMIM 連結之示意圖在 OMIM 提供的網頁上搜尋阿茲海默症的結果，得到 338 個相關的連結。擷取專有詞的方法有二： 1.. 實驗方法一：在我們早期的實驗中，總共擷取 1549 個 OMIM 專有字，只考慮以單字為單位。我們從每個連結中擷取疾病主要名稱、次要名稱、其他名稱以及對應疾病基因與位置(圖中藍色外框部分)，從網頁擷取資訊後，去掉重複出現過的字與標點符號記錄下來，即為一開始實驗用到的 OMIM 專有字。例如圖 3-1 黃線箭頭向上的部分即為擷取的部分，最後由此連結得到的 OMIM 專有字包含疾病主要名稱、次要名稱、其他名稱中的"ALZHEIMER"、 "DISEASE"、"AD"、"PRESENILE"、"AND"、"SENILE"、"DEMENTIA"、. 13.

(24) "FAMILIAL"、"1"、"INCLUDED"、"AD1"、"EARLY"、"ONSET"、"WITH"、 "CEREBRAL" 、 "AMYLOID" 、 "ANGIOPATHY" 、 "PROTECTION" 、 "AGAINST"以及從圖中藍色外框中擷取出的"APBB2"、"HFE"、"AD10"⋅⋅⋅⋅⋅⋅。 2.. 實驗方法二：後來我們考慮到每個連結即代表了同一個相關於阿茲海默症的 OMIM 專有詞，此稱作 OMIM Concept，以詞彙為單位來擷取連結中的概念。因此在實驗中總共使用到了 338 個 OMIM Concept。我們從每個連結中擷取 (1) Concept Title：疾病主要名稱、次要名稱、其他名稱，(2) Concept Content：對應疾病基因與位置(圖中藍色外框部分)、該疾病的內容敘述。從網頁擷取資訊後，將同一個連結中 Concept Title 所擷取到的名稱以標點符號切分成多個詞彙，而這些詞彙代表著同一個 OMIM Concept。將每一個 OMIM Concept 所代表的詞彙都找完後，則用 Concept Content 來找尋以及建立 OMIM Concept 彼此之間的關係。我們假設在一個連結中的 Concept Content 出現了此連結以外的 OMIM Concept 詞彙，則視該 OMIM Concept 與此連結的 OMIM Concept 相關。例如圖 3-1 其中一個 OMIM 連結中紅色箭頭所示，此 OMIM Concept 代表的詞彙即為由 Concept Title 以標點符號切分出的"ALZHEIMER DISEASE" 、 "AD" 、 "PRESENILE AND DEMENTIA" 、 "ALZHEIMER DISEASE,FAMILIAL,1,INCLUDED"⋅⋅⋅⋅⋅⋅；而以此 OMIM Concept 的 Concept Content 為例，藍色外框中出現的 APBB2、HFE、AD10⋅⋅⋅⋅⋅⋅皆代表其他連結不同的 OMIM Concept，而因為這些 OMIM Concept 出現在圖 3-1 這個 OMIM Concept 的連結中，兩兩 Concept 之間就會被視為相關，另外如果在此連結下面的內文中找到其他連結的 OMIM Concept 詞彙，同理也會被視為與此 OMIM Concept 相關。. 14.

(25) 第三節. 研究方法一架構. 實驗方法一為本人參加 QA4MRE 所提出的，系統架構圖如圖 3-2 及圖 3-3 所示：. 圖 3-2：實驗方法一：主系統架構圖. 15.

(26) 圖 3-3：實驗方法一：字詞擴充系統架構圖使用本章節第二節-(三)-1.的 OMIM 專有詞來擴充，Expanded Query Words 接續圖 3-2 中的 Part A 達成字詞擴充的效果。. 第四節. 研究方法一介紹. 如圖 3-2 所示，因為 QA4MRE 的測詴資料為 XML 的格式，因此我們先將一些不需要的格式做去除處理成文字檔，並且從中區分出測詴文章(documents)、問題(questions)和答案選項(answers)。方法的概念是如同人類回答選擇題時，首先接 16.

(27) 收到一個問題，會先閱讀並搜尋文章中與問題相關的句子尋求解答，相關的句子可能有數句，因此每個句子會有讀者所認為的關聯性高低，接著再觀察答案選項與這些句子何者最相似、相關，最後回答覺得最可信的答案。因此，研究方法大致分為 5 個步驟，將在以下小節中一一詳細討論，分別為：(一)前處理、(二) Query words 相關語句擷取、(三) Query words 權重給予、(四)相關語句權重給予、(五) 答案選擇方法。此外，圖 3-3 為擴充系統的架構，將在(六)擴充 Query words 會有詳細的探討。. (一) 前處理將 QA4MRE 的測詴資料分成三個部分後，要實際使用仍需做一些前置處理，以去除搜尋時的一些雜訊影響實驗結果。 1.. 大寫轉小寫三個部份的測詴資料都將大寫字一併轉為小寫。. 2.. Stop words 去除本論文的 stop word list 是使用一個 English stop word 的網站6所列的 stop. words，在三個部份的測詴資料中，問題和答案選項兩個部分有進行 stop words 的去除。例如：do、by、can、the⋅⋅⋅⋅⋅⋅為 stop words。 3.. 標點符號去除所有問題和答案選項的標點符號都有做去除的處理。例如：“http://wt.jrc.it/”. 或者“[email protected]”標點去除後分別為“http wt jrc it”與“doug nutch org”。. 6. http://www.lextek.com/manuals/onix/stopwords1.html 17.

(28) 4.. Stemming Standard Porter stemming algorithm (Porter, 1980)7是本論文用以 stemming 的演. 算方法，使用對象為所有測詴資料，包含測詴文章、問題以及答案選項。經過上述處理後，測詴問題與答案選項中剩餘的字我們稱為 Query words 與 Answer words。. (二) Query words 相關語句擷取得到 Query words 後，接著使用它來擷取測詴文章中相關的句子。擷取的方法為，當 Query words 與句子中的字相吻合時，則視該句子為相關並且擷取出來。. (三) Query words 權重給予為了決定每個 Query word 對句子的重要性，我們需要給予其權重值。在這裡使用了 TF 以及 TF-IDF 的方法進行實驗。 . TF Weighting，公式如下公式(8)：. TFQi  1 . f Qi. (8). max f Qi Qi. 上式中 TFQi 是 Query word Qi 的詞頻。 f Qi 代表測詴文章中出現 Qi 的次數。因為經過前處理過的 Query words，我們希望每個字都具有一定的權重值，所以實驗 7. http://tartarus.org/martin/PorterStemmer/ 18.

(29) 中我們假設每個 Query word 的字都擁有基礎的權重值為 1，另外再以測詴文章中出現的次數來區別每個 Query word 的重要性。如此一來，即使測詴文章沒有出現任何 Query word Qi ， TFQi 的值仍然為 1。. . IDF Weighting，公式如下公式(9)：. IDFQi.  N  log 2 nQi     0.1    0 . if nQi  0 if nQi  0 and f Qi  0. (9). otherwise. 上式 IDFQi 是 Query word Qi 的逆向文件頻率。N 代表文獻資料庫(例如： QA4MRE 的背景知識庫)的文章總數，nQ i 代表 Qi 出現在文獻資料庫中的文章數。 f Qi 代表測詴文章中出現 Qi 的次數。當文獻資料庫中沒有出現 Query word Qi 時，. 我們不能直接忽略它的重要性使 IDFQi 的值為 0，因此，當 nQ i 是 0 的時候再判斷 Qi 是不是存在於測詴文章中，如果有則給予 IDFQi 權重值 0.1，做 smoothing 的修飾調整，在下一章節我們額外以實驗討論直接給予 IDFQi 權重值為 0.1 的決定方式。. . TF-IDF，公式如下公式(10)：. 19.

(30) TF  IDFQi  TFQi  IDFQi. (10). 本權重為同時考量詞頻與逆向文件頻率的重要性。. (四) 相關語句權重給予句子權重配分方式是當 Query word 與之前所擷取出的相關語句相吻合時，則該句子得到該 Query word 的權重值，詳細公式如下所示：. SW _ TFj . TFQ. QiS j. SW _ TFIDF j . (11). i.  (TFQ  IDFQ ). QiS j. i. i. (12). 上式中 SW _ TFj 是 sentence Sj 中所有出現的 Query words 的 TF 總和， SW _ T FIDFj 是 sentence Sj 中所有出現的 Query words 的 TF-IDF 總和。. (五) 答案選擇方法根據句子權重的配分，我們就可以從這裡計算每個答案選項的分數。當一個 answer word 與相關語句中的字相符時，該答案選項就獲得該句子的權重值為其分數。而每個答案選項的得分即為該選項的 answer word 與相關語句中字相符的句. 20.

(31) 子權重總和。得分最高者即為最後的答案，如果同時有多個選項為最高分，則該題選擇不回答。. (六) 擴充 Query words 實驗中我們使用本章節第二節-(三)-1.相關於阿茲海默症的 OMIM 專有詞來當做額外知識的詞語擴充。如圖 3-3 所示，OMIM 專有詞首先經過了 stop word 去除、標點符號去除以及 stemming 的前處理。產生的字即稱為擴充 Query words，這些字與原本的 Query words 結合後重新計算新的權重值以得到新的答案。. 21.

(32) 第五節. 研究方法二架構. QA4MRE Test Data. Questions. Documents. Answers. s. Preprocessing: Stemming. Preprocessing: 1. Turn Lowercase 2. Stopword Removal 3. Punctuation Removal 4. Stemming. Porter’s Stemmer. Stemmed Documents. Answer Words. Query Words. Document Phrases. Hypothesis Generation. Porter’s Stemmer. Hypothesis Words. QA4MRE Background Collections. Stopword List. Stemming. Hypothesis words Weighting. Stemmed Hypothesis Phrases. Hypothesis Related Sentence Retrieval & Weighting. Hypothesis Scoring. Answer Selection. Final Answer. 圖 3-4：實驗方法二：主系統架構圖. 22. Preprocessing: 1. Chunking 2. Phrase Retrival 3. Turn Lowercase. Question Phrases. Phrase Hypothesis Generation. Hypothesis Phrases. Hypothesis Phrases Weighting. GDep Parser. Answer Phrases.

(33) QA4MRE Test Data QA4MRE Background Collections (Test Article). Questions. Preprocessing: 1. Turn Lowercase 2. Stopword Removal 3. Punctuation Removal 4. Stemming. Porter’s Stemmer. Query Words. Stopword List. Background Words. Query words-QueryVector ⃗𝒒 Computing. Background Words-Document Matrix Building. Background Words-Document Matrix. Vector ⃗𝒒 Projection On Background Collections Term-Query Similarity Computing. Query Related Term Selection. Expanded Words Expanded Questions. Main System Architecture. 圖 3-5：實驗方法二：字詞擴充(使用 Global Analysis)系統架構圖。Expanded Questions 取代圖 3-4 主系統架構圖中的 Questions 接續主系統，但不包含 phrases 的處理，此架構擴充字詞的方法只以字為單位擴充，而 phrases 仍然依照原本的詞彙來處理，Main System Architecture 為圖 3-4 之主系統架構圖。. 23.

(34) QA4MRE Test Data OMIM Concepts: OMIM Related Concepts. Documents s. Query Expansion. Expanded Documents. Main System Architecture. 圖 3-6：實驗方法二：字詞擴充(使用 OMIM)系統架構圖。使用本章第二節-(三)-2. 的 OMIM 專有詞及其關係來擴充，Expanded Documents 取代圖 3-4 主系統架構圖中的 Documents 接續主系統(Main System Architecture)。. 第六節. 研究方法二介紹. 如圖 3-4 所示，因為 QA4MRE 的測詴資料為 XML 的格式，因此我們先將一些不需要的格式做去除處理成文字檔，並且從中區分出測詴文章(documents)、問題(questions)和答案選項(answers)。方法使用的是答案驗證的概念：首先系統接收到一個問題時，將答案選項分別與問題配合(問題與各個答案選項結合，稱為 Hypothesis)到文章裡面閱讀並搜尋相關的句子尋求解答，相關的句子可能有數句，因此每個句子會有與各個 Hypothesis 之間的關聯性高低，算出句子關聯性的分數後，接著將與此 Hypothesis 相關的句子分數加總起來，最高分的 Hypothesis 代表讀完文章後該 Hypothesis 所包含的答案選項與問題是最有關聯的。因此，該答案 24.

(35) 選項則視為最後回答中覺得最可信的答案。在研究中 Hypothesis 分為(1)以字為單位的 word 來進行實驗，以及(2)以詞彙為單位的 phrase 來進行實驗，兩者方法的概念大致相同如上述，而實驗中考量以詞彙為單位的原因主要是輔助只以字為單位容易造成語義上判斷的不足，例如： “stuffy nose”，代表感冒流鼻水，然而兩個字分開看卻無法看出其意義，當視為詞彙時，就可以輕易的了解“cold”與“stuffy nose”是具有相近意義的詞彙。本論文的研究方法大致分為 5 個步驟，將在以下一一詳細討論，分別為：(一) 前處理、(二) Hypothesis words/phrases 產生、(三) Hypothesis words/phrases 權重給予、(四)相關語句權重給予、(五) Hypothesis 配分與答案選擇方法。此外，圖 3-5 與圖 3-6 為擴充系統的架構，將在(六)字詞擴充中會有詳細的探討。. (一) 前處理 1.. Query words、Answer words 的產生將 QA4MRE 的測詴資料分成三個部分後，要實際使用仍需做一些前置處理，. 以去除搜尋時的一些雜訊影響實驗結果。 (1) 大寫轉小寫三個部份的測詴資料都將大寫字一併轉為小寫。 (2) Stop words 去除本論文的 stop word list 是使用如本章第四節 English stop word 的網站所列的 stop words，在三個部份的測詴資料中，問題和答案選項兩個部分有做 stop words 的去除。 25.

(36) (3) 標點符號去除所有問題和答案選項的標點符號都有做去除的處理。例如：“http://wt.jrc.it/” 或者“[email protected]”標點去除後分別為“http wtj rc it”與“doug nutch org”。 (4) Stemming Standard Porter stemming algorithm (Porter, 1980)8是本論文用以 stemming 的演算方法，其使用在所有測詴資料包含測詴文章、問題以及答案選項。經過上述處理後，測詴問題與答案選項中剩餘的字我們接下來稱為 Query words 與 Answer words。. 2.. Document phrases、Question phrases、Answer phrases 的產生我們使用 GDep parser 9處理 QA4MRE 的測詴資料分出的測詴文章、問題與. 答案選項以得到 Chunking 的結果，Chunking 過後仍需要一些前置處理才能擷取出真正有用途的詞彙(phrases)。在測詴文章與問題中，我們只擷取詞性為名詞(noun phrase, NP)的詞彙，因為在生物文章中，重要的詞彙通常都包含於 NP 裡，避免擷取其他詞性的詞彙而得到的雜訊。但答案選項則是取所有詞性的詞彙，原因在於答案選項中通常都包含了關鍵重要的資訊而不能輕易地去除。 (1) Stop words 去除在擷取測詴文章中的詞彙時，為了預防取出的詞彙為 stop words，這裡也使本章第四節註明的 English stop word 網站所列的 stop words 來去除詞彙與 stop 8. http://tartarus.org/martin/PorterStemmer/ http://people.ict.usc.edu/~sagae/parser/gdep/index.html. 9. 26.

(37) words 吻合的情形。 (2) 問句 NP 的去除將測詴問題中包含疑問詞(例：what、which、who……)的問句 NP 去除。 (3) 大寫轉小寫三個部份的測詴資料擷取出的 phrases 都將大寫字一併轉為小寫。經由 Chunking 的結果與上述處理擷取出的詞彙分別為 Document phrases、 Question phrases、Answer phrases。. (二) Hypothesis words/phrases 產生 1.. Hypothesis words 產生將 Query words 分別與各答案選項的 Answer words 結合即成為 Hypothesis. words。. 2.. Hypothesis phrases 產生將 Question phrases 分別與各答案選項的 Answer phrases 結合即成為. Hypothesis phrases。以 QA4MRE 測詴資料集中的 Reading test 1, Question 1 為例： Which technique was used to determine the cellular locations of the CLU1 and CLU2 gene products? (a) intracellular and secreted (b) ER (c) intracellular localization (d) Golgi apparatus (e) immunofluorescence experiments 27.

(38) Query words：techniqu, determin, cellular, locat, clu1, clu2, gene, product Answer words： (a) intracellular, secret (b) er (c) intracellular, local (d) golgi, apparatu (e) immunofluoresc, experi Hypothesis words： H_1:techniqu, determin, cellular, locat, clu1, clu2, gene, product, intracellular, secret H_2:techniqu, determin, cellular, locat, clu1, clu2, gene, product, er H_3:techniqu, determin, cellular, locat, clu1, clu2, gene, product, intracellular, local H_4:techniqu, determin, cellular, locat, clu1, clu2, gene, product, golgi, apparatu H_5:techniqu, determin, cellular, locat, clu1, clu2, gene, product, immunofluoresc, experi. Question phrases：the cellular location, the clu1 and clu2 gene product Answer phrases： (a) intracellular, secrete (b) er (c) intracellularlocalization (d) golgi, apparatu (e) immunofluorescenceexperiment Hypothesis phrases： H_1:the cellular location, the clu1 and clu2 gene product, intracellular, secrete 28.

(39) H_2:the cellular location, the clu1 and clu2 gene product, er H_3:the cellular location, the clu1 and clu2 gene product, intracellularlocalization H_4:the cellular location, the clu1 and clu2 gene product, golgi, apparatu H_5:the cellular location, the immunofluorescenceexperiment. clu1. and. clu2. gene. product,. (三) Hypothesis words/phrases 權重給予 1.. Hypothesis words 權重給予為了決定每個 Hypothesis word 對句子的重要性，我們需要給予其權重值。在. 這裡使用了 TF 以及 TF-IDF 的方法來進行實驗，公式與研究方法一的公式(8)~(10) 相類似，只是 Query word 改為 Hypothesis word。 . TF Weighting，公式如下公式(13)：. TFH i  1 . f Hi. (13). max f H i H i. 上式中 TFH i 是 Hypothesis word H i 的詞頻。 f H i 代表測詴文章中出現 H i 的次數。因為經過前處理過的 Hypothesis words，我們希望每個字都具有一定的權重值，所以實驗中我們假設每個 Hypothesis word 的字都擁有基礎的權重值為 1，另外再以測詴文章中出現的次數來區別每個 Hypothesis word 的重要性。如此一來，即使測詴文章沒有出現任何 Hypothesis word H i ， TFH i 的值仍然為 1。. . IDF Weighting，公式如下公式(14)： 29.

(40)  N  log 2 nH i   IDFH i   0.1    0 . if nH i  0 if nH i  0 and f H i  0. (14). otherwise. 上式 IDFH i 是 Hypothesis word H i 的逆向文件頻率。N 代表文獻資料庫(例如： QA4MRE 的背景知識庫)的文章總數，n H i 代表 H i 出現在文獻資料庫中的文章數。. f H i 代表測詴文章中出現 H i 的次數。當文獻資料庫中沒有出現 Hypothesis word. H i 時，我們不能直接忽略它的重要性使 IDFH i 的值為 0，因此，當 n H i 是 0 的時候再判斷 H i 是不是存在於測詴文章中，如果有則給予 IDFH i 權重值 0.1，做 smoothing 的修飾調整，在下一章節我們額外以實驗討論直接給予 IDFH i 權重值為 0.1 時的決定方式。. . TF-IDF，公式如下公式(15)：. TF  IDFH i  TFH i  IDFH i. (15). 本權重為同時考量詞頻與逆向文件頻率的重要性。. 30.

(41) 2.. Hypothesis phrases 權重給予：為了決定每個 Hypothesis phrase 對句子的重要性，我們也對 phrase 定義一種. 權重值的計算方式，稱為 Phrase Frequency(PF)，主要是根據 Hypothesis phrase 出現在測詴文章中的次數來決定權重值的大小。. PF Weighting，公式如下公式(16)：. PFPi . f Pi. (16). max f Pi Pi. 上式中 TFPi 是 Hypothesis phrase Pi 的詞頻。 f Pi 代表測詴文章中出現 Pi 的次數。實驗中因為詞彙是用來輔助單以字為單位所造成語義上的不足，因此這裡不給予每個 Hypothesis phrase 基礎的權重值。. (四) 相關語句選擇與權重給予 1.. Hypothesis words/phrases 相關語句擷取得到 Hypothesis words/phrases 後，接著使用它來擷取測詴文章中相關的句子。. 擷取的方法為，當 Hypothesis words/phrases 在句子中出現，則視該句子為相關並且擷取出來。. 31.

(42) 2.. 相關語句權重給予句子權重配分方式分為兩類，如下說明：. (1) 使用 Hypothesis word 給予權重當 Hypothesis word H i 與之前所擷取出的相關語句相吻合時，則該句子得到該 Hypothesis word 的權重值，詳細公式如下所示：. SHW _ TFj .  TF. SHW _ TFIDFj . (17). Hi. H i S j.  (TF. H i S j. Hi.  IDFHi ). (18). 上式中 SHW _ TF j 是 sentence Sj 中所有出現的 Hypothesis words H i 的 TF 總和，. SHW _ TFIDFj 是 sentence Sj 中所有出現的 Hypothesis words 的 TF-IDF 總和。 (2) 使用 Hypothesis phrase 給予權重當 Hypothesis phrase 出現於之前所擷取出的相關語句中時，則該句子得到該 Hypothesis phrase 的權重值，詳細公式如下所示：. SHW _ PF j .  PF. Pi S j. Pi. (19). 上式中 SHW _ PF j 是 sentence Sj 中所有出現的 Hypothesis phrases 的 PF 總和。. 32.

(43) 3.. 排序並重新選取相關語句雖然一個問題中的關鍵字可能出現在文章中的無數句話裡，但一般而言，一. 個問題的答案僅落於文章中的幾句話中而已，其他的句子與問題的相關性較不大，考量到這個情況，本節的步驟(一)所擷取到的相關語句可能會有該句子雖然出現 Hypothesis words/phrases 但其實相關性不大的情況，如果將所有擷取到的相關語句都視為非常相關，反而會造成相關性上不精確的判斷。因此，在實驗中我們先將本節步驟(二)給予的相關語句權重排序，然後視權重值來挑選前五高的句子當作最後真正相關的語句。另外，實驗中也有測詴挑選權重值前四高的句子來作為相關語句。. (五) Hypothesis 配分與答案選擇方法根據句子權重的配分，我們就可以從這裡計算每個 Hypothesis 的分數。當一個 Hypothesis word/phrase 與相關語句中相符時，該 Hypothesis 就獲得該句子的權重值為其分數。而每個 Hypothesis 的得分即為該選項的 Hypothesis word/phrase 與相關語句中字相符的句子的權重總和。得分最高的 Hypothesis 所包含的答案選項即為最後的答案，如果同時有多個 Hypothesis 得到最高分，則該題選擇不回答。. 上述介紹，本節的步驟(四)如何決定挑選出相關語句並且判斷句子的重要性是整個系統中最重要的環節，因為這將直接影響到每個 Hypothesis 所得到的配分，進而影響答案選擇的正確性。. 33.

(44) (六) 字詞擴充本章節將討論的是本實驗針對測詴問題的字詞擴充(query expansion)。在問答系統中，良好的字詞擴充方法是最直接補充 Query 中語義的方式，能夠有效的提升準確率。這裡我們使用了兩種字詞擴充的方法來嘗詴其效果，一者為參考 Qiu 和 Frei (1993)於 1993 年提出的全球分析方法做字詞的擴充，因為這個方法的特點為只要運用相關的背景知識庫就能在初始時即給予問題字詞擴充，達到提升判斷正確率的效果；另一種字詞擴充的法則延續實驗方法一所使用的 OMIM 資料，但使用本章第二節-(三)-2.的 OMIM 專有詞及其關係來擴充。因此以下分兩部分講解擴充方法：(1)使用全球分析(global analysis)方法擴充，(2)使用 OMIM 專有詞擴充。. 1.. 使用全球分析(global analysis)方法擴充如圖 3-5 所示，將 QA4MRE 的測詴資料分出的問題部分做前處理；另一方面，. 為了將背景知識庫的字詞擴充到測詴問題中，也需要先做一些前處理以去除雜訊，實驗中僅以背景知識庫 Open Access Full Articles PMC, Smaller Collection 作為背景知識來擷取字詞擴充。這裡做的前處理包含大寫轉小寫、stop words 去除、標點符號去除和 stemming，處理過後的資料分別為 Query words 與 Background words。再來分為 4 個步驟完成詞語的擴充，分別是(1)建立 Background Words-Documents 矩陣、(2)計算 Query words-Query 向量、(3)Term 與 Query 之 Similarity 計算、(4) 排序並選擇要加入擴充的字詞 (1) 建立 Background Words-Documents 矩陣. 34.

(45) 首先建立一個如下圖 3-7 的矩陣：. N Documents. →. 𝐾𝑢. t terms. . →.. 𝐾𝑣. 圖 3-7：Background Words-Documents 矩陣. 在上圖中，每一列代表一個 Background word K i 以 Background collections 的文章 D j 為空間維度的向量 K i ，N 代表 D j 的總數，t 為 K i 的總數，矩陣內𝑊𝑖,𝑗 則代表 K i 中每一個維度的權重值，亦即 Background collections 中 K i 與 D j 的矩陣權重值，𝑊𝑖,𝑗 詳細公式在第二章第二節已介紹過，現重述如下：. 𝑊𝑖,𝑗 =. 𝑓𝑖,𝑗 )×𝐼𝑇𝐹𝑗 max𝑔 𝑓𝑖,𝑔. (0.5+0.5. 𝑓. 𝑖,𝑙 √∑𝑁 𝑙=1[(0.5+0.5max 𝑓. 𝑔 𝑖,𝑔. )×𝐼𝑇𝐹𝑙. (1) ]2. 𝑓𝑖,𝑗 代表𝐷𝑗 中出現𝐾𝑖 的次數，𝐼𝑇𝐹𝑗 代表𝐷𝑗 的逆向字頻率(Inverse Term Frequency, ITF)，ITF 的涵義為評量一篇文章的重要性，當一篇文章中包含越多不同的字，表示該文章的主題可能越不明顯，因此而越不重要，ITF 式子如第二章第二節所介紹之公式(2)：. 35.

(46) 𝑡. 𝐼𝑇𝐹𝑗 = log(𝑡 ). (2). 𝑗. 其中 t 代表文獻資料庫中總共不同的字總數，𝑡𝑗 代表在𝐷𝑗 中所出現的不同的字數。 (2) 計算 Query words-Query 向量接著做全球分析，目的在將整個 Query 中的字對應到 Background Words-Documents 矩陣，求得一向量→，參考公式(3)而修改得公式(20)所示： 𝑞. →={ 𝑞. ∑𝐾𝑖 ∊𝑞 𝑊𝑖,𝑞 × → ∑𝐾𝑖 ∊𝑞 𝑊𝑖,𝑞 × →. 𝑖𝑓 𝐾𝑖 𝑖𝑛 𝐵𝑎𝑐𝑘𝑔𝑟𝑜𝑢𝑛𝑑 𝑤𝑜𝑟𝑑𝑠. 𝐾𝑖. 𝑍𝑒𝑟𝑜𝑉𝑒𝑐𝑡𝑜𝑟. 𝑖𝑓 𝐾𝑖 𝑛𝑜𝑡 𝑖𝑛 𝐵𝑎𝑐𝑘𝑔𝑟𝑜𝑢𝑛𝑑 𝑤𝑜𝑟𝑑𝑠. (20). 其中𝐾𝑖 代表 Query words， K i 則代表𝐾𝑖 對應在 Background Words-Documents 矩陣中的向量，然而實際上，背景知識庫並不包含所有的字，可能會出現一個 Query word 卻從未出現在背景知識庫中的情況，因此無法在 Background ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ 進行 Words-Documents 矩陣中尋求向量，此時我們使用一個向量稱為𝑍𝑒𝑟𝑜𝑉𝑒𝑐𝑡𝑜𝑟 ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ 定義如下：額外的處理以便避免這樣的可能性，𝑍𝑒𝑟𝑜𝑉𝑒𝑐𝑡𝑜𝑟. ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ 𝑍𝑒𝑟𝑜𝑉𝑒𝑐𝑡𝑜𝑟 = (. 0.5×𝐼𝑇𝐹1. 2 √∑𝑁 𝑙=1(0.5×𝐼𝑇𝐹𝑙 ). ,. 0.5×𝐼𝑇𝐹2 2 √∑𝑁 𝑙=1(0.5×𝐼𝑇𝐹𝑙 ). (3) Term 與 Query 之 Similarity 計算. 36. ,……,. 0.5×𝐼𝑇𝐹𝑁 2 √∑𝑁 𝑙=1(0.5×𝐼𝑇𝐹𝑙 ). ). (21).

(47) 最後將整個 Query 與所有 Background words 做相似度的計算，目的是要知道每個 Background word 與整個 Query 的相似度(關聯度)，如下公式(4)所示：. 𝑠𝑖𝑚(𝑞, 𝐾𝑣 ) = (→) ⋅ (→ ) = (∑𝐾𝑢∊𝑞 𝑊𝑢,𝑞 × (→ )) ⋅ (→ ) = ∑𝐾𝑢∊𝑞 𝑊𝑢,𝑞 × 𝐶𝑢,𝑣 𝑞. 𝐾𝑉. 𝐾𝑢. 𝐾𝑉. (4). (4) 排序並選擇要加入擴充的字詞. 有了 Background word 與 Query 的相似度高低後，便知道相似度高者是我們要優先加入原先的 Query 做字詞擴充的字，因此在這裡需要排序，排序完成後選擇要加入原先 Query 的擴充字詞數量，再將這些加入的字詞與原先的 Query 合併就完成了字詞擴充的方法。. 2.. 使用 OMIM 專有詞擴充我們使用本章第二節-(三)-2.相關於阿茲海默症的 OMIM 專有詞及其關係進. 行擴充。這裡針對 Documents 進行擴充，因為在測詴文章中加入擴充的字詞，如果出現意義不合或不正確時，並不會直接影響到問題的涵義，問題中包含的字只會到測詴文章中找尋相對應於原本問題的字，而被錯誤加入文章中的字並不會被比對到而影響結果。如圖 3-5 所示，擷取的 OMIM 專有詞包含單字與詞彙，搜尋文章時以句子為單位，當句子中發現無論單字或詞彙與 OMIM Concept 相符合時，則將與該 OMIM Concept 相關的其他 Concept 加入句中，並且同一句話中不會重覆加入相同的 OMIM Concept，直到搜尋完整篇文章，才完成字詞擴充的方法。以測詴文章 2.中的其中一句話：“somatostatin induces an increase of ide 37.

(48) expression in microglia cells”為例，其中 somatostatin 是一個 OMIM Concept，在實作中因為在 OMIM 網站搜尋到阿茲海默症相關連結所得到的順序，它是第 336 個出現的連結(OMIM Concept)，因此我們將它編號為 336，與它相關的 OMIM Concept 是編號 1、71、156；另外 ide 也是一個 OMIM Concept，編號為 42，與它相關的 OMIM Concept 有 1、2、5、11、71、110、269，所以擴充後變成：+-@*/(1 2 5 11 71 110 156 269 )/*@-+ somatostatin induces an increase of ide expression in microglia cells，其中+-@*/(xxxxxx)/*@-+裡 xxxxxx 的內容即為這句話所擴充的 OMIM Concept，使用這些符號意義在於將擴充字詞與正文區分出來，Hypothesis words/phrases 在找尋相關語句給予權重時，只要再把這些編號中每個 OMIM Concept 真正代表的字詞拆解出來比對看是否相符就能決定該句子是否為相關，達到擴充的作用。. 38.

(49) 第四章實驗與結果. 第一節. 評估測量標準. 使用跨語言評估會議(Cross-Language Evaluation Forum, CLEF)於機器閱讀問答系統評估(QA4MRE)中所使用的評量標準 c@1 measure 來評估實驗結果，其公式如下公式(22)：. c @1 . (nR  nU n. nR ) n. (22) . 其中 nR 是指正確回答的問題數，nU 指未給予回答的問題數，n 是總共的問題數。這個評估標準認為在機器閱讀問答系統中針對問題所不能確定的答案，系統不應該隨意給予回答，因此不同於一般所使用準確率評估方式，c@1 measure 對於未回答部分稍有加分，一般所使用的準確率評估如下公式(23)。. cc r c =. 𝑛𝑅. (23). 𝑛. 其中 nR 與 n 定義同上。. 39.

(50) 第二節. 實驗結果. 接著介紹實驗結果與討論，表 4-1 為本次研究所有的實驗結果。. 表 4-1：實驗結果總覽. Experiment. Experiment Name. C1. C2. C3. c@1. 1.. TF. 0. 9. 31. 0.225. 2.. TFIDF. 6. 7. 27. 0.20125. 3.. OMIM(1)+TF. 0. 7. 33. 0.175. 4.. OMIM(1)+TFIDF. 0. 10. 30. 0.25. 5.. TF+PF. 0. 8. 32. 0.2. 6.. TFIDF+PF. 4. 10. 26. 0.275. 7.. OMIM(1)+TF+PF. 0. 7. 33. 0.175. 8.. OMIM(1)+TFIDF+PF. 0. 10. 30. 0.25. 9.. Top4+TF. 8. 11. 21. 0.33. 10.. Top4+TFIDF. 9. 7. 24. 0.214375. 11.. Hypothesis Words+TF. 0. 7. 33. 0.175. 12.. Hypothesis Words+TFIDF. 0. 17. 23. 0.425. 13.. Top4+Hypothesis Words+TF. 2. 10. 28. 0.2625. 14.. Top4+Hypothesis Words+TFIDF. 1. 16. 23. 0.41. 15.. Top5+Hypothesis Words+TFIDF. 2. 17. 21. 0.44625. 16.. Top5+Hypothesis Words+TFIDF+PF. 2. 17. 21. 0.44625. 17.. OMIM(1)+Top5+Hypothesis Words+TFIDF+PF. 1. 15. 24. 0.384375. 18.. QE250+Top5+Hypothesis Words+TFIDF+PF. 2. 18. 20. 0.4725. 19.. QE350+Top5+Hypothesis Words+TFIDF+PF. 2. 19. 19. 0.49875. 20.. Top5+Hypothesis Words+TFIDF+. 1. 18. 21. 0.46125. 1. 20. 19. 0.5125. 1. 19. 20. 0.511875. 1. 15. 24. 0.384375. ID. Hypothesis phrases+PF 21.. QE350+Top5+Hypothesis Words+TFIDF+ Hypothesis phrases+PF. 22.. OMIM(2)+Top5+Hypothesis Words+TFIDF+ Hypothesis phrases+PF. 23.. OMIM(2)+ QE350+Top5+Hypothesis Words+TFIDF+ Hypothesis phrases+PF. 40.

(51) 測詴問題在本實驗總共為 40 題，表格中每列代表一個實驗，表格中 C1 代表系統未給予回答的問題數，C2 代表系統正確回答的問題數，C3 則代表系統答錯的問題數，c@1 即為使用公式(22)所得到的評估結果。實驗 1.～4.呈現參加 CLEF2012 的機器閱讀問答系統評估(QA4MRE)的結果，使用的是第三章所介紹的實驗方法一所提到的方法，TF 是指測詴問題中的字以公式(8)來給予權重，TFIDF 則是以公式(10)來給予權重，OMIM(1)代表使用圖 3-3 的擴充系統架構方法，以實驗早期 OMIM 資料來擴充字詞。實驗 5.～8.是針對參加 QA4MRE 後，測詴加上以詞彙為單位來找尋答案的方法，對於答案選則的影響，TF 與 TFIDF 同樣分別用公式(8)及公式(10)來給予權重；而 PF 則是以公式(16) 來給予權重。實驗 9.、10.中 Top4 代表所有相關語句給予權重後，經由排序挑選前四高的那些句子作為相關語句所產生的影響，而在實驗 9.、10.這部分的改良中，以挑選前四高的句子得到的準確率最高，因此展現於此表。實驗 11.、12.初步以字為單位來做答案驗證的方法並配合不同的權重給予方式實驗。實驗 13.～ 15. 結合重要語句的挑選，以及對於 Query words 的答案驗證方法實驗，Top5 代表以挑選前五高的句子作為相關語句。實驗 16.延續實驗 15.進一步加上公式(16)的 PF 權重給予方式來觀察成效。實驗 17.延續實驗 16.加上實驗方法一中的字詞擴充系統。實驗 18.、19.則是延續實驗 16.加上實驗方法二中的圖 3-5 以 Global Analysis 為方法的擴充系統，QE250 與 QE350 分別代表選擇加入測詴問題中的 Expanded words 數量為 250 個與 350 個。最後，實驗 20.～23.是以實驗方法二進行實驗所得到的結果，OMIM(2)代表使用圖 3-6 的擴充系統架構方法，以建立過關係的 OMIM Concept 來擴充字詞。. 41.

(52) 以直條圖統整以上實驗如下圖 4-1 所示：. 0.6. 0.5. 0.4. 0.3. 0.2. 0.1. 0. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 c@1 0.23 0.2 0.18 0.25 0.2 0.28 0.18 0.25 0.33 0.21 0.18 0.43 0.26 0.41 0.45 0.45 0.38 0.47 0.5 0.46 0.51 0.51 0.38. 圖 4-1：實驗結果直條圖. Morente (2012)總結了參與 CLEF 所籌畫的 QA4MRE 子任務-阿茲海默症的探討(QA4MRE pilot task machine reading of biomedical texts about Alzheimer‟s Disease)所有參加者的實驗結果，得到 7 個參加團隊的實驗方法中，各自正確率最高者，如下表 4-2。. 42.

(53) 表 4-2：Highest scores per team Team Name. Highest c@1 measure. Pisa. 0.55. merk. 0.47. kule. 0.30. nict. 0.28. iirg. 0.25. lims. 0.21. ntnu. 0.20. average. 0.322857. 根據表 4-1 及圖 4-1 可以看出，我們的研究中以實驗 21.排名第一，使用實驗方法二並結合 Global Analysis 的方法做字詞擴充，c@1 measure 最高為 0.5125；緊接在後排名第二的是實驗 22.，使用的是實驗方法二結合 OMIM 詞彙擴充，分數為 0.5119，兩者都超過了五成的正確率。對照表 4-2 我們發現在所有使用此相同實驗資料做實驗的團隊成果中，我們的研究最高分僅次於 Pisa (c@1 measure 最高為 0.55 的分數)，甚至遠超過所有參加者的帄均分數，得到相當不錯的成績。. Morente(2012)統整所有參加者所上傳的實驗並公布每個實驗的統計值如下表 4-3。欄位 Run 的名稱為參加團隊上傳的每個實驗名稱，名稱中出現在數字前的字代表團隊名稱，而實驗的排序方式是由高到低排序 c@1 measure 值；統計值包括中位數、標準差與 Accuracy。. 43.

(54) 表 4-3：參加團隊各實驗結果統計表. Run. c@1. Median. Standard. Accuracy. Deviation Pisa12013enen. 0.55. 0.55. 0.13. 0.55. merk12062enen. 0.47. 0.52. 0.17. 0.43. merk12022enen. 0.40. 0.37. 0.16. 0.38. merk12052enen. 0.39. 0.47. 0.27. 0.35. merk12012enen. 0.36. 0.33. 0.28. 0.30. merk12072enen. 0.35. 0.40. 0.24. 0.30. kule12061enen. 0.30. 0.30. 0.08. 0.30. kule12101enen. 0.30. 0.30. 0.08. 0.30. nict12102enen. 0.28. 0.30. 0.05. 0.28. merk12042enen. 0.26. 0.26. 0.12. 0.25. iirg12021enen. 0.25. 0.25. 0.13. 0.25. iirg12041enen. 0.25. 0.25. 0.13. 0.25. kule12041enen. 0.25. 0.20. 0.10. 0.25. kule12051enen. 0.25. 0.30. 0.10. 0.25. kule12091enen. 0.25. 0.20. 0.19. 0.25. merk12032enen. 0.25. 0.30. 0.17. 0.25. iirg12021enen. 0.23. 0.20. 0.22. 0.23. iirg12031enen. 0.23. 0.20. 0.22. 0.23. iirg12051enen. 0.23. 0.20. 0.22. 0.23. iirg12061enen. 0.23. 0.25. 0.17. 0.23. kule12031enen. 0.23. 0.25. 0.10. 0.23. nict12031. 0.23. 0.25. 0.21. 0.23. nict12041enen. 0.23. 0.25. 0.17. 0.23. nict12053enen. 0.23. 0.20. 0.15. 0.23. nict12063enen. 0.23. 0.25. 0.10. 0.23. nict12074enen. 0.23. 0.20. 0.13. 0.23. kule12011enen. 0.21. 0.19. 0.12. 0.18. lims12013enen. 0.21. 0.21. 0.16. 0.20. lims12024enen. 0.21. 0.20. 0.12. 0.20. lims12043enen. 0.21. 0.27. 0.14. 0.20. kule12071enen. 0.20. 0.20. 0.08. 0.20. kule12081enen. 0.20. 0.20. 0.12. 0.20. 44.

(55) nict12091enen. 0.20. 0.20. 0.08. 0.20. ntnu12032enen. 0.20. 0.19. 0.17. 0.18. ntnu12054enen. 0.20. 0.20. 0.16. 0.20. iirg12011enen. 0.18. 0.10. 0.15. 0.18. kule12021enen. 0.18. 0.19. 0.15. 0.15. ntnu12012enen. 0.18. 0.15. 0.17. 0.18. ntnu12044enen. 0.18. 0.10. 0.24. 0.18. ntnu12022enen. 0.17. 0.13. 0.17. 0.15. nict12012enen. 0.15. 0.15. 0.13. 0.15. nict12024enen. 0.15. 0.15. 0.13. 0.15. lims12034enen. 0.14. 0.18. 0.12. 0.13. 下表 4-4 進一步呈現本研究每個實驗中各個測詴集的正確率，以及四個測詴集的中位數、標準差和 Accuracy。表中 R1、R2、R3、R4 分別代表測詴資料集 1、 2、3 以及 4，同樣以 c@1 measure 來計算個別測詴集的準確率。. 表 4-4：各測詴集實驗結果總覽 Exp.. Experiment Name. R1. R2. R3. R4. Median. ID. Standard. Accuracy. Deviation. 1.. TF. 0. 0.5. 0.3. 0.1. 0.2. 0.221736. 0.225. 2.. TFIDF. 0. 0.5. 0.13. 0.13. 0.13. 0.215561. 0.175. 3.. OMIM(1)+TF. 0. 0.4. 0.2. 0.1. 0.15. 0.170783. 0.175. 4.. OMIM(1)+TFIDF. 0. 0.4. 0.3. 0.3. 0.3. 0.173205. 0.25. 5.. TF+PF. 0. 0.5. 0.3. 0.1. 0.2. 0.221736. 0.2. 6.. TFIDF+PF. 0. 0.5. 0.36. 0.24. 0.3. 0.211896. 0.25. 7.. OMIM(1)+TF+PF. 0. 0.4. 0.2. 0.1. 0.15. 0.170783. 0.175. 8.. OMIM(1)+TFIDF+PF. 0. 0.4. 0.3. 0.3. 0.3. 0.173205. 0.25. 9.. Top4+TF. 0. 0.66. 0.44. 0.14. 0.29. 0.296873. 0.275. 10.. Top4+TFIDF. 0. 0.66. 0.13. 0.14. 0.135. 0.292047. 0.175. 11.. Hypothesis Words+TF. 0. 0.4. 0.2. 0.1. 0.15. 0.170783. 0.175. 12.. Hypothesis Words+TFIDF. 0.1. 0.8. 0.4. 0.4. 0.4. 0.287228. 0.425. 45.

(56) 13.. Top4+Hypothesis Words+TF. 0.1. 0.5. 0.3. 0.12. 0.21. 0.186458. 0.25. 14.. Top4+Hypothesis Words+TFIDF. 0.3. 0.6. 0.4. 0.33. 0.365. 0.135. 0.4. 15.. Top5+Hypothesis Words+TFIDF. 0.11. 0.7. 0.4. 0.55. 0.475. 0.251794. 0.425. 16.. Top5+Hypothesis Words+TFIDF+PF. 0.11. 0.7. 0.5. 0.44. 0.47. 0.245. 0.425. 17.. OMIM(1)+Top5+. 0.2. 0.5. 0.44. 0.4. 0.42. 0.13. 0.375. 0.3. 0.8. 0.44. 0.33. 0.385. 0.229692. 0.45. 0.4. 0.8. 0.44. 0.33. 0.42. 0.20998. 0.475. 0.1. 0.7. 0.6. 0.44. 0.52. 0.262805. 0.45. 0.4. 0.7. 0.6. 0.33. 0.5. 0.171925. 0.5. 0.1. 0.7. 0.6. 0.55. 0.575. 0.265754. 0.475. 0.22. 0.6. 0.5. 0.2. 0.36. 0.200666. 0.375. Hypothesis Words+TFIDF+PF 18.. QE250+Top5+ Hypothesis Words+TFIDF+PF. 19.. QE350+Top5+ Hypothesis Words+TFIDF+PF. 20.. Top5+Hypothesis Words+TFIDF+ Hypothesis phrases+PF. 21.. QE350+Top5+ Hypothesis Words+TFIDF+ Hypothesis phrases+PF. 22.. OMIM(2)+Top5+ Hypothesis Words+TFIDF+ Hypothesis phrases+PF. 23.. OMIM(2)+ QE350+Top5+ Hypothesis Words+TFIDF+ Hypothesis phrases+PF. 參考表 4-3 與表 4-4，所有參加者的實驗中，中位數值最高的是 Pisa12013enen 為 0.55，參加者中中位數值最低為 0.10，分別是 iirg12011enen 與 ntnu12044enen 兩個實驗；而在本研究中位數值最高為實驗 22.的 0.575，其中實驗 22.也是本研究使用 c@1 評量第二高的實驗方法，本研究中位數值最低為實驗 2.的 0.13。標準差代表實驗方法對於回答測詴集問題正確的通用程度，因此越小就代表方法可能越適用於任何測詴集，表 4-5 中標準差最小的是 nict12102enen 為 0.05，標準差最大者為 0.28；而本研究標準差最小為實驗 17.的 0.13，標準差最大為實驗 9.的 0.296873。此外，本研究中 c@1 measure 最好的實驗 21.，其標準差為 0.171925，在所有參加者中大致是介於帄均值左右。最後是 Accuracy 的比較，Accuracy 代表 46.

(57) 使用一個實驗方法系統回答真正答對的比率，因為在這這個研究中每個測詴問題必定含有唯一一個正確答案，以 Accuracy 統計的話則不回答的部分也算是錯誤，表 4-3 中所有參加者最好為 Pisa12013enen 實驗的 0.55，最差為 lims12034enen 實驗的 0.13；而本研究中，Accuracy 最高的是實驗 21.的 0.50，在表 4-3 中排名第二，最低為實驗 2.、3.、7.、10.、11.的 0.175。此外，Morente 也統計了所有參加者系統在各個測詴集的 c@1 measure 帄均值，以此呈現每個測詴集的難度，如下表所示，測詴集 1 得到的分數最低只有 0.11，因此被歸類為難度相當高的測詴集，而測詴集 2 的分數最高為 0.34，相對上來說較簡單。. 表 4-5：各測詴集 c@1 measure 的帄均值. R1. R2. R3. R4. 0.11. 0.34. 0.22. 0.24. 比較表 4-4 與表 4-5 可以發現，我們的研究有許多實驗方法都遠遠超過了這個難度的門檻值，是相當不錯的結果，研究中四個測詴集都高於此門檻值的實驗有：實驗 14.、17.、18.、19.、21.五個實驗，其中實驗 19.與 21.甚至對於難度最高的測詴資料集 1 有大幅度的超越。本研究也從各個測詴集問題的題型分類來檢視各測詴集對於研究中所使用到的方法的難易程度，表 4-6 是針對各測詴集做題目的分類，並且算出各測詴集與各類問題的準確率，藉此更深入分析彙整我們方法整體的準確率以及實驗方法與各類型問題之間的關聯。. 47.

(58) 表 4-6：各測詴集對於題目分類作答情況與帄均準確率. Reading. Entity. Reaction. Test. Mean. TNQ. Mean. TNQ. Mean. TNQ. Mean. TNQ. R1. 0.8261. 7. 0. 1. 0.2174. 1. 0. R2. 5.1304. 8. 0. 0. 0. 0. R3. 2.4783. 8. 0.4783. 1. 0.5652. R4. 1.9565. 5. 0.1739. 2. 0. AQ. 0.3711. 0.1631. Amount. Method. AR. c@1. 1. 0.1043. 0.1061. 0.6087. 2. 0.5739. 0.5835. 1. 0. 0. 0.3522. 0.3687. 1. 0.3478. 2. 0.2478. 0.2683. 0.2609. 0.1913. 總共分成了 4 種問題的類型探討，表中 Entity 代表該問題所問的對應答案是一個實體名稱(例：DNA、RNA、蛋白質⋅⋅⋅⋅⋅⋅)，Reaction 代表該問題所問的對應答案是一個反應名稱，Amount 代表該問題所問的對應答案是一個數字，Method 代表該問題所問的對應答案是一個方法或技術。而表中各欄位又分為 Mean 與 TNQ 兩欄，其中 TNQ 代表該類型題目在測詴集中總共具有的題數；Mean 則為統計實驗 1.～23.各類問題在各測詴集中答對的題數帄均值，算出本研究的方法對於該類型題目在測詴集中帄均能夠答對的題數。AR 為利用公式(23)的 Accuracy 求法統計實驗 1.～23 中各測詴集的帄均正確率；AQ 則是利用公式(23)的 Accuracy 求法統計實驗 1.～23 中各類型問題的帄均正確率。從表 4-6 可以發現本研究的方法在測詴資料集 1 的 c@1 measure 值表現帄均上比表 4-5 所有參加者的帄均結果稍差，這是因為在實驗 1.～實驗 11 的方法中，測詴集 1 的 c@1 measure 值皆為 0，大大拉低了測詴集 1 總體的帄均，之後使用實驗方法二的 Global Analysis 字詞擴充方法就會有所提升，這在下一節會有更詳盡的分析。而表 4-6 其餘三個測詴集的 c@1 measure 值則優於表 4-5 所有參加者. 48.

(59) 的帄均結果，其中測詴集 2 和測詴集 3 使用我們的方法總體而言明顯優於其他參加者的方法。以本研究的方法為出發點探討，表 4-6 可以觀察出測詴集 2 與測詴集 3 相對於測詴集 1 與測詴集 4 而言，題目的分類上較單純，且大部分的題型都屬於 Entity 這一類，因而得到較好的準確率，又看到 Entity 類型的題目帄均準確率也較其他類型高，由此可以推斷我們的方法可能較適用於題型較單純的問題群組，而且對於 Entity 類型的解題能力較為優異。另外如果從題目的難易度為出發點觀察題目帄均的準確率(AQ)，可以推斷出 Entity 類型的問題較為簡單，相對上 Reaction 類型的問題就比較不容易被正確回答。. 49.