應用摘要系統與資訊距離方法於生醫問答系統之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文指導教授：侯文娟博士應用摘要系統與資訊距離方法於生醫問答系統之研究 Applying Summarization System and Information Distance Method to Biomedical Question Answering System. 研究生：中華民國. 尚宗承. 一０三. 年. 撰六. 月.

(2) 摘要本論文以阿茲海默症為主題，探討生醫相關之問答系統。目的在於將摘要系統特性以及資訊距離方法運用在問答系統的研究上，希望藉由機器學習的能力以及現有的相關文獻與背景知識庫的支援，找出此類問題的正確答案。測試資料共包含四個與阿茲海默症相關的測試資料集，每個測試集包含一篇測試文章、10 個與該文章相關的測試問題，每個問題都有五個選項，問題題型皆為單選題。另外使用到背景知識庫，資料來源包含從 Pubmed Central 得到關於阿茲海默症的醫學文獻資料庫(Medical Literature Analysis and Retrieval System Online, Medline) 的文章，以及美國麻薩諸塞州的阿茲海默症研究中心 (Massachusetts Alzheimer’s Disease Research Center)所提供關於阿茲海默症的生物文章及摘要。在研究過程中根據不同的架構方法進行不同的研究，研究方法一為利用蔡秉翰於 2013 年所提出的生醫相關問答系統為基礎，結合摘要系統，對測試文章或背景知識庫做摘要，希望能夠藉由摘要系統的特性，將文章中重要的資訊擷取出來。而在研究方法二中的概念是認為問題與正確答案之間的資訊距離應小於問題與其他候選答案之間的資訊距離，因此將資訊距離方法針對 QA4MRE 的資料特性加以改良，並加入 TFIDF 計算方法及擴充詞語的技術。最後，分別對這兩種研究方法進行實驗。在研究方法一的實驗中發現，因為背景知識庫中的文獻與對應測試集的問題主題關聯性較低，代表文章中之資訊大多為不重要的資訊，所以若對背景知識庫做摘要，可以有效的將重要之資訊擷取出來。而在研究方法二的實驗中發現，對資訊距離方法而言，採取增加 Question I.

(3) Focus 數量的方式能夠有效的使準確率提升。經由實驗，本研究在探討將摘要系統與資訊距離方法應用於生醫問答系統的過程中發現，對背景知識庫中的文獻做摘要以及應用資訊距離的權重計算方法皆可以得到不錯的結果。. 關鍵字：資訊距離、摘要、答案驗證、機器閱讀問答系統評估、跨語言評估會議、字詞擴充. II.

(4) ABSTRACT The study takes Alzheimer’s disease as a subject to implement a biomedical question answering system. The purpose in the thesis is to employ both the properties of a summarization system and an information distance method to the question answering system. The machine learning techniques are also applied, attempting to find out a correct answer from the related literature and background knowledge. The test data is composed of four sets of test documents. Each set includes one document, ten questions and five answer options per question. For each question, there is only one correct answer from the multiple choices. The study also utilizes the background collections from the articles of Medical Literature Analysis and Retrieval System Online, called Medline, and Massachusetts Alzheimer’s Disease Research Center. In the thesis, several different approaches are adopted towards developing an effective question answering system. The first approach is related to methods used in the study of Hou and Tsai in 2014.In this study, the previous approach is extended using the summarization technique to obtain the important information. The second approach is related to the concept of the information distance. The thesis proposes that the information distance between the question and the corresponding correct answer must be smaller than the distances between the question and the other incorrect answers. Furthermore, the concept of the information distance is adapted to fit the characteristics of QA4MRE. Besides, two other techniques, TFIDF computation and the query expansion, are also used in the second approach. Finally, from the experiment of the first approach, it shows that the relevance between the literatures in background knowledge and the question in the test set is not III.

(5) high enough. We observe that, if we make a summary of literatures in background knowledge that may include too many noises among, we can effectively capture the important information needed. From the experiment by the second method, we observe that, if we increase the number of “Question Focus,” we can effectively improve the accuracy of the system. In summary, both summarization and information distance methods are applied to the biomedical question answering system in the study. The experiments show that summarizing the literatures in background knowledge and applying the information distance method can yield good results.. Keywords: Information distance, Summarization, Answer validation, QA4MRE, CLEF, Query expansion. IV.

(6) 僅獻給‧‧‧‧ 勇於不間斷求知的你，我，他⋅⋅⋅⋅⋅⋅. V.

(7) 誌謝. 本論文能夠順利完成，首先必須要感謝我的指導教授侯文娟老師，在這兩年碩士生涯中引領我進入自然語言處理的領域並指導我做研究。也要感謝同實驗室的同學及學長甚至不同實驗室或他校的同學，能夠在遇到困難瓶頸時相互幫助。特別值得一提的是蔡秉翰學長，為了可以順利承接學長之研究，在他服役期間仍將他少數空閒的時間拿來指導我，有了他的幫助使我在研究過程中更加順利。最後感謝我的家人及朋友，對我生活上的支持與陪伴，讓我對於學習更能充滿動力，也讓我度過愉快的碩士生涯。. VI.

(8) 目錄附表目錄 --------------------------------------------------------------------------------------- VIII 附圖目錄 ----------------------------------------------------------------------------------------- IX 第一章簡介 -------------------------------------------------------------------------------------- 1 第一節第二節第三節第四節. 研究動機 ----------------------------------------------------------------------------- 1 研究背景 ----------------------------------------------------------------------------- 2 研究目的 ----------------------------------------------------------------------------- 3 論文組織 ----------------------------------------------------------------------------- 4. 第二章相關研究探討 -------------------------------------------------------------------------- 5 第一節機器閱讀問答系統評估(QA4MRE)任務介紹 -------------------------------- 5 第二節文獻探討 ----------------------------------------------------------------------------- 5 第三章研究方法 ------------------------------------------------------------------------------- 12 第一節第二節第三節第四節. 緒論 ---------------------------------------------------------------------------------- 12 實驗資料 ---------------------------------------------------------------------------- 12 研究方法一介紹 ------------------------------------------------------------------- 14 研究方法二介紹 ------------------------------------------------------------------- 17. 第四章實驗與結果 ---------------------------------------------------------------------------- 29 第一節評估測量標準 ---------------------------------------------------------------------- 29 第二節實驗結果 ---------------------------------------------------------------------------- 30 第三節結果分析與討論 ------------------------------------------------------------------- 43 第五章結論與未來發展 ---------------------------------------------------------------------- 57 參考文獻 ------------------------------------------------------------------------------------------ 59 附錄 A --------------------------------------------------------------------------------------------- 63 附錄 B --------------------------------------------------------------------------------------------- 70 附錄 C --------------------------------------------------------------------------------------------- 93. VII.

(9) 附表目錄. 表 4-1 蔡秉翰之實驗結果總覽 --------------------------------------------------------------- 30 表 4-2 對測試文章做 60%摘要之結果總覽 ------------------------------------------------ 32 表 4-3 對測試文章做 70%摘要之結果總覽 ------------------------------------------------ 33 表 4-4 對測試文章做 80%摘要之結果總覽 ------------------------------------------------ 33 表 4-5 對測試文章做 90%摘要之結果總覽 ------------------------------------------------ 34 表 4-6 對背景知識庫做 60%摘要之結果總覽 --------------------------------------------- 35 表 4-7 對背景知識庫做 70%摘要之結果總覽 --------------------------------------------- 35 表 4-8 對背景知識庫做 80%摘要之結果總覽 --------------------------------------------- 36 表 4-9 對背景知識庫做 90%摘要之結果總覽 --------------------------------------------- 36 表 4-10 對測試文章及背景知識庫做 80%摘要之結果總覽 ---------------------------- 37 表 4-11 研究方法二之實驗結果總覽 -------------------------------------------------------- 38 表 4-12 Highest scores per team --------------------------------------------------------------- 40 表 4-13 參加團隊各實驗結果統計表-------------------------------------------------------- 41 表 4-14 各測試集實驗結果總覽 -------------------------------------------------------------- 42 表 4-15 各測試集 c@1 measure 的平均值 -------------------------------------------------- 43 表 4-16 對測試文章做摘要之結果比較----------------------------------------------------- 45 表 4-17 使用 SweSum 對測試文章做摘要之結果比較 ---------------------------------- 47 表 4-18 對背景知識庫做摘要之結果比較-------------------------------------------------- 50 表 4-19 對測試文章及背景知識庫皆個別做摘要之結果比較 ------------------------- 52 表 4-20 使用 MaxTF 與 All 的策略擷取 Candidate 之比較表 -------------------------- 52 表 4-21 使用 MaxTF、POS 或 All 的策略擷取 Question Focus 之比較表----------- 53 表 4-22 使用 TFIDF 篩選 Question Focus 之探討 ---------------------------------------- 54 表 4-23 使用 QE350 來增加 Question Focus 之探討 ------------------------------------- 54 表 4-24 資訊距離計算對象為 TestData 或 Background Data 之比較表 -------------- 55 表 4-25 使用 Min 與 Mean 的答案權重計算方法之比較表 ---------------------------- 55 表 4-26 資訊距離方法未使用背景知識庫之實驗結果 ---------------------------------- 56 表 4-27 蔡秉翰研究方法中未使用背景知識庫之實驗結果 ---------------------------- 56. VIII.

(10) 附圖目錄. 圖 2-1 詞語擴充範例(Yahoo 搜尋引擎)------------------------------------------------------ 8 圖 3-1 研究方法一之主系統架構圖 --------------------------------------------------------- 14 圖 3-2 蔡秉翰研究方法 A 主系統結合 LexRank 自動摘要系統後之架構圖 ------- 15 圖 3-3 蔡秉翰研究方法 B 主系統結合 LexRank 自動摘要系統後之架構圖 -------- 16 圖 3-4 研究方法二之主系統架構圖 --------------------------------------------------------- 18 圖 4-1 研究方法二之實驗結果直條圖 ------------------------------------------------------ 39 圖 4-2 對測試文章做摘要之 c@1 平均值 -------------------------------------------------- 43 圖 4-3 使用 SweSum 對測試文章做摘要之 c@1 平均值-------------------------------- 46 圖 4-4LexRank 與 SweSun 之 c@1 平均值比較 ------------------------------------------ 48 圖 4-5 對背景知識庫做摘要之 c@1 平均值 ----------------------------------------------- 49 圖 4-6 對測試文章或背景知識庫做摘要之 c@1 平均值 -------------------------------- 51. IX.

(11) 第一章簡介. 第一節. 研究動機. 阿茲海默症1(Alzheimer's disease, AD)，俗稱老年癡呆症，會使得病患漸漸忘卻過去中熟悉的記憶，變得如同兒童般的笨拙。隨著現代人的壽命越來越長以及人口老化快速成長，人們對於身心的健康越來越重視，美國已有超過 500 萬人患有阿茲海默症且 65 歲以上的美國人口的比例不斷增加，患阿茲海默症的美國人數將每年增長，阿茲海默症會隨時間而惡化，最終會導致死亡。受影響的不僅僅是阿茲海默症患者，他們的照護者也會受到影響。阿茲海默症已被認為是一種對於社會大眾造成主要健康問題的疾病，也成為近年來各個國家都非常重視的研究議題。近年來，許多國家政府持續的投入心力、資金於阿茲海默症病患的照顧以及該症狀的相關研究，很多領域也從不同的層面探討這個議題，而資訊領域憑藉其電腦對於巨量資訊的快速運算及龐大儲存空間的能力，對此議題進行各項整合與分析，如疾病與基因的關聯度、生物文章摘要等。問答系統(Question Answering, QA)是機器與人類語言中最直接的關係，讓人類能夠用最簡單的方式取得想要的資訊，也是在自然語言處理中非常熱門的技術。因此，本研究利用問答系統之技術，應用於阿茲海默症的領域中，使阿茲海默症的相關使用者(如醫生、病人)因此而受益，能夠使用簡單的方式來了解與阿茲海默症相關的資訊。. 1. http://www.alz.org/asian/about/what_is_alzheimers.asp?nL=ZH&dL=ZH 1.

(12) 第二節. 研究背景. (一) 問答系統(Question Answering, QA) 近年來搜索引擎為大眾所習慣使用的查詢方式，如 Google 搜索引擎2、Yahoo 奇摩搜索引擎3等等，但這種查詢方式會產生大量的回傳資料，使用者必須自行找出有興趣或是正確的資料，對於某些使用者來說反而不利於使用，例如老人、幼兒、不懂或不熟悉電腦操作的人，因此問答系統以自然語言的方式進行問題輸入，並以較簡潔的答案回答，較合適這些使用者。問答系統的提問方式是一種口語化的問句，也就是自然語言型態的問句，使用者不必思考需要以什麼樣的特定格式發問才能得到最好的回答，例如輸入「請問誰是台灣總統？」做為問句，而問答系統分析問句後能夠直接回答「XXX 是台灣總統」，因此使用者不必一一的檢視搜索引擎回傳的網頁，更不必在資訊量龐大的網頁中尋找自己需要的答案。目前也有搜尋引擎結合問答系統讓搜尋結果更明確，例如 Ask Jeeves4就能夠以口語方式提問，得到直接答案與相關搜尋並列的結果。現今許多智慧型手機中也同時內建智慧型語音問答系統，如蘋果公司 iPhone 手機中著名的 Siri 助手，使用者只需要以口語化的方式下達指令，就能夠自動傳遞訊息、撥打電話等，不僅帶給一般使用者更多的方便性，對於相關殘障人士更能利於他們操作手機。2011 年，IBM 的華森(Watson)系統更挑戰了綜藝問答節目「危險邊緣」(Jeopardy) (Wren, 2011)，這是有史以來綜藝問答節目中機器與人類的對決，而華森也在最後一集中. 2. http://www.google.com http://tw.yahoo.com 4 http://www.ask.com 3. 2.

(13) 打敗了其他衛冕者，呈現其優秀的知識處理能力。由此可見，問答系統是現今蓬勃發展且被高度關注的技術。. (二) 摘要系統(Summarization System) 摘要系統是產生一個言簡意賅的文件描述之應用科技，雖然它的內容相較於文件本身明顯較短，但卻能夠讓人一目瞭然。在生醫領域中，閱讀生醫文獻已經被證明對於健康專家(如醫生)和消費者(如病人)是有益的，然而，大量的文獻會不利於獲取正確資訊的方便性，而摘要系統可以協助管理這些大量的資訊，讓人們花費更短的時間得到有用的資訊。除此之外，研究學者也可以利用摘要系統更快速的決定文章是否為他們所感興趣的，而不必去閱讀整篇文件；醫生可以使用摘要來辨別治療的方案、縮短診斷的時間。由此可見，摘要系統不但能減少使用者閱讀文章的時間，也能夠提高使用者在閱讀文章上理解的能力。摘要系統產出的摘要類型，可以是經過自然語言處理 (Natural Language Processing)所產出的重述文字，也可以是原始文件的摘錄內容。前者便是所謂的概述摘要(abstract)，而後者則直接從原始文件中節錄出足以代表該文件的語句與段落片段(extract)。. 第三節. 研究目的. 近年來有許多問答系統相關研究，相關研究技術包括答案驗證方法(Pakray et al., 2011)、資訊檢索方法(Bhattacharya and Toldo, 2012)、指代語的決定方法 (Bhaskar et al., 2012; Pakray et al., 2011)，以及語彙鍊方法(Cao et al., 2011)等，而 3.

(14) 在蔡秉翰(2013)的研究中則利用答案驗證方法及詞語擴充方法(Qiu and Frei, 1993) 應用於阿茲海默症相關問答系統中。在本研究中，每個關於阿茲海默症的測試資料集都包含一篇測試文章，及 10 個關於該文章的測試問題，而每個問題包含 5 個答案選項。實驗內容為藉由讀取一篇測試文章來回答測試資料中的問題，另外可以挑選適合的文獻資料庫做為背景知識的來源，而問題回答是以單選題的方式進行，每個問題都只有一個正確答案。在本論文中，針對阿茲海默症領域進行將摘要系統特性以及資訊距離方法利用在問答系統技術的研究探討，希望能藉由機器的能力及現有的相關文獻與背景知識庫選出此類問題的正確答案。. 第四節. 論文組織. 本論文的組織架構如下，第一章為簡介，說明研究動機、背景與目的；第二章為相關研究的探討，介紹該領域相關的文獻；第三章則是提出本次研究的兩個主要架構，並詳細說明所提出的研究方法；第四章為實驗過程與實驗結果；第五章將會說明本論文的結論以及未來的發展方向。. 4.

(15) 第二章. 相關研究探討. 本章將探討與整理本論文參考的相關文獻以及實驗相關任務。. 第一節. 機器閱讀問答系統評估(QA4MRE)任務介紹. 機器閱讀問答系統評估(Question Answering for Machine Reading Evaluation, QA4MRE)5是由跨語言評估會議(Cross-Language Evaluation Forum, CLEF)6所舉辦的一項機器評估測試。CLEF 每年定期在資訊檢索範疇舉辦學術研究會議，並且特別提供各種語言的研究資料來源，進行跨語言的研究，主要經由實驗並制定評估標準以便評量各種議題，並分享全世界參與學術會議者的成果。其中 QA4MRE 是相當熱門的研究項目，其下細分成了許多不同領域討論，每個領域都提供不同語言的測試資料以供實驗，宗旨在於讀取一篇測試文章以便回答測試資料中的問題，另外可以挑選合適的文獻資料庫做為背景知識的來源，而問題回答則是以單選題的方式進行，每個問題包含五個選項，最後再進行實驗成果的評估。. 第二節. 文獻探討. (一) 以詞彙為基礎(phrase-based)的方法由於網路的蓬勃發展以及 Questions and Answers (Q&A)的流行，以社群為基. 5. http://nlp.uned.es/clef-qa/ http://www.clef2013.org/. 6. 5.

(16) 礎的 Q&A 變得越來越重要，但常常 Q&A 中的文章與查詢的問題雖然概念意義上相同，卻鮮少出現一模一樣的字之情況，學者 Zhou 等人(2011)的論文主要探討此問題，希望以詞彙做為基礎，將問答集中的文章轉換為查詢的問題。以詞彙為基礎的好處在於更能擷取出正確的意義，例如：“stuffy nose”代表感冒流鼻水，然而兩個字分開看卻無法看出其義，當視為詞彙時，就可以輕易的了解“catch a cold” 與“stuffy nose”是具有相近意義的詞彙。. (二) 詞彙特徵排名演算法(LexRank) LexRank 是一個以圖形為基礎的演算方法(Erkan and Radev,2011)，可將其概念應用在自動摘要上，該作者先對所有文件建造一個圖，圖上的點表示文件中的句子，圖上的邊表示句子和句子之間重複的程度，因此可以利用重複出現的詞彙來計算句子與句子之間的相似性。所以若有一個句子非常重要，則和這個句子相似性接近的句子也會很重要，最後再依照句子的重要程度進行排序就可得到自動摘要之結果。. (三) 柯氏複雜性(Kolmogorov complexity) 一段文字的柯氏複雜性是衡量描述一個對象所需要的訊息量的一個尺度(Li and Vitanyi, 2008)，以下面兩個長度為 64 的字串為例： abcdabcdabcdabcdabcdabcdabcdabcdabcdabcdabcdabcdabcdabcdabcdabcd 4c1j5b2p0cv4w1y8rx3y37umgw5q95s7traquuxdpaa2q7nieieqe9nac4cvafzf. 第一個字串可以用中文簡短的描述為「重複 16 次 abcd」，而第二個字串則 6.

(17) 沒有明顯簡短的描述，因此一個字串 s 的柯氏複雜性 K(s)表示這個字串中的最短描述之長度。. (四) 使用資訊距離(information distance)之答案驗證方法以柯氏複雜性的理論為基礎，Li 等人於 2008 年提出利用資訊距離計算答案是否正確的方法，他們認為問題與正確答案之間的距離應小於問題與其他候選答案之距離，因此提出利用資訊距離的方法來計算問題和答案之間的相似程度，如以下公式(1)所示：. 𝑑𝑚𝑖𝑛 (𝑥, 𝑦|𝑐) =. log 𝑓(𝑐(𝑥,𝑦))−min{log 𝑓(𝑐(𝑥,∅)),log 𝑓(𝑐(∅,𝑦))} max{log 𝑓(𝑐(𝑥,∅)),log 𝑓(𝑐(∅,𝑦))}−log 𝑓(𝑐(∅,∅)). (1). 其中 x 表示候選答案(Candidate)，y 表示問題重點(Question Focus)，c 表示條件樣式(Condition Pattern)。例如問題為「What city is Lake Washington by?」，則 x 表示 Seattle, Bellevue, Kirkland…等等(在條件樣式中以<c>標示 x 的樣式)，y 表示 Lake Washington (在條件樣式中以<f>標示 y 的樣式)，c 表示“<c> is by <f>” (例如： Seattle is by Lake Washington)、“<c>”“is by <f>” (例如：Seattle is a city which is by Lake Washington)...等等。假設 Condition Pattern 為“<c> is by <f>”，Question Focus 為 Lake Washington， Candidate 為 Seattle，則𝑓(𝑐(𝑥, ∅))表示“Seattle is by”於 Google 或 Yahoo 搜索引擎中檢索符合的頁面，𝑓(𝑐(∅, 𝑦))表示“is by Lake Washington”於搜索引擎中檢索符合的頁面，𝑓(𝑐(𝑥, 𝑦))表示“Seattle is by Lake Washington”於搜索引擎中檢索符合的頁面，以及𝑓(𝑐(∅, ∅))表示所有在搜索引擎中檢索到的頁面。 7.

(18) (五) 詞語擴充(query expansion) 詞語擴充指的是使用者增加額外的 query words 或 phrases 到初始查詢上做為輸入，重新計算 query term 對應的權重值(Manning et al., 2008)。例如，一些搜索引擎會在使用者的 query 結果中，建議一些相關的 queries，讓使用者可以選擇其中一個作為代替，使查詢結果能更符合使用者的期望，如圖 2-1 所示：. 圖 2-1 詞語擴充範例(Yahoo 搜尋引擎) 在詞語擴充技術中，最普遍的方法為 Global Analysis，在 Global Analysis 中基本的想法是利用 term 在全部資料中的出現與關聯來做統計計算，如對於每個在 query 中的 term t，query 可以自動的擴充一些同義字或與 t 相關的字等。. (六) QA4MRE 之相關文獻介紹近年來有許多問答系統相關研究者參加上述 QA4MRE 任務，相關研究技術 8.

(19) 包括答案驗證方法(Pakray et al., 2011)、資訊檢索方法(Bhattacharya and Toldo, 2012)以及以答案驗證方法為基礎之生醫相關問答系統之研究(蔡秉翰, 2013)等等，分別簡介如下：. 1.. 答案驗證(answer validation)方法在 Bhaskar 等人(2012)及 Pakray 等人(2011)參加 QA4MRE 的任務中，作者以. 答案驗證的方式進行實驗。答案驗證是將問題與該問題對應的選項預先結合產生出假設，例如有一個問題為： Where is the U.S. nuclear waste repository located? (a) at Oklo (b) in Morsleben (c) in New Mexico (d) in a suitable geological formation (e) in Nevada Pakray 將其處理成以下五個假設： H_1:the U.S. nuclear waste repository located at Oklo H_2:the U.S. nuclear waste repository located in Morsleben H_3:the U.S. nuclear waste repository located in New Mexico H_4:the U.S. nuclear waste repository located in a suitable geological formation H_5:the U.S. nuclear waste repository located in Nevada. 接著使用問題與答案中的字擷取文章中相關的句子，因此就可以產生出許多對相關句子與假設的配對，對於每個配對給予評分，最後加總每個假設所得到的分數，最高分者即為該問題的答案。 9.

(20) 2.. 資訊檢索(information retrieval)方法在 Bhattacharya 和 Toldo (2012)參加 QA4MRE 的任務中，作者發展許多種資. 訊檢索的策略運用於該任務，如下所述： (1) 將前處理過的問題使用 Indri's default language model (Strohman et al., 2005)於測試文章中檢索出候選的句子，並只取出前五句相關的句子，接著將前處理過的答案選項使用 Indri's default language model 於此五個句子中做檢索，檢索次數最多者即為正確答案。 (2) 將策略(1)中之 Indri's default language model 改為 tfidf retrieval model，其餘策略相同。 (3) 將策略(1)中只取出前五句相關的句子改為無限制句子數量，以及於答案檢索階段改為使用 tfidf retrieval model 做檢索，其餘策略相同。 (4) 將策略(3)中選擇答案的方式改為使用 tfidf 檢索分數最高者為正確答案，其餘策略相同。 (5) 將策略(2)中選擇答案的方式改為使用 tfidf 檢索分數最高者為正確答案，其餘策略相同。 (6) 將問題與該問題對應的選項預先結合產生出假設，因此每個問題會產生 5 個假設用於檢索策略中，並且限制只取出檢索分數最高的句子，而此句所對應的假設即為正確答案。 (7) 結合策略(1)至(5)，使用多數決的投票方式來決定正確答案為何，因此策略(1)至(5)的輸出答案中出現最多次者為此策略之答案。. 10.

(21) 3.. 以答案驗證方法為基礎之生醫相關問答系統在蔡秉翰等人(Hou and Tsai, 2014)參加 QA4MRE 的任務中，作者發展兩個研究方法之生醫相關問答系統，分別為研究方法一及研究方法二之問答系統，簡介如下： (1) 研究方法一之問答系統首先從 QA4MRE 的測試資料中區分出測試文章 (documents)、問題 (questions)和答案選項(answers)。此研究方法大致分為五個步驟，分別為 (一)前處理、(二) Query word 相關語句擷取、(三) Query word 權重給予、 (四)相關語句權重給予、(五)答案選擇方法，此外還加入了詞語擴充方法 (query expansion)，利用背景知識庫針對每個測試問題加入對應的擴充詞語。 (2) 研究方法二之問答系統首先從 QA4MRE 的測試資料中區分出測試文章 (documents)、問題 (questions)和答案選項(answers)。此研究方法大致分為五個步驟，分別為 ( 一 ) 前處理、 ( 二 ) Hypothesis words/phrases 產生、 ( 三 ) Hypothesis words/phrases 權重給予、(四)相關語句權重給予、(五)Hypothesis 配分與答案選擇方法，此外還加入了詞語擴充方法，利用背景知識庫針對每個測試問題加入對應的擴充詞語。. 11.

(22) 第三章研究方法. 第一節. 緒論. 本研究以探討將摘要系統之特性運用於問答系統，以及將資訊距離方法運用於問答系統為主要目標，在研究過程中根據不同的架構方法進行不同的實驗，研究方法一為利用蔡秉翰(2013)所提出的生醫相關問答系統為基礎，結合摘要系統，對測試文章或背景知識庫做摘要。而在研究方法二中將 Li 等人在 2008 年提出的資訊距離方法針對 QA4MRE 的資料特性進行改良，並加入了 TFIDF 計算方法及擴充詞語。以下章節先介紹本研究所使用的實驗資料，再對上述兩種方法做詳細的介紹，分為第二節實驗資料、第三節研究方法一介紹、第四節研究方法二介紹。. 第二節. 實驗資料. 本研究使用 QA4MRE pilot task - machine reading of biomedical texts about Alzheimer’s Disease at CLEF2012 所提供的實驗資料為依據，其中包含背景知識庫以及測試資料，以及使用蔡秉翰(2013)所提出的問答系統之相關資料做為本研究之實驗資料。. (一) 背景知識庫包含三類背景知識庫來源，以下是這三類知識庫文獻的介紹：. 12.

(23) Open Access Full Articles PMC：總共 7512 篇由 Pubmed Central Open Access. 1.. 所提供的生物文章全文，這些文章原本為 PDF 格式，在這裡使用了 LA-PDFText (Ramakrishnan, 2012)這個工具轉換為文字檔格式儲存7。 Open Access Full Articles PMC, Smaller Collection：總共 1041 篇由 Pubmed. 2.. Central 所提供的文章全文，此處特別以阿茲海默症為關鍵字搜尋相關文章，將 HTML 格式存為文字檔。 3.. Elsevier Full Articles：總共 379 篇全文文章，以及 103 篇文章摘要，這些文章是由美國麻薩諸塞州的阿茲海默症研究中心(Massachusetts Alzheimer’s Disease Research Center)的教授提姆克拉克(Tim Clark)所整理提供，格式為文字檔。. (二) 測試資料 QA4MRE pilot task machine reading of biomedical texts about Alzheimer’s Disease at CLEF2012 所提供的測試資料共有四個關於阿茲海默症的測試資料集，每個測試集包含一篇文章、10 個測試問題，測試集中的文章與對應測試集的問題主題關聯性較大。問題答案皆為單選題，其中每個問題有五個選項供選擇，因此一個測試集共有 50 個選項。整個測試集則總共有 40 個問題，以及 200 個答案選項。. (三) 蔡秉翰所提出的問答系統之相關資料. 7. http://code.google.com/p/lapdftext/ 13.

(24) 蔡秉翰在 2013 年提出兩個研究方法之問答系統，分別為研究方法一之問答系統及研究方法二之問答系統，本研究利用這兩個系統做為研究方法一之基礎，以及利用擴充詞語做為實驗方法二中之相關資料。. 第三節. 研究方法一介紹. 本研究方法利用蔡秉翰(2013)所提出的生醫相關問答系統為基礎，該問答系統中共有兩個研究方法，在此我們將這兩種研究方法分別稱為蔡秉翰研究方法 A 主系統及蔡秉翰研究方法 B 主系統，並與 LexRank 自動摘要系統結合為本研究方法之主要概念。研究方法一之主系統架構圖如圖 3-1 所示：. 圖 3-1 研究方法一之主系統架構圖. 蔡秉翰研究方法 A 主系統結合 LexRank 自動摘要系統後之架構圖如圖 3-2 所示，蔡秉翰研究方法 B 主系統結合 LexRank 自動摘要系統後之架構圖如圖 3-3 所示。圖 3-2 與圖 3-3 中橘黃色圖形為蔡秉翰(2013)研究方法本身架構中的圖形，紅色圖形為結合 LexRank 自動摘要系統後所新增至其架構中之圖形。 14.

(25) 圖 3-2 蔡秉翰研究方法 A 主系統結合 LexRank 自動摘要系統後之架構圖 15.

(26) 圖 3-3 蔡秉翰研究方法 B 主系統結合 LexRank 自動摘要系統後之架構圖. 16.

(27) 如圖 3-1 所示，利用蔡秉翰(2013)提出的兩個研究方法為基礎，結合 LexRank 自動摘要系統為本研究方法之主要架構。研究策略共有三種，如下所述：策略1.. 利用 LexRank 自動摘要系統將測試資料中的測試文章做摘要，再將此摘要過後的測試文章做為蔡秉翰研究方法中輸入的測試文章。. 策略2.. 利用 LexRank 自動摘要系統將背景知識庫中的 9034 篇文獻個別做摘要，再將此個別摘要過後的 9034 篇文獻做為蔡秉翰研究方法中輸入的背景知識庫。. 策略3.. 利用 LexRank 自動摘要系統將測試資料中的測試文章以及背景知識庫中的 9034 篇文獻皆個別做摘要，再將此摘要過後的文章做為蔡秉翰研究方法的輸入測試文章及背景知識庫。. 第四節. 研究方法二介紹. 研究方法二之主系統架構圖如圖 3-4 所示：. 17.

(28) 圖 3-4 研究方法二之主系統架構圖 18.

(29) 如圖 3-4 所示，因為 QA4MRE 的測試資料為 XML 的格式，因此我們先將一些不需要的格式去除轉成文字檔，並且從中區分出測試文章(Documents)、問題 (Questions)及答案選項(Answers)。本研究方法的概念是認為問題與正確答案之間的資訊距離應小於問題與其他候選答案之間的資訊距離，因此本研究利用 Li 等人 (2008)提出的資訊距離方法為基礎，針對 QA4MRE 的資料特性將方法改良，並加入了 TF-IDF 之權重計算方法及擴充詞語。研究方法大致分為 5 個步驟，將在以下各小節中一一詳細討論，分別為：(一) 前處理、(二) Question Focus 及 Candidate 的擷取、(三) Question Focus 及 Candidate 出現次數的計算、(四)資訊距離的權重計算、(五)答案選擇方法。. (一). 前處理將 QA4MRE 的測試資料分成 Documents、Questions 及 Answers 三個部分後，. 若要實際使用它們則必須做一些前置處理，以去除檢索時的一些雜訊，避免影響實驗結果。 1.. 大寫轉小寫 Documents、Questions 及 Answers 三個部分的測試資料都將大寫字一併轉為. 小寫。 2.. Stopword 去除本論文的 Stopword List 是使用一個 English Stopword 的網站8所列的 Stop. words，在 Questions 和 Answers 這兩個部分進行 Stopwords 的去除。例如：do、. 8. http://www.lextek.com/manuals/onix/stopwords1.html 19.

(30) by、can、the…等等即為 Stopwords。 3.. 標點符號去除針對 Questions 及 Answers 這兩個部份的標點符號都做去除的處理。例如：. “http://wt.jrc.it/”或者“doug@nutch.org”標點去除後分別為“http wt jrc it”與“doug nutch org”。 4.. Part-of-speech tagging 使用 GDep parser9處理 QA4MRE 測試資料分出的 Questions 部分以得到問題. 中每個字的詞性標記結果。 5.. Stemming Standard Porter stemming algorithm (Porter, 1980) 10 是本論文用來進行. stemming 的演算方法，其使用在所有測試資料，包含 Documents、Questions 以及 Answers 三個部分。 Documents、Questions 及 Answers 三個部分的測試資料經過上述前處理後，分別稱做 Stemmed Documents 、Question words 與 Answer words 。Stemmed Documents 表示測試文章經過 Stem 處理後之結果，Question words 與 Answer words 表示 Questions 與 Answers 經過前處理後剩餘的字。. (二) Question Focus 及 Candidate 的擷取得到 Question words 與 Answer words 後，希望從中挑選出對於該問題真正重. 9. http://people.ict.usc.edu/~sagae/parser/gdep/index.html http://tartarus.org/martin/PorterStemmer/ 20. 10.

(31) 要的字，策略如下：策略1.. 為了決定每個 Question words 及 Answer words 在對應之測試文章中的重要程度，我們需要給予權重值，本策略使用 Term Frequency 的方法進行計算。Term Frequency 的計算方法為統計每個 Question word 及 Answer word 在測試文章中出現的次數，並依照權重值挑選出所需的字，從 Question words 中挑選出來的字在本研究方法稱為 Question Focus，從 Answer words 中挑選出來的字稱為 Candidate。. 策略2.. 從賦有詞性標記的 Question words 中，挑選出詞性為 NN、NNS、NNP、 NNPS 者，其中 NN 表示名詞(單數或不可數)，NNS 表示名詞複數，NNP 表示專有名詞(單數)，NNPS 表示專有名詞(複數)。為了決定每個藉由詞性標記所挑選出的 Question word 在該問題中的重要程度，我們需要給予權重值，本策略使用蔡秉翰(2013)提出之 TF-IDF 方法給予每個字的權重值。. . TF Weighting，公式如下公式(2)：. TFQi  1 . fQi. (2). max fQi Qi. 上式中 TFQi 是 Qi (Question word)的詞頻。 f Qi 表示 Qi 在測試文章中出現的次數。為了讓每個字都具有權重值，所以實驗中我們假設每個 Question word 的字都擁有基礎的權重值為 1，另外再以測試文章中出現的次數來區別每個 Question word 的重要性。 . IDF Weighting，公式如下公式(3)：. 21.

(32)  N  log 2 nQi   IDFQi   0.1    0 . if nQi  0 if nQi  0 and f Qi  0. (3). otherwise. 上式 IDFQi 是 Qi (Question word)的逆向文件頻率。N 表示背景知識庫的文章總數， nQ i 代表 Qi 出現在背景知識庫中的文章數。 f Qi 代表測試文章中出現 Qi 的次數。當背景知識庫中沒有出現 Qi 時，我們不能直接忽略它的重要性使 IDFQi 的值為 0，因此，當 nQ i 是 0 的時候再判斷 Qi 是不是存在於測試文章中，如果有則將 IDFQi 權重值調整為 0.1。 . TF  IDF ，公式如下公式(4)： TF  IDFQi  TFQi  IDFQi. (4). 本權重為同時考量詞頻與逆向文件頻率的重要性。透過 TF  IDF 方法給予每個字權重值後，再依照權重值挑選出所需的字稱為 Question Focus。策略3.. 在蔡秉翰(2013)所提出之詞語擴充方法中，利用背景知識庫針對每個測式問題加入對應的擴充詞語。本策略利用其擴充結果，加入每個問題所對應之擴充詞語，並判斷每個擴充詞語在測試文章中之出現次數是否為 0，若為 0 則移除該詞語，而加入的每個擴充詞語在本研究方法中稱做 Question Focus。. (三) Question Focus 及 Candidate 出現次數的計算 22.

(33) 為了下個步驟的需要，必須在測試文章中計算以下三個部分之出現次數，分別為(一)共有多少句子包含 Question Focus，(二)共有多少句子包含 Candidate，(三) 共有多少句子同時包含 Question Focus 及 Candidate。. (四) 資訊距離的權重計算 Li 等人於 2008 年提出資訊距離方法，如果完全依其方法套用，我們發覺不適合使用於 QA4MRE 之測試資料，說明如下：若依照文獻探討中探討該方法所述，利用 Condition Pattern 在測試文章中檢索，明顯不容易找出對應之結果，舉例如下：  Question：Which of the two CLU isoforms is the main one expressed in the choroid plexus?  Answers： (a) fetal tissue (b) CLU1 (c) clusterin (d) CLU2 (e) cerebrospinal fluid  Question Focus：the main one expressed in the choroid plexus  Candidate： (a) fetal tissue (b) CLU1 23.

(34) (c) clusterin (d) CLU2 (e) cerebrospinal fluid  Condition Pattern：<c> is <f> 以選項(d) CLU2 為例，則𝑓(𝑐(𝑥, ∅))、𝑓(𝑐(∅, 𝑦))、𝑓(𝑐(𝑥, 𝑦))及𝑓(𝑐(∅, ∅))之表示分別如下：  𝑓(𝑐(𝑥, ∅))表示在測試文章中共有多少句子包含“CLU2 is”，其結果為 3 句。  𝑓(𝑐(∅, 𝑦))表示在測試文章中共有多少句子包含“is the main one expressed in the choroid plexus”，其結果為 0 句。  𝑓(𝑐(𝑥, 𝑦)) 表示在測試文章中共有多少句子包含 “CLU2 is the main one. expressed in the choroid plexus”，其結果為 0 句。  𝑓(𝑐(∅, ∅))表示在測試文章中共有多少句子曾被檢索，其結果為 3 句。將上述𝑓(𝑐(𝑥, ∅))、𝑓(𝑐(∅, 𝑦))、𝑓(𝑐(𝑥, 𝑦))及𝑓(𝑐(∅, ∅))之統計結果帶入公式中可明顯看出此方法不適合使用於 QA4MRE 之測試資料中。因此，本研究利用 Li 等人(2008)提出的資訊距離方法為基礎，並針對 QA4MRE 的資料特性將方法改良，改良的主要概念為移除 Condition Pattern 之項目，其公式(5)如下：. 𝑑𝑚𝑖𝑛 (𝑥, 𝑦) =. log 𝑓(𝑥,𝑦)−min{log 𝑓(𝑥,∅),log 𝑓(∅,𝑦)} max{log 𝑓(𝑥,∅),log 𝑓(∅,𝑦)}−log 𝑓(∅,∅). (5). 其中 x 表示候選答案(Candidate)，y 表示問題重點(Question Focus)。若 log 𝑓(𝑥, ∅)或log 𝑓(∅, 𝑦)為 0，表示 Question Focus 或 Candidate 在文章中未曾出現，表示兩者間的資訊距離很遠，因此將不計算這種情況的資訊距離。 24.

(35) 以上述相同問題為例：  Question：Which of the two CLU isoforms is the main one expressed in the choroid plexus?  Answers： (a) fetal tissue (b) CLU1 (c) clusterin (d) CLU2 (e) cerebrospinal fluid Question 及 Answers 經過前處理後所產出之 Question words 及 Answer words 如下所示：  Question words：clu、isoform、main、express、choroid、plexu  Answer words： (a) fetal、tissue (b) clu1 (c) clusterin (d) clu2 (e) cerebrospin、fluid 利用小節(二)所述之策略 1 的擷取方法在 Question words 及 Answer words 中挑選出 Term Frequency 最高者做為 Question Focus 及 Candidate，如下所示：. 25.

(36)  Question Focus：clu  Candidate： (a) tissue (b) clu1 (c) clusterin (d) clu2 (e) cerebrospin 以選項(d) clu2 為例，則改良過後的𝑓(𝑥, ∅)、𝑓(∅, 𝑦)、𝑓(𝑥, 𝑦)及𝑓(∅, ∅)之表示分別如下：  𝑓(𝑥, ∅)表示在測試文章中共有多少句子包含“clu2”，其結果為 77 句。  𝑓(∅, 𝑦)表示在測試文章中共有多少句子包含“clu”，其結果為 55 句。  𝑓(𝑥, 𝑦)表示在測試文章中共有多少句子同時包含“clu2”及“clu”，其結果為 16. 句。  𝑓(∅, ∅)表示在測試文章中共有多少句子曾被檢索，其結果為 116 句。有了以上結果後，將其代入改良後的公式(5)中，如下所示：. 𝑑𝑚𝑖𝑛 (𝑥, 𝑦) =. log 𝑓 (𝑥, 𝑦) − min{log 𝑓(𝑥, ∅), log 𝑓(∅, 𝑦)} log16 − log55 = max{log 𝑓(𝑥, ∅), log 𝑓(∅, 𝑦)} − log 𝑓(∅, ∅) log77 − log116. = 3.01315 因此(d)選項之資訊距離的權重計算結果即為 3.01315，(a)、(b)、(c)及(e)選項分別使用上述方法的權重計算結果為(a)10.7256、(b)3.21853、(c)3.14024、 (e)19.4061。 26.

(37) (五) 答案選擇方法因為 Question Focus 及 Candidate 擷取策略的不同，會影響 Question Focus 及每個選項中 Candidate 的數量。如小節(四)中之範例，若利用小節(二)所述之策略 1 的擷取方法在 Question words 及 Answer words 中挑選出 Term Frequency 最高者做為 Question Focus 及 Candidate，則 Question Focus 為“clu”，各選項中之 Candidate 分別為(a) tissue、(b) clu1、(c) clusterin、(d) clu2 及(e) cerebrospin，Question Focus 及每個選項中 Candidate 的數量皆為 1 個，但若利用小節(二)所述之策略 2 的擷取方法，將所有前處理後且 Term Frequency 大於 0 的 Question words 及 Answer words 皆挑選為 Question Focus 及 Candidate，則 Question Focus 分別為 clu、isoform、 main、express、choroid 及 plexu，各選項中之 Candidate 分別為(a) fetal、tissue、 (b) clu1、(c) clusterin、(d) clu2 及(e) cerebrospin、fluid，Question Focus 及每個選項中 Candidate 的數量可能大於 1 個，因此在(a)及(e)選項中會計算出 12 個資訊距離之權重，(b)、(c)及(d)選項皆為 6 個，原因如下：以(d)選項為例，6 個 Question Focus 與 1 個 Candidate 之配對共有6 × 1種，分別為： (clu, clu2) (isoform, clu2) (main, clu2) (express, clu2) (choroid, clu2) (plexu, clu2) 6 種配對皆各別計算出對應之資訊距離權重值，分別為： 27.

(38) (clu, clu2)為 3.01315 (isoform, clu2)為 4.30339 (main, clu2)為 0 (express, clu2)為 2.56898 (choroid, clu2)為 17.2934 (plexu, clu2)為 17.2934 決定選項之權重值可由兩個策略來決定，如下所示：策略1.. 選擇資訊距離之權重值最小者做為該選項之權重值。. 策略2.. 計算資訊距離權重值之算術平均數。. 若選擇策略 1，則該選項之權重值為 0，若選擇策略 2，則該選項之權重值為 7.41205。最後，算出各選項之權重值，選擇最小者為該問題之答案。. 28.

(39) 第四章實驗與結果. 本章將呈現使用研究方法一及研究方法二之實驗結果。以下章節先介紹本研究所使用的評估測量標準，再呈現兩個研究方法之實驗介紹、實驗結果及結果分析與討論。分為第一節評估測量標準、第二節實驗結果及第三節結果分析與討論。. 第一節. 評估測量標準. 本研究使用跨語言評估會議(Cross-Language Evaluation Forum, CLEF)於機器閱讀問答系統評估(QA4MRE)中所使用的評量標準 c@1 measure 來評估實驗結果，其公式如下公式(6)：. c @1 . (n R  nU. nR ) n. (6). n. 其中 nR 代表正確回答的問題數， nU 代表未給予回答的問題數，n 是總共的問題數。這個評估標準認為在機器閱讀問答系統中針對問題所不確定的答案不應該隨意給予回答，因此不同於一般所使用準確率評估方式，c@1 measure 對於未回答部分稍有加分，而一般在自然語言領域中所使用的準確率評估如公式(7)。 accuracy =. 𝑛𝑅. (7). 𝑛. 其中 nR 與 n 定義同公式(6)。 29.

(40) 第二節. 實驗結果. (一) 研究方法一接著介紹研究方法一之實驗結果，表 4-1 為蔡秉翰(2013)提出之實驗結果。. 表 4-1 蔡秉翰之實驗結果總覽 ID 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.. Experiment Name TF TFIDF OMIM(1)+TF OMIM(1)+TFIDF TF+PF TFIDF+PF OMIM(1)+TF+PF OMIM(1)+TFIDF+PF Top4+TF Top4+TFIDF Hypothesis Words+TF Hypothesis Words+TFIDF Top4+Hypothesis Words+TF Top4+Hypothesis Words+TFIDF Top5+Hypothesis Words+TFIDF Top5+Hypothesis Words+TFIDF+PF OMIM(1)+Top5+Hypothesis Words+TFIDF+PF QE250+Top5+Hypothesis Words+TFIDF+PF QE350+Top5+Hypothesis Words+TFIDF+PF Top5+Hypothesis Words+TFIDF+Hypothesis phrases+PF QE350+Top5+Hypothesis Words+TFIDF+ Hypothesis phrases+PF OMIM(2)+Top5+Hypothesis Words+TFIDF+ Hypothesis phrases+PF OMIM(2)+ QE350+Top5+Hypothesis Words+TFIDF+ Hypothesis phrases+PF. C1 0 6 0 0 0 4 0 0 8 9 0 0 2 1 2 2 1 2 2 1. C2 9 7 7 10 8 10 7 10 11 7 7 17 10 16 17 17 15 18 19 18. C3 31 27 33 30 32 26 33 30 21 24 33 23 28 23 21 21 24 20 19 21. c@1 0.225000 0.201250 0.175000 0.250000 0.200000 0.275000 0.175000 0.250000 0.330000 0.214375 0.175000 0.425000 0.262500 0.410000 0.446250 0.446250 0.384375 0.472500 0.498750 0.461250. 1. 20. 19. 0.512500. 1. 19. 20. 0.511875. 1. 15. 24. 0.384375. 本實驗以蔡秉翰(2013)提出之 23 項實驗方法為基礎，擷取其中 16 個實驗方法結合 LexRank 自動摘要系統為本研究之實驗方法，其中 16 個實驗方法分別為實驗編號 1、2、5、6、9、10、11、12、13、14、15、16、18、19、20 及 21。因 30.

(41) 在蔡秉翰(2013)之實驗方法的探討中提到 OMIM 詞語擴充方法對準確率沒有顯著的提升，因此在本實驗方法中，不納入實驗編號 3、4、7、8、17、22 及 23 這些包含 OMIM 之實驗方法。以下小節首先對實驗名稱做介紹，接著呈現將摘要系統應用於測試文章及背景知識庫之結果，分別為 1.實驗名稱介紹、2.對測試文章做摘要、3.對背景知識庫做摘要及 4.對測試文章及背景知識庫皆做摘要。. 實驗名稱介紹. 1.. 測試問題在本實驗中總共有 40 題，表格中每列代表一個實驗，表格中 ID 欄位表示實驗編號，Experiment Name 欄位表示實驗名稱，C1 欄位表示系統未給予回答的問題數，C2 欄位表示系統正確回答的問題數，C3 欄位表示系統答錯的問題數，c@1 欄位表示使用公式(6)所得到的評估結果，實驗名稱之詳細介紹如下所示： . TF 表示測試問題中的字以公式(2)來給予權重。. . TFIDF 表示測試問題中的字以公式(4)來給予權重。. . PF 表示以詞彙為單位來找尋答案的方法。. . Top4 與 Top5 分別表示給予所有相關語句對應之權重後，經由排序挑選前四和前五高的那些句子作為相關語句。. . Hypothesis Words 與 Hypothesis Phrases 分別表示以字和詞彙為單位來做答案驗證的方法。. . QE250 與 QE350 表示以 Global Analysis 為擴充方法，並加入測試問題中的 Expanded words 數量為 250 個與 350 個。. 31.

(42) 2.. 對測試文章做摘要表 4-2、表 4-3、表 4-4 及表 4-5 為利用 LexRank 自動摘要系統將測試資料中. 的測試文章做摘要，再將此摘要過後的測試文章做為蔡秉翰研究方法中輸入的測試文章之結果呈現，並在最後一欄加上原來蔡秉翰(2013)之評估結果以利比較。而摘要過程中文章透過詞彙特徵排名演算法(LexRank)後會依照句子的重要程度來做句子的排序，因此，表中的實驗名稱 Smy0.6、Smy0.7、Smy0.8 及 Smy0.9 分別表示直接擷取這些排序之句子的前 60%、70%、80%及 90%做為摘要結果。. 表 4-2 對測試文章做 60%摘要之結果總覽 ID 1 2 5 6 9 10 11 12 13 14 15 16 18 19 20 21. Experiment Name TF+Smy0.6 TFIDF+Smy0.6 TF+PF+Smy0.6 TFIDF+PF+Smy0.6 TF+Top4+Smy0.6 TFIDF+Top4+Smy0.6 TF+Hypothesis Words+Smy0.6 TFIDF+Hypothesis Words+Smy0.6 TF+Top4+Hypothesis Words+Smy0.6 TFIDF+Top4+Hypothesis Words+Smy0.6 TFIDF+Top5+Hypothesis Words+Smy0.6 TFIDF+PF+Top5+Hypothesis Words+Smy0.6 TFIDF+PF+Top5+Hypothesis Words+QE250+Smy0.6 TFIDF+PF+Top5+Hypothesis Words+QE350+Smy0.6 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+Smy0.6 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+QE350+Smy0.6. average. 32. C1. C2. C3. c@1. 0 6 0 4 8 8 0 0 1 1 0 1 2 2. 9 6 8 9 11 6 7 18 9 16 14 15 16 17. 31 28 32 27 21 26 33 22 30 23 26 24 22 21. 0.225000 0.172500 0.200000 0.247500 0.330000 0.180000 0.175000 0.450000 0.230625 0.410000 0.350000 0.384375 0.420000 0.446250. 蔡秉翰 c@1 0.225000 0.201250 0.200000 0.275000 0.330000 0.214375 0.175000 0.425000 0.262500 0.410000 0.446250 0.446250 0.472500 0.498750. 1. 17. 22. 0.435625. 0.461250. 0. 20. 20. 0.500000. 0.512500. 0.322304. 0.347226.

(43) 表 4-3 對測試文章做 70%摘要之結果總覽 ID 1 2 5 6 9 10 11 12 13 14 15 16 18 19 20 21. Experiment Name TF+Smy0.7 TFIDF+Smy0.7 TF+PF+Smy0.7 TFIDF+PF+Smy0.7 TF+Top4+Smy0.7 TFIDF+Top4+Smy0.7 TF+Hypothesis Words+Smy0.7 TFIDF+Hypothesis Words+Smy0.7 TF+Top4+Hypothesis Words+Smy0.7 TFIDF+Top4+Hypothesis Words+Smy0.7 TFIDF+Top5+Hypothesis Words+Smy0.7 TFIDF+PF+Top5+Hypothesis Words+Smy0.7 TFIDF+PF+Top5+Hypothesis Words+QE250+Smy0.7 TFIDF+PF+Top5+Hypothesis Words+QE350+Smy0.7 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+Smy0.7 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+QE350+Smy0.7. C1. C2. C3. c@1. 0 6 0 4 8 9 0 0 2 1 1 1 2 2. 9 6 8 9 11 6 8 17 9 17 14 15 17 18. 31 28 32 27 21 25 32 23 29 22 25 24 21 20. 0.225000 0.172500 0.200000 0.247500 0.330000 0.183750 0.200000 0.425000 0.236250 0.435625 0.358750 0.384375 0.446250 0.472500. 蔡秉翰 c@1 0.225000 0.201250 0.200000 0.275000 0.330000 0.214375 0.175000 0.425000 0.262500 0.410000 0.446250 0.446250 0.472500 0.498750. 0. 17. 23. 0.425000. 0.461250. 1. 22. 17. 0.563750. 0.512500. 0.331640. 0.347226. average. 表 4-4 對測試文章做 80%摘要之結果總覽 ID 1 2 5 6 9 10 11 12 13 14 15 16 18 19 20 21. Experiment Name TF+Smy0.8 TFIDF+Smy0.8 TF+PF+Smy0.8 TFIDF+PF+Smy0.8 TF+Top4+Smy0.8 TFIDF+Top4+Smy0.8 TF+Hypothesis Words+Smy0.8 TFIDF+Hypothesis Words+Smy0.8 TF+Top4+Hypothesis Words+Smy0.8 TFIDF+Top4+Hypothesis Words+Smy0.8 TFIDF+Top5+Hypothesis Words+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+QE250+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+QE350+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+QE350+Smy0.8. average. 33. C1. C2. C3. c@1. 0 6 0 4 8 9 0 0 2 1 1 1 2 2. 9 6 9 9 11 6 8 17 9 17 14 15 17 18. 31 28 31 27 21 25 32 23 29 22 25 24 21 20. 0.225000 0.172500 0.225000 0.247500 0.330000 0.183750 0.200000 0.425000 0.236250 0.435625 0.358750 0.384375 0.446250 0.472500. 蔡秉翰 c@1 0.225000 0.201250 0.200000 0.275000 0.330000 0.214375 0.175000 0.425000 0.262500 0.410000 0.446250 0.446250 0.472500 0.498750. 0. 17. 23. 0.425000. 0.461250. 1. 22. 17. 0.563750. 0.512500. 0.333203. 0.347226.

(44) 表 4-5 對測試文章做 90%摘要之結果總覽 ID 1 2 5 6 9 10 11 12 13 14 15 16 18 19 20 21. Experiment Name TF+smy0.9 TFIDF+smy0.9 TF+PF+smy0.9 TFIDF+PF+smy0.8 TF+Top4+smy0.9 TFIDF+Top4+smy0.9 TF+Hypothesis Words+smy0.9 TFIDF+Hypothesis Words+smy0.9 TF+Top4+Hypothesis Words+smy0.9 TFIDF+Top4+Hypothesis Words+smy0.9 TFIDF+Top5+Hypothesis Words+smy0.9 TFIDF+PF+Top5+Hypothesis Words+smy0.9 TFIDF+PF+Top5+Hypothesis Words+QE250+smy0.9 TFIDF+PF+Top5+Hypothesis Words+QE350+smy0.9 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+smy0.9 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+QE350+smy0.9 average. C1. C2. C3. c@1. 0 6 0 4 8 9 0 0 2 1 1 1 2 2. 9 7 9 9 11 6 8 17 9 17 14 15 17 18. 31 27 31 27 21 25 32 23 29 22 25 24 21 20. 0.225000 0.201250 0.225000 0.247500 0.330000 0.183750 0.200000 0.425000 0.236250 0.435625 0.358750 0.384375 0.446250 0.472500. 蔡秉翰 c@1 0.225000 0.201250 0.200000 0.275000 0.330000 0.214375 0.175000 0.425000 0.262500 0.410000 0.446250 0.446250 0.472500 0.498750. 0. 17. 23. 0.425000. 0.461250. 1. 22. 17. 0.563750. 0.512500. 0.335000. 0.347226. 在蔡秉翰(2013)的實驗結果中，16 項實驗之 c@1 的算術平均數為 0.347226，而在本實驗中最好的結果為擷取前 90%的句子為摘要之結果，其 c@1 的算術平均數為 0.335000。. 3.. 對背景知識庫做摘要表 4-6、表 4-7、表 4-8 及表 4-9 為利用 LexRank 自動摘要系統將背景知識庫. 中的 9034 篇文獻分別做摘要，再將此摘要過後的文獻做為蔡秉翰研究方法中輸入的背景知識庫之結果呈現，並在最後一欄加上原來蔡秉翰(2013)之評估結果以利比較。因為對背景知識庫做摘要之結果不會對那些使用 TF 方法的實驗有任何影響，所以在本實驗中將只擷取實驗編號為 2、6、10、12、14、15、16、18、19、 20 及 21 等 11 項實驗方法。表中的實驗名稱 Smy0.6、Smy0.7、Smy0.8 及 Smy0.9 之意義同上。 34.

(45) 表 4-6 對背景知識庫做 60%摘要之結果總覽 ID 2 6 10 12 14 15 16 18 19 20 21. Experiment Name TFIDF+Smy0.6 TFIDF+PF+Smy0.6 TFIDF+Top4+Smy0.6 TFIDF+Hypothesis Words+Smy0.6 TFIDF+Top4+Hypothesis Words+Smy0.6 TFIDF+Top5+Hypothesis Words+Smy0.6 TFIDF+PF+Top5+Hypothesis Words+Smy0.6 TFIDF+PF+Top5+Hypothesis Words+QE250+Smy0.6 TFIDF+PF+Top5+Hypothesis Words+QE350+Smy0.6 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+Smy0.6 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+QE350+Smy0.6. C1. C2. C3. c@1. 1 1 5 0 2 3 3 2 2. 8 9 8 18 15 15 17 18 18. 31 30 27 22 23 22 20 20 20. 0.205000 0.230625 0.225000 0.450000 0.393750 0.403125 0.456875 0.472500 0.472500. 蔡秉翰 c@1 0.201250 0.275000 0.214375 0.425000 0.410000 0.446250 0.446250 0.472500 0.498750. 2. 17. 21. 0.446250. 0.461250. 2. 18. 20. 0.472500. 0.512500. 0.384375. 0.396647. average. 表 4-7 對背景知識庫做 70%摘要之結果總覽 ID 2 6 10 12 14 15 16 18 19 20 21. Experiment Name TFIDF+Smy0.7 TFIDF+PF+Smy0.7 TFIDF+Top4+Smy0.7 TFIDF+Hypothesis Words+Smy0.7 TFIDF+Top4+Hypothesis Words+Smy0.7 TFIDF+Top5+Hypothesis Words+Smy0.7 TFIDF+PF+Top5+Hypothesis Words+Smy0.7 TFIDF+PF+Top5+Hypothesis Words+QE250+Smy0.7 TFIDF+PF+Top5+Hypothesis Words+QE350+Smy0.6 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+Smy0.6 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+QE350+Smy0.6. average. 35. C1. C2. C3. c@1. 1 1 5 0 2 3 3 2 2. 8 9 8 18 16 16 18 19 19. 31 30 27 22 22 21 19 19 19. 0.205000 0.230625 0.225000 0.450000 0.420000 0.430000 0.483750 0.498750 0.498750. 蔡秉翰 c@1 0.201250 0.275000 0.214375 0.425000 0.410000 0.446250 0.446250 0.472500 0.498750. 2. 18. 20. 0.472500. 0.461250. 2. 18. 20. 0.472500. 0.512500. 0.398806. 0.396647.

(46) 表 4-8 對背景知識庫做 80%摘要之結果總覽 ID 2 6 10 12 14 15 16 18 19 20 21. Experiment Name TFIDF+Smy0.8 TFIDF+PF+Smy0.8 TFIDF+Top4+Smy0.8 TFIDF+Hypothesis Words+Smy0.8 TFIDF+Top4+Hypothesis Words+Smy0.8 TFIDF+Top5+Hypothesis Words+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+QE250+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+QE350+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+QE350+Smy0.8. C1. C2. C3. c@1. 1 1 5 0 3 3 3 2 2. 8 9 8 18 16 15 18 19 19. 31 30 27 22 21 22 19 19 19. 0.205000 0.230625 0.225000 0.450000 0.430000 0.403125 0.456875 0.498750 0.498750. 蔡秉翰 c@1 0.201250 0.275000 0.214375 0.425000 0.410000 0.446250 0.446250 0.472500 0.498750. 2. 18. 20. 0.472500. 0.461250. 2. 18. 20. 0.472500. 0.512500. 0.399715. 0.396647. average. 表 4-9 對背景知識庫做 90%摘要之結果總覽 ID 2 6 10 12 14 15 16 18 19 20 21. Experiment Name TFIDF+smy0.9 TFIDF+PF+smy0.9 TFIDF+Top4+smy0.9 TFIDF+Hypothesis Words+smy0.9 TFIDF+Top4+Hypothesis Words+smy0.9 TFIDF+Top5+Hypothesis Words+smy0.9 TFIDF+PF+Top5+Hypothesis Words+smy0.9 TFIDF+PF+Top5+Hypothesis Words+QE250+smy0.9 TFIDF+PF+Top5+Hypothesis Words+QE350+smy0.9 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+smy0.9 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+QE350+smy0.9. average. C1. C2. C3. c@1. 1 1 5 0 2 3 3 2 2. 8 9 8 18 16 16 18 19 19. 31 30 27 22 22 21 19 19 19. 0.205000 0.230625 0.225000 0.450000 0.420000 0.430000 0.483750 0.498750 0.498750. 蔡秉翰 c@1 0.201250 0.275000 0.214375 0.425000 0.410000 0.446250 0.446250 0.472500 0.498750. 2. 18. 20. 0.472500. 0.461250. 2. 18. 20. 0.472500. 0.512500. 0.398806. 0.396647. 在蔡秉翰(2013)的實驗結果中，11 項實驗之 c@1 的算術平均數為 0.396647，而在本實驗中最好的結果為擷取前 80%的句子為摘要之結果，c@1 的算術平均數皆為 0.399715。. 4.. 對測試文章及背景知識庫皆做摘要表 4-10 為利用 LexRank 自動摘要系統將測試資料中的測試文章以及背景知 36.

(47) 識庫中的 9034 篇文獻皆個別做摘要，再將此摘要過後的文章做為蔡秉翰研究方法的輸入測試文章及背景知識庫之結果呈現，並在最後一欄加上原來蔡秉翰(2013) 之評估結果以利比較。因為對背景知識庫做摘要之結果不會對使用 TF 方法之實驗有任何影響，所以對使用 TF 方法的那些實驗而言，對測試文章以及背景知識庫中的 9034 篇文獻皆個別做摘要之結果會和只對測試文章做摘要之結果相同，而只對測試文章做摘要之結果已在表 4-2、表 4-3 表 4-4 及表 4-5 呈現過，所以在本實驗中將只擷取實驗編號為 2、6、10、12、14、15、16、18、19、20 及 21 等 11 項實驗方法。本實驗中的實驗名稱 Smy0.8 表示擷取在測試文章中的前 80%之句子做為摘要結果以及在背景知識庫的 9034 篇文獻中皆個別擷取前 80%之句子做為摘要結果。. 表 4-10 對測試文章及背景知識庫做 80%摘要之結果總覽 ID 2 6 10 12 14 15 16 18 19 20 21. Experiment Name TFIDF+Smy0.8 TFIDF+PF+Smy0.8 TFIDF+Top4+Smy0.8 TFIDF+Hypothesis Words+Smy0.8 TFIDF+Top4+Hypothesis Words+Smy0.8 TFIDF+Top5+Hypothesis Words+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+QE250+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+QE350+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+Smy0.8 TFIDF+PF+Top5+Hypothesis Words+ Hypothesis phrases+QE350+Smy0.8. C1. C2. C3. c@1. 1 1 5 0 2 2 2 2 2. 7 8 7 18 15 16 17 19 18. 32 31 28 22 23 22 21 19 20. 0.179375 0.205000 0.196875 0.450000 0.393750 0.420000 0.446250 0.498750 0.472500. 蔡秉翰 c@1 0.201250 0.275000 0.214375 0.425000 0.410000 0.446250 0.446250 0.472500 0.498750. 1. 18. 21. 0.461250. 0.461250. 1. 17. 22. 0.435625. 0.512500. 0.378125. 0.396647. average. 在蔡秉翰(2013)的實驗結果中，11 項實驗之 c@1 的算術平均數為 0.396647，而在本實驗中，c@1 的算術平均數為 0.378125。 37.

(48) (二) 研究方法二接著介紹研究方法二之實驗結果，表 4-11 為本研究方法的所有實驗結果。. 表 4-11 研究方法二之實驗結果總覽 Experiment Name ID. ID Data. Question Focus. Candidate. Weight. 1 2 3 4 5 6 7 8 9. TD TD TD TD TD+BD TD TD TD TD. MaxTF MaxTF MaxTF POS POS POS+TFIDF POS+QE350 All All+QE350. MaxTF All All All All All All All All. X Min Mean Mean Mean Mean Mean Mean Mean. C1. C2. C3. 1 1 1 1 0 1 2 2 2. 11 9 9 13 6 9 15 13 16. 28 30 30 26 34 30 23 25 22. c@1 0.281875 0.230625 0.230625 0.333125 0.150000 0.230625 0.393750 0.341250 0.420000. 測試問題在本實驗中總共有 40 題，表格中每列代表一個實驗，表格中 ID 欄位表示實驗編號，Experiment Name 表示實驗名稱，ID Data(Information Distance Data)欄位表示用來計算資訊距離之文本對象，Question Focus 欄位表示以何種策略擷取 Question Focus，Candidate 欄位表示以何種策略擷取 Candidate，Weight 欄位表示以何種策略計算答案選項之權重值，C1 欄位表示系統未給予回答的問題數，C2 欄位表示系統正確回答的問題數，C3 欄位表示系統答錯的問題數，c@1 欄位表示使用公式(6)所得到的評估結果，實驗名稱之詳細介紹如下所示： . TD(TestData)表示用來計算資訊距離之文本對象為測試文章。. . BD(Background Data)表示用來計算資訊距離之文本對象為背景知識庫中之文獻。. . MaxTF 表示使用公式(2)來給予 Question words 或 Answer words 權重並擷取 TF 值最大者做為 Question Focus 或 Candidate。 38.

(49) . All 表示將所有前處理後且 TF 大於 0 的 Question words 或 Answer words 皆擷取為 Question Focus 及 Candidate。. . POS 表示從賦有詞性標記的 Question words 中，挑選出詞性為 NN、NNS、 NNP、NNPS 者為 Question Focus。. . POS+TFIDF 表示從賦有詞性標記的 Question words 中，挑選出詞性為 NN、 NNS、NNP、NNPS 者，再利用 TFIDF 權重計算方法給與每一個字對應的權重並計算其算術平均數，最後挑出高於平均者做為為 Question Focus。. . QE350 表示以 Global Analysis 為擴充方法，並加入測試問題中的 Expanded words 數量為 350 個。(因在蔡秉翰(2013)所提出的實驗探討中發現，擴充字數在 350 個時為最佳，因此本實驗中也以數量為 350 為擴充字數。). . X 表示資訊距離權重計算結果只有一個，因此不需採取方法來計算答案選項的權重值，直接以資訊距離的權重計算結果做為該選項的權重值。. . Min 表示選擇資訊距離之權重值中最小者做為該選項之權重值。. . Mean 表示計算資訊距離權重值之算術平均數做為該選項之權重值。以直條圖統整以上實驗如下圖 4-1 所示： 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. c@1 0.281880.230630.230630.33313 0.15 0.230630.393750.34125 0.42. 圖 4-1 研究方法二之實驗結果直條圖 39.

(50) Morente (2012)總結了參與 CLEF 所籌畫的 QA4MRE 子任務-阿茲海默症的探討(QA4MRE pilot task machine reading of biomedical texts about Alzheimer’s Disease)所有參加者的實驗結果，得到 7 個參加團隊的實驗方法中，各自正確率最高者，如下表 4-12。表 4-12 Highest scores per team Team Name. Highest c@1 measure. Pisa merk kule nict iirg lims ntnu average. 0.55 0.47 0.30 0.28 0.25 0.21 0.20 0.322857. 根據表 4-11 及圖 4-1 可以看出，在本實驗方法中以實驗 9 排名第一，c@1 measure 為 0.42。對照表 4-12 我們發現在所有使用此相同實驗資料做實驗的團隊成果中，本研究最高分位居第三，僅次於 Pisa (c@1 measure 最高為 0.55 的分數) 及 merk(c@1 measure 最高為 0.47 的分數)，且超過所有參加者的平均分數，得到相當不錯的成績，其中 ntnu 即為蔡秉翰於 2012 年參加該任務之實驗結果。 Morente(2012)統整所有參加者所上傳的實驗並公布每個實驗的統計值如下表 4-13。欄位 Run 的名稱為參加團隊上傳的每個實驗名稱，名稱中出現在數字前的字代表團隊名稱，而實驗的排序方式是由高到低排序 c@1 measure 值；統計值包括中位數、標準差與 Accuracy。. 40.

(51) 表 4-13 參加團隊各實驗結果統計表 Run. c@1. Median. Pisa12013enen merk12062enen merk12022enen merk12052enen merk12012enen merk12072enen kule12061enen kule12101enen nict12102enen merk12042enen iirg12021enen iirg12041enen kule12041enen kule12051enen kule12091enen merk12032enen iirg12021enen iirg12031enen iirg12051enen iirg12061enen kule12031enen nict12031 nict12041enen nict12053enen nict12063enen nict12074enen kule12011enen lims12013enen lims12024enen lims12043enen kule12071enen kule12081enen nict12091enen ntnu12032enen ntnu12054enen iirg12011enen kule12021enen ntnu12012enen ntnu12044enen ntnu12022enen nict12012enen nict12024enen lims12034enen. 0.55 0.47 0.40 0.39 0.36 0.35 0.30 0.30 0.28 0.26 0.25 0.25 0.25 0.25 0.25 0.25 0.23 0.23 0.23 0.23 0.23 0.23 0.23 0.23 0.23 0.23 0.21 0.21 0.21 0.21 0.20 0.20 0.20 0.20 0.20 0.18 0.18 0.18 0.18 0.17 0.15 0.15 0.14. 0.55 0.52 0.37 0.47 0.33 0.40 0.30 0.30 0.30 0.26 0.25 0.25 0.20 0.30 0.20 0.30 0.20 0.20 0.20 0.25 0.25 0.25 0.25 0.20 0.25 0.20 0.19 0.21 0.20 0.27 0.20 0.20 0.20 0.19 0.20 0.10 0.19 0.15 0.10 0.13 0.15 0.15 0.18. Standard Deviation 0.13 0.17 0.16 0.27 0.28 0.24 0.08 0.08 0.05 0.12 0.13 0.13 0.10 0.10 0.19 0.17 0.22 0.22 0.22 0.17 0.10 0.21 0.17 0.15 0.10 0.13 0.12 0.16 0.12 0.14 0.08 0.12 0.08 0.17 0.16 0.15 0.15 0.17 0.24 0.17 0.13 0.13 0.12. Accuracy 0.55 0.43 0.38 0.35 0.30 0.30 0.30 0.30 0.28 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.23 0.23 0.23 0.23 0.23 0.23 0.23 0.23 0.23 0.23 0.18 0.20 0.20 0.20 0.20 0.20 0.20 0.18 0.20 0.18 0.15 0.18 0.18 0.15 0.15 0.15 0.13. 下表 4-14 進一步呈現本研究每個實驗中各個測試集的正確率，以及四個測試集的中位數、標準差和 Accuracy。表中 R1、R2、R3、R4 分別代表測試資料集 1、 2、3 以及 4，同樣以 c@1 measure 來計算個別測試集的準確率。. 41.

(52) 表 4-14 各測試集實驗結果總覽 ID 1. 2. 3. 4. 5. 6. 7. 8. 9.. R1 0.22 0.22 0.11 0.22 0.10 0.11 0.36 0.24 0.36. R2 0.40 0.30 0.40 0.40 0.30 0.40 0.50 0.30 0.30. R3 0.30 0.30 0.10 0.30 0.20 0.20 0.30 0.30 0.30. R4 0.2 0.1 0.3 0.4 0.0 0.2 0.4 0.5 0.7. Median 0.260 0.260 0.205 0.350 0.15 0.200 0.380 0.300 0.330. Standard Deviation 0.090921211 0.094516313 0.147280911 0.087177979 0.129099445 0.122576507 0.084063468 0.113578167 0.192093727. Accuracy 0.275 0.225 0.225 0.325 0.150 0.225 0.375 0.325 0.400. 參考表 4-13 與表 4-14，討論如下：所有參加者的實驗中，中位數值最高的是 Pisa12013enen 為 0.55，參加者中中位數值最低為 0.10，分別是 iirg12011enen 與 ntnu12044enen 兩個實驗；而在本研究中位數值最高為實驗 7 的 0.38，其中實驗 7 也是本研究使用 c@1 評量第二高的實驗方法，本研究中位數值最低為實驗 5 的 0.15。標準差代表實驗方法對於回答測試集問題正確的通用程度，因此越小就代表方法可能越適用於任何測試集，參加者中標準差最小的是 nict12102enen 為 0.05，標準差最大者為 0.28；而本研究標準差最小為實驗 7 的 0.084063468，標準差最大為實驗 9 的 0.19209372。最後是 Accuracy 的比較，Accuracy 代表使用一個實驗方法系統回答真正答對的比率，因為在這這個研究中每個測試問題必定含有唯一一個正確答案，以 Accuracy 統計的話則不回答的部分也算是錯誤，所有參加者中 Accuracy 最高為 Pisa12013enen 實驗的 0.55，最差為 lims12034enen 實驗的 0.13；而本研究中， Accuracy 最高的是實驗 9 的 0.40，在表 4-13 中排名第三，最低為實驗 5 的 0.15。此外，Morente 也統計了所有參加者系統在各個測試集的 c@1 measure 平均值，以此呈現每個測試集的難度，如表 4-15 所示，測試集 1 得到的分數最低只有 42.

(53) 0.11，因此被歸類為難度相當高的測試集，而測試集 2 的分數最高為 0.34，相對上來說較簡單。表 4-15 各測試集 c@1 measure 的平均值 R1 0.11. R2 0.34. R3 0.22. R4 0.24. 比較表 4-14 與表 4-15 可以發現，我們的研究有 2 項實驗方法都超過了這個難度的門檻值，研究中四個測試集都高於此門檻值的實驗有：實驗 4 及實驗 7。. 第三節. 結果分析與討論. (一) 研究方法一. 1.. 對測試文章做摘要之探討以直條圖及圓餅圖比較本實驗結果和蔡秉翰(2013)提出之實驗結果。下圖 4-2. 以直條圖呈現對測試文章做 60%、70%、80%及 90%摘要後 c@1 平均值之結果，其中 100%表示無摘要之結果。. c@1平均值 0.35 0.345 0.34 0.335 0.33 0.325 0.32 0.315 0.31 0.305. 0.347226. 0.331640. 0.333203. 0.335000. 70%. 80%. 90%. 0.322304. 60%. 圖 4-2 對測試文章做摘要之 c@1 平均值 43. 100%.

(54) 由圖 4-2 中可看出對測試文章做摘要的 c@1 之平均值皆比蔡秉翰(2013)之 c@1 之平均值 0.347226 來的低，其原因在於測試集中的文章與對應測試集的問題主題關聯性較大，代表文章中之資訊大多為重要的資訊，且測試文章數量只有 1 篇，代表文章中之資訊量不多，因此，若對測試文章做摘要，很容易將重要之資訊移除，使得使用方法較少的實驗更加無法擷取到重要程度較高的句子，導致 c@1 值降低。另外，從 60%摘要、70%摘要及 80%摘要的 c@1 之平均值中也可看出，80%摘要大於 70%摘要，70%摘要大於 60%摘要，其結果也再次印證若百分比越低，則越容易將重要之資訊移除。下表 4-16 以圓餅圖呈現對測試文章做 60%、70%、80%及 90%摘要後與蔡秉翰(2013)之實驗結果比較之情形。以 80%摘要為例，其圓餅圖中紅色區塊表示有 4 項實驗結果較蔡秉翰之結果高；藍色區塊表示有 3 項實驗結果與蔡秉翰(2013) 之實驗結果相同；綠色區塊表示有 9 項實驗結果較蔡秉翰之結果低。. 44.

(55) 表 4-16 對測試文章做摘要之結果比較 60%摘要. 不變, 5 提升, 1. 70%摘要. 不變, 4 降低, 10. 提升, 3. 80%摘要. 90%摘要. 不變, 3 提升, 4. 降低, 9. 不變, 4 降低, 9. 提升, 4. 降低, 8. 由表 4-16 圓餅圖中可看出無論百分比在 60%、70%、80%或 90%時，c@1 降低的實驗數量皆不低於一半，雖然有少部分之實驗結果的 c@1 提升，但其答對題數差異不大。較值得注意的是實驗 21，也就是蔡秉翰(2013)提出之實驗結果中表現最佳的實驗，也是使用方法數量最多之實驗，在 70%、80%及 90%摘要的結果中 c@1 值大幅提升至 0.56375，為本論文所有實驗方法中 c@1 值最高之結果，對照表 4-12 我們發現在所有使用此相同實驗資料做實驗的團隊成果中，此實驗方法之結果位居第一，勝過原本位居第一的 Pisa (c@1 measure 最高為 0.55 的分數)。其結果應表示對測試文章做摘要，雖很容易將重要的資訊移除，但在使用的方法很多的情況下，則仍可擷取到重要程度較高的句子，使 c@1 值能保持不變甚至提升。. 45.

(56) 此外，本研究還利用 SweSum 自動文字摘要系統11對測試文章分別做 60%、 70%、80%及 90%摘要，以直條圖及圓餅圖比較以 SweSum 做摘要之結果和蔡秉翰(2013)提出之實驗結果。由圖 4-3 直條圖中可看出使用 SweSum 對測試文章做摘要的 c@1 之平均值皆比蔡秉翰(2013)之 c@1 之平均值 0.347226 來的低。由表 4-17 圓餅圖中可看出無論百分比在 60%、70%、80%或 90%時，c@1 降低的實驗數量皆超過一半。其結果再次表示若對測試文章做摘要，很容易將重要之資訊移除，導致 c@1 值降低。. c@1平均值 0.36 0.347226. 0.35 0.34 0.33. 0.328203. 0.326602. 0.326641. 70%. 80%. 90%. 0.32 0.31 0.3. 0.297188. 0.29 0.28 0.27 60%. 100%. 圖 4-3 使用 SweSum 對測試文章做摘要之 c@1 平均值. 11. http://swesum.nada.kth.se/index-eng-adv.html 46.

(57) 表 4-17 使用 SweSum 對測試文章做摘要之結果比較 60%摘要. 70%摘要. 不變, 2 提升, 4. 提升, 6. 降低, 10. 80%摘要. 90%摘要. 不變, 3 提升, 2. 降低, 10. 不變, 4 提升, 1. 降低, 11. 降低, 11. 下圖 4-4 為使用 LexRank 做摘要及使用 SweSum 做摘要之結果比較，由圖中可看出從 60%至 90%，LexRank 摘要後之 c@1 平均值皆比 SweSum 來的高，而 LexRank 在越靠近 100%的情況下準確率越高，SweSum 在 70%時準確率最高，但其實 80%和 90%之準確率與 70%非常皆近，差異不大，較值得關注的是無論 LexRank 或 SweSum，70%到 60%之間有較大幅度的降低，表示 60%的狀況下使得許多重要的句子被移除。. 47.

(58) c@1平均值比較 0.34 0.33 0.32. 0.31. SweSum. 0.3. LexRank. 0.29 0.28. 0.27 60%. 70%. 80%. 90%. 圖 4-4LexRank 與 SweSun 之 c@1 平均值比較附錄 B 呈現閱讀測試集 R1 的測試問題經過 60%摘要後被移除的句子，延續第三章第四節中小節(四)的例子：Question Focus 為 clu，共出現在 55 個句子中，(d)選項之 Candidate 為 clu2，共出現在 77 個句子中，經過 60%的摘要後，出現 clu 的句子共減少為 34 句，出現 clu2 的句子共減少為 58 句，而與 70%摘要的結果比對中發現，編號 13、18、19、20、25、40、68、73、 75 及 76 這些包含 clu 或 clu2 的句子在 70%摘要時未被移除，使得 clu 增加為 41 句，clu2 增加為 65 句，其結果表示 60%摘要比 70%摘要更容易移除到重要之資訊，導致計算權重時使得權重變低而選擇到錯誤的選項做為答案。. 2.. 對背景知識庫做摘要之探討下圖 4-5 以直條圖呈現對背景知識庫做 60%、70%、80%及 90%摘要後 c@1. 平均值之結果，其中 100%表示無摘要之結果。. 48.

(59) c@1平均值 0.405 0.398806. 0.4. 0.399715. 0.398806 0.396647. 0.395 0.39 0.385. 0.384375. 0.38. 0.375 60%. 70%. 80%. 90%. 100%. 圖 4-5 對背景知識庫做摘要之 c@1 平均值由圖 4-5 可看出對背景知識庫之 9034 篇文獻皆個別做 60%摘要的 c@1 之平均值比蔡秉翰(2013)之 c@1 之平均值 0.396647 來的低，但 70%、80%及 90%摘要的 c@1 之平均值比蔡秉翰(2013)之 c@1 之平均值來的高，最佳的結果應於 80% 附近，其原因在於背景知識庫中的文獻與對應測試集的問題主題關聯性較低，代表文章中之資訊大多為不重要的資訊，且文獻數量有 9034 篇，文章資訊非常多，因此，若對背景知識庫中之 9034 篇文獻做摘要，可以有效的將重要之資訊擷取出來，使得 c@1 值提升。從 60%摘要、70%摘要及 80%摘要的 c@1 之平均值中也可看出，80%摘要大於 70%摘要，70%摘要大於 60%摘要，其結果再次印證若百分比越低，則越容易將重要之資訊移除。下表 4-18 以圓餅圖呈現對背景知識庫做 60%、70%、80%及 90%摘要後與蔡秉翰(2013)之實驗結果比較之情形。. 49.