針對問答社群中的事實問題句自動產生答案摘要之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：柯佳伶. 博士. 針對問答社群中的事實問題句自動產生答案摘要之研究 Automatic Answer Generation for Factual Questions on Community Question Answering. 研究生：王思涵中華民國. 一百零四年. 撰七月.

(2) 摘要針對問答社群中的事實問題句自動產生答案摘要之研究王思涵隨著問答社群(Community Question Answering，cQA)平台的發展，越來越多使用者會在平台上提出問題句並等待他人的回答，然而平台上有大部分的問題句無法即時的得到答案，或是根本沒有被回答。因此，本論文研究的目的是針對使用者在問答社群中提出的事實問題句，利用網路搜尋引擎自動判別回傳結果摘要事實資訊，作為問題句的答案提供給使用者。然而若直接以問題當作查詢詞在搜尋引擎進行查詢，查詢詞中可能包含無關的字，導致回傳結果內包含太多不相關答案，因此本研究探討如何對使用者的問題自動分類出是否為事實問題句，並從事實問題句中自動擷取出查詢主體字詞及面向字詞，並以擷取的查詢關鍵字，結合網頁搜尋結果重要面向事實內容自動擷取之研究技術，摘要出事實資訊作為答案提供給使用者。實驗結果顯示本研究所提出的問題分類方法能有效地將問題進行分類，並且透過本研究所擷取的查詢關鍵字結合結果摘要方法，可有效對事實問題句提供事實資訊。. 關鍵字：問題句分類、問題句關鍵字擷取、自動產生問題句答案.

(3) Abstract Automatic Answer Generation for Factual Questions on Community Question Answering by Szu-Han Wang With the development of Community Question Answering, more and more users post questions on the platform and wait for others to answer. However, the questions posted there did not all get informative answers or were not answered in a timely manner. Accordingly, this thesis aims to automatically summarize the facet information as the answer from the search result for factual questions in CQA. From the summarization result, users can quickly obtain the facet information they need. First, we explore how to automatically classify the factual and the non-factual questions. Second, we extract the target term and facet term from a factual question as the query keywords for search engines. Finally, we apply the technology of search results summarization for getting factual information from the search results. The summary of the factual information is provided to the user as answer of the factual question. The experimental results show that the proposed classification method can identify the factual questions with high accuracy and high recall. Furthermore, by using the query keywords automatically extracted by this study, a factual question can be effectively answered from the facet summarization of web search result. Keywords: question classification、question keywords extraction、automatic question answering.

(4) 誌謝就讀研究所的兩年，首先要感謝我的指導教授柯佳伶老師。感謝老師的細心指導，不僅是在專業領域的的知識傳授，更是教導我面對問題時解決思考的方式以及態度，讓我收穫許多，真的非常感謝老師的指導以和幫助。另外，也十分感謝陳良弼教授及徐嘉連教授在百忙中抽空擔任我的口試委員，並且在口試期間對本論文提供許多寶貴的意見，使這份研究更加完善，在此亦致上對兩位教授的謝意。感謝我的同學紹峻、聖池和培豪，感謝在研究的路上遇見你們，和你們一起修課和進行研究，並且在我遇到瓶頸時給予建議。感謝實驗室學長姐楨喻、舜宸、懿萱、昇宏、奕智、柏先、爾剛、俊嘉和張葳在百忙之中關心我的研究進度並給予建議和鼓勵，感謝實驗室學弟妹王涵、謹安和祺傑在我研究期間的所有幫助。最後，感謝我的家人長久以來的支持，讓我能夠無後顧之憂的完成學業，並且在我遇到困難時給予關心和鼓勵。也感謝我的朋友們在我煩惱時陪我聊天，給予我關心和鼓勵。對於上述的各位及所有關心我的人，因為有你們我才能完成這一切，謹以此誌謝表達我最衷心的感謝。王思涵. 謹識. 於國立台灣師範大學資訊工程研究所 2015 年 7 月.

(5) 目錄附表目錄.......................................................................................................................... i 附圖目錄......................................................................................................................... ii 第一章. 緒論................................................................................................................. 1. 1.1. 研究動機......................................................................................................... 1. 1.2. 研究目的......................................................................................................... 2. 1.3. 研究範圍與限制............................................................................................. 3. 1.4. 論文方法......................................................................................................... 4. 1.5. 論文架構......................................................................................................... 6. 第二章. 文獻探討......................................................................................................... 7. 2.1. 提供問題的答案............................................................................................. 7. 2.2. 問題分類......................................................................................................... 8. 2.3. 辨識查詢面向................................................................................................. 9. 2.3.1. 查詢詞推薦............................................................................................... 10. 2.3.2. 查詢詞擴展............................................................................................... 10. 2.4. 事實資訊摘要............................................................................................... 12. 第三章. 問題句分類方法........................................................................................... 14. 3.1. 問題前處理................................................................................................... 15. 3.2. 特徵擷取....................................................................................................... 16. 3.3. 分類模型....................................................................................................... 20. 3.3.1. 建立問題特徵向量................................................................................... 20. 3.3.2. 訓練資料蒐集........................................................................................... 21. 第四章. 擷取查詢關鍵字方法................................................................................... 23. 4.1. 擷取查詢主體字詞....................................................................................... 24. 4.1.1. 產生候選查詢主體字詞........................................................................... 24. 4.1.2. 蒐集問題相關文件................................................................................... 26.

(6) 4.1.3 4.2. 候選查詢主體字詞分數計算................................................................... 28 擷取查詢面向字詞....................................................................................... 32. 4.2.1. 產生候選查詢面向字詞........................................................................... 32. 4.2.2. 查詢面向特徵擷取................................................................................... 34. 第五章. 查詢結果摘要方法....................................................................................... 37. 5.1. 事實資訊摘要方法....................................................................................... 37. 5.2. 產生查詢主體字詞之面向........................................................................... 40. 5.2.1. 產生候選查詢主體字詞之面向............................................................... 40. 5.2.2. 挑選查詢主體字詞之面向....................................................................... 41. 第六章. 實驗結果及探討........................................................................................... 45. 6.1. 問題句分類結果評估................................................................................... 45. 6.1.1. 實驗資料來源及評估方法....................................................................... 45. 6.1.2. 實驗結果................................................................................................... 46. 6.2. 擷取查詢關鍵字結果評估........................................................................... 47. 6.2.1. 擷取查詢主體字詞實驗資料來源及評估方法....................................... 47. 6.2.2. 擷取查詢主體字詞實驗結果................................................................... 48. 6.2.3. 擷取查詢面向字詞實驗資料來源及評估方法....................................... 51. 6.2.4. 擷取查詢面向字詞實驗結果................................................................... 51. 6.3. 查詢結果摘要評估....................................................................................... 53. 6.3.1. 實驗資料來源及評估方法....................................................................... 53. 6.3.2. 實驗結果................................................................................................... 55. 第七章. 結論與未來研究方向................................................................................... 62. 7.1. 結論............................................................................................................... 62. 7.2. 未來研究方向............................................................................................... 63. 參考文獻....................................................................................................................... 64 附錄一事實問題句自動產生答案摘要結果 ............................................................ 66.

(7) 附表目錄表 1 問題句及資訊摘要................................................................................................ 3 表 2 事實問題句及非事實問題句集合...................................................................... 17 表 3 範例 3-1 與 3-2 計算結果 ................................................................................... 18 表 4 範例 4-1 問題句相關文件集蒐集結果 .............................................................. 27 表 5 “Lord of the Rings”對於其他候選查詢主體字詞的相對頻率權重 ................... 31 表 6 候選查詢主體字詞核心分數向量更新.............................................................. 32 表 7 候選查詢面向字詞擷取出之特徵...................................................................... 34 表 8 查詢面向字詞之詞性特徵.................................................................................. 35 表 9 候選查詢面向字詞特徵值計算範例.................................................................. 36 表 10 表 11 表 12 表 13 表 14 表 15 表 16 表 17 表 18 表 19. 不同方法產生之候選查詢主體面向字詞個數................................................ 41 兩類別問題句數量 ............................................................................................ 45 未採用漸進式學習法之問題句分類結果........................................................ 46 採用漸進式學習法之問題句分類結果............................................................ 46 擷取查詢主體字詞整體效果............................................................................ 49 複合名詞樣式之擷取查詢主體字詞效果........................................................ 50 查詢面向字詞分類效果.................................................................................... 51 查詢面向字詞特徵值重要性比較.................................................................... 53 摘要內容評分標準............................................................................................ 54 摘要內容評分範例............................................................................................ 54. 表 20 摘要內容評分結果............................................................................................ 55 表 21 各類別摘要內容評分結果................................................................................ 57 表 22 摘要內容結果比較............................................................................................ 61. i.

(8) 附圖目錄圖1 圖2 圖3 圖4 圖5 圖6 圖7 圖8 圖9. 系統流程圖............................................................................................................ 4 問題句分類方法流程圖...................................................................................... 14 詞性標記結果...................................................................................................... 15 代表特徵字詞集合.............................................................................................. 21 代表特徵字詞向量.............................................................................................. 21 漸進式學習問題句分類流程圖.......................................................................... 22 擷取查詢關鍵字方法流程圖.............................................................................. 23 詞性標記結果...................................................................................................... 24 範例 4-1 候選查詢主體字詞擷取結果 .............................................................. 26. 圖 10 CumRF 兩兩相對累積頻率矩陣 ....................................................................... 32 圖 11 範例 4-3 產生候選查詢面向字詞結果 ............................................................ 33 圖 12 SR-Summarization 摘要結果 ............................................................................. 38 圖 13 查詢結果摘要方法流程圖................................................................................ 40 圖 14 候選查詢主體面向字詞依重要性分數排序結果............................................ 42 圖 15 階層式分群法分群結果.................................................................................... 44 圖 16 不同𝜌值之擷取查詢主體字詞評估 ................................................................. 48 圖 17 查詢主體字詞排序分布.................................................................................... 49 圖 18 複合名詞樣式規則之查詢主體字詞排序分布................................................ 50 圖 19 摘要內容評分之分布情況................................................................................ 56 圖 20 google search 各類別摘要內容評分之分布情況 ............................................. 58 圖 21 AGG 各類別摘要內容評分之分布情況 ........................................................... 58 圖 22 問題句所含不同字詞數之摘要內容評分結果................................................ 59 圖 23 不同字詞數的問題句分布情況........................................................................ 60. ii.

(9) 第一章緒論 1.1 研究動機隨著 Yahoo! Answer 或是 Quora 等問答社群(Community Question Answering， cQA)平台的發展，當使用者欲查詢某些資訊時，可以藉由查詢別人已提出之相似問題參考問題答案，或是提出欲被解答的問題內容等待他人的回答。論文[4]認為使用者在問答社群所提出的問題句主要可分為:事實問題句、主觀問題句以及社交問題句等三種類別。一個事實問題句是指所詢問的問題句是為了尋求事實資訊，例如:“Who's the author of harry potter?”。而一個主觀問題句則是所詢問的問題句是為了尋求他人意見或想法，例如:“What did you think of the Harry Potter movie?”。社交問題句則是指希望和其他使用者有社交活動所提出的問題句，例如:“Anyone near New York City?”。在問答社群提問的缺點是不容易得到即時的回答，甚至大多數的提問並沒有被回答。進一步分析，此三種類別的問題中，後兩種問題較適合由使用者答覆。而事實問題句通常會有標準答案，而問答社群上的答案均是由其他使用者所提供，這些答案可能會有錯誤，因此當使用者提出問題並得到其他使用者所提供的答案時，尚須衡量並驗證答案的可信賴程度。此外，事實問題句的答案可能會隨著時間改變。舉例來說，當使用者提出問題“What are the Harry Potter Books in order?”，在 1998 年時答案應該為“Harry Potter and the Philosopher's Stone (26 June 1997)、Harry Potter and the Chamber of Secrets (2 July 1998)”，但到了 1999 年時答案應該被更新為“Harry Potter and the Philosopher's Stone (26 June 1997)、Harry 1.

(10) Potter and the Chamber of Secrets (2 July 1998)、Harry Potter and the Prisoner of Azkaban (8 July 1999)”。因此，事實問題句較可能無法從問答社群平台上得到滿意或最新答案。現在是網路資訊發展的時代，舉凡期刊、網路百科資料庫、新聞…等，各式各樣最新的資訊內容透過網際網路進行傳播，並可利用網路搜尋引擎獲得相關的資訊。基於上述考量，若能對使用者提出的事實問題句，從網路搜尋引擎回傳的結果，自動摘要文字內容產生答案，則可以幫助使用者快速得到事實問題句欲搜尋的最新答案。. 1.2 研究目的本論文研究目的是針對事實問題句，利用網路搜尋結果自動分析回傳結果摘要事實資訊，作為問題答案提供給使用者。然而若直接以問題句當作查詢詞讓搜尋引擎進行查詢，查詢詞中可能包含無關的字，導致回傳結果內包含許多與答案不相關的文字內容。因此本論文將探討如何從問題中有效擷取出查詢關鍵字，並利用該查詢關鍵字之查詢結果摘要作為答案提供給使用者。本論文的目標是可針對事實問題句自動擷取出問題句的查詢關鍵字，問題句的查詢關鍵字包含查詢主體字詞以及查詢面向字詞，透過查詢主體字詞及查詢面向字詞的網路搜尋文字內容自動摘要，作為事實問題句的答案。以下表 1 為例，當使用者所查詢的問題句為“The Lord of the Rings who wrote this novel?”，對此問題句擷取出查詢主體字詞為“Lord of the Rings”，查詢面向字詞為“wrote novel”。透過上述擷取出的查詢主體字詞及查詢面向字詞，對網路搜尋回傳的結果文字敘 2.

(11) 述片段(snippet)進行摘要分析，可得到“Lord of the Rings 是由一個英文作者 J. R. R. Tolkien 所撰寫史詩奇幻小說”的摘要句，此摘要內容即可提供使用者提出問題所希望獲得的答案。表 1 問題句及資訊摘要問題句: The Lord of the Rings who wrote this fantasy novel? 查詢主體字詞: Lord of the Rings 查詢面向字詞: wrote novel 答案摘要: The Lord of the Rings is an epic high fantasy novel written by English author J. R. R. Tolkien. 1.3 研究範圍與限制本論文假設在底層環境有一個能夠回傳網頁內容簡短文字敘述片段(snippet) 的搜尋引擎，並假設其搜尋結果排序較前面的文件(top result)與查詢關鍵字較為相關。所探討的問題主體及查詢關鍵字皆限定為英文。本論文之研究具體工作包括以下部分:. (1) 如何對使用者提出的問題句，設計一種根據字詞特徵進行分類的方法，將問題句自動分為事實問題句以及非事實問題句兩類。 (2) 如何對事實問題句，自動擷取出問題句中的查詢主體字詞，並由該查詢主體. 3.

(12) 字詞，設計自動取出查詢面向字詞的方法。. (3) 如何利用擷取出的查詢主體字詞及查詢面向字詞，結合本研究室過去在網頁搜尋結果重要面向事實內容自動擷取之研究技術，摘要出事實資訊文字片段作為答案提供給使用者。. 1.4 論文方法本論文方法處理流程如圖 1 所示。首先需分類所提出的問題句是否為事實問題句，若為事實問題句則再進一步擷取出問題句中的查詢關鍵字，接著利用擷取出的查詢關鍵字進行網際網路搜尋，再摘要搜尋結果文字片段。因此，論文方法主要分為三大部分。. 圖 1 系統流程圖 4.

(13) 問題句的分類方法本論文是採用支持向量器(Support Vector Machine, SVM) 分類法，將使用者提出的問題句分為事實問題句或非事實問題句兩種類別。我們從兩種類別的問題句中學習出代表字詞做為分類特徵，並使用[23]所提供的軟件建立 SVM 分類模型。為了取得兩個類別較完整的代表字詞，需蒐集足夠多的已標示類別問題句作為訓練資料。然而若採用人為將問題句進行分類標示，需要花費龐大的人工時間，因此本論文採用一種漸進式學習的方法，可動態調整分類特徵並重建問題句分類模型。問題句的查詢關鍵字則是由查詢主體字詞以及查詢面向字詞所結合而成。擷取問題句之查詢主體字詞的方法，本論文首先對使用者提出的問題句利用專有名詞識別及語言樣式產生多個候選查詢主體字詞，並將問題句作為查詢詞至搜尋引擎搜尋，取得查詢結果的文字敘述片段(snippets)作為與問題句相關的文件集，接著計算每個候選查詢主體字詞在問題句相關文件集中的重要性分數，最後選取重要性分數最高的當作查詢主體字詞。擷取問題句的查詢面向字詞的方法，則先對使用者提出的問題句去掉查詢主體字詞和沒有實質意義的字詞，接著從剩餘的字詞中產生候選查詢面向字詞。對於每個候選查詢面向字詞以其特徵採用 SVM 分類器進行分類，分類為是否為查詢面向字詞兩種類別，最後將所有分類為是查詢面向字詞所成的集合為問題句的查詢面向字詞。關於查詢結果摘要的方法，本論文則結合本研究室所提出的方法[19]技術。該方法技術是針對使用者給予的查詢主體以及多個事實面向，計算句子中每個字詞的面向代表性分數，分別摘要出指定面向的重要事實文字片段。因此除了原來事實問題句中擷取出的查詢事實面向，還必須自動提供查詢主體的其他事實面向。因此本論文先以查詢主體字詞作為查詢詞以網際網路搜尋引擎進行搜尋，取 5.

(14) 得查詢結果中的文字敘述片段作為與查詢主體相關的文件集，從中挑選代表性前 k 高的字詞，並採用階層式分群方法將這些字詞進行分群，再從各分群各取一個字詞作為查詢主體的查詢面向。. 1.5 論文架構本論文以下章節內容如下：第二章說明相關研究文獻探討。第三章說明問題句分類方法。第四章說明查詢關鍵字擷取方法。第五章說明查詢結果摘要方法。第六章以實驗結果評估討論本論文方法的執行效果，最後在第七章進行總結並討論未來研究方向。. 6.

(15) 第二章文獻探討 cQA 系統上的問題句可依據使用者的查詢意圖進行分類，而針對事實問題句，自動摘要事實資訊內容，讓使用者能更快速的獲得問題句之答案是這個研究的主要目的。在此章節一開始會先介紹與本論文目的相關的研究，接著將會介紹與本論文方法相關的研究，涵蓋了問題句分類方法、辨識使用者查詢之事實面向、以及事實資訊摘要等。. 2.1 提供問題的答案隨著 Yahoo! Answer 或是 Quora 等問答社群(Community Question Answering， cQA)平台的發展，為了降低未被回答的問題句比例，以及即時的提供答案給使用者，近年來許多研究提出不同的方法以解決上述的問題。 [10]分析出在某些類別的問題句會重複地被詢問，因此可以藉由搜尋問答社群中過去已被提出的問題句，找出和使用者提出較為相似性的問題句，利用過去已被提出的問題句最佳解答作為答案提供給使用者。但由於問題句的相似程度是以文字內容進行計算，可能面臨文字內容十分相似，但意圖卻不一樣的問題，因此在挑選答案時，會計算已經被提供的答案內容和使用者提出的問題句是否意圖相似，綜合考慮提出問題句和過去問題句的相似程度，以及和過去問題句答案意圖的相似程度，進行答案的挑選。 [11]則認為使用者提出的問題句，可以透過網路上的領域知識庫(例如: eMedicinehealth)，找出答案提供給使用者。此篇論文的方法是先將網路上的知識 7.

(16) 庫內容轉為資料庫儲存，當使用者提出一個問題句時，會將問題句轉換為結構化查詢語言(Structured Query Language，SQL)至資料庫進行查詢，並且計算查詢到的結果是問題句答案的可能性，選可能性最大的結果作為答案提供給使用者。以上描述了幾種提供問題句答案給使用的方法，然而上述的方法皆是針對特定領域或類別的問題句進行答案的提供。為了提供不同領域的問題句答案，本論文利用網路搜尋引擎回傳的結果，摘要內容產生答案提供給使用者。. 2.2 問題分類將使用者提出之問題句進行分類，可以用來辨識相似的問題句、尋找相關的答案、推薦潛在的答案或是幫助回答者回答問題，近年來許多研究提出不同將問題句進行分類的方法，以下將分別介紹以往提出的方法。 [4]針對 cQA 系統上的問題句，根據使用者提出問題句之意圖進行分類，並透過機器學習的方法，基於問題句的內容以及問題句的 metadata 找出特徵建立預測模型。問題句的內容是擷取問題句的標題並經過將字詞全部轉成小寫、去除 stop words 和原形化等前處理後而產生，並且採用傳統的方法以 TF-IDF(Term Frequency-Inverse Document Frequency)找出在分類類別中具有代表性的字詞作為特徵。而問題句的 metadata 則是以問題句在提出時給予的主題標籤、提出問題句的時間，以及提出問題句的使用者過去經驗當作特徵値。 [1]針對 cQA 系統上的問題句，根據使用者所提出問題句之類別或主題，基於語言模型計算字詞權重的方法，自動將問題句進行分類。和傳統同樣以字詞作為分類依據的差異在於，問題句的內文相較於一般的文章所含有的字詞數量較 8.

(17) 少，且同樣的字詞在同一句問題句中可能不會重複出現，若利用傳統字詞權重的計算方式，無法有效的找出代表性字詞，因此，此篇論文著重於計算字詞在一個類別而非在一句問題句中的分布。首先對每個字詞利用語言模型計算在各個類別中出現的機率，再以此字詞在目前類別和其他類別出現的機率比例當作此字詞在目前類別的權重値，即可找出每個類別具有代表性的字詞進行分類。 [22]針對線上醫療論壇上使用者所提出的問題句，根據使用者所需資訊的意圖進行分類，並且在對問題句標示類別的過程中，觀察到在特定類別中會經常出現某些句型樣式，因此提出一個以句型樣式當作特徵利用支持向量器 (Support vector machine)將問題句進行分類之方法。以上描述了幾種問題句的分類方法，幾篇研究分別採用不同之觀點找出問題句的特徵，然而若使用問題句的 metadata 找出特徵則需收集過去龐大的歷史問題句記錄以及使用者資料，並對所學習到的模型進行分析。本論文是以不使用使用者資料為出發點，採用字詞分析挑選代表字詞當作特徵進行分類。. 2.3 辨識查詢面向辨識查詢面向是現今網路資訊搜尋中很重要的研究課題，當使用者利用網路搜尋引擎進行查詢時，辨識查詢之面向能幫助使用者更加快速找到欲搜尋資訊，而查詢面向之呈現方法包含了推薦和原始查詢之相關查詢或是擴展查詢之限定詞，以下將介紹查詢詞推薦和查詢詞擴展之相關研究。. 9.

(18) 2.3.1查詢詞推薦. 和原始查詢詞相關之查詢詞推薦主要分為即時查詢詞推薦以及非即時查詢詞推薦兩種。其中即時查詢詞推薦是在使用者尚未完成輸入查詢詞時，即根據現有輸入文字即時推薦後續可接的查詢字(論文[3]、[16])，而本論文是針對使用者已完成輸入提出的問題，尋找和問題相關之查詢詞，因此即時查詢詞推薦較不適用。目前非即時查詢詞推薦之研究大多是採用和原始查詢詞共同出現、分群結果或是機器學習等概念作為挑選或產生相關查詢詞推薦的方法(論文[6]、[8]、[17])，然而上述之方法都需考慮過去使用者之查詢紀錄，本論文是以不使用查詢紀錄為出發點，因此與大多數的研究相比將是一項挑戰。. 2.3.2查詢詞擴展. 查詢詞擴展(query expansion)又稱作 query refinement 或 query reformulation。目前查詢詞擴展的相關研究根據查詢詞的長短，研究方法也不大相同。對於字數較少的短查詢詞，查詢的意圖可能較模糊不清難以辨別，導致回傳的查詢結果含有不相關資訊，針對短查詢擴展是在原始查詢詞後加入相關的字詞，以提升查詢結果的準確度。[18]提到擴展短查詢詞的方法，根據資料來源可分為使用區域(Local)資料以及全域(Global)資料兩種方法，並針對此兩種方法進行分析比較。. 10.

(19) 使用區域(Local)資料當作資料來源的方法，採用虛擬相關回饋文章(pseudo relevance feedback document)來擴展查詢詞，此方法利用原始查詢詞以搜尋引擎進行查詢，並且回傳結果排名越前面的和查詢詞越相關，選取回傳結果前幾名的文章內容並去除 stop words 當作資料來源，接著計算資料來源中每個字詞的出現頻率，若出現頻率越高則代表和查詢詞越相關，選取出現頻率較高的字詞加入原始查詢詞後方擴展查詢詞。[21]考慮到網頁搜尋結果頁面除了相關文章亦包含不相關資訊，例如:圖片或是贊助此網頁公司的廣告，而網頁設計者在設計網頁時通常會將網頁內容進行組織，以利使用者方便閱讀。因此，此論文提出以視覺為基礎的網頁分割演算法將網頁進行分割，並偵測在網頁結構中和查詢詞語意相關的部分。[14]則認為當查詢詞模糊不清含有不同主題時，使用者可能同時對兩個或以上的主題感興趣。因此，此論文提出如何從資料來源中，挑選多樣化擴展字詞的方法。使用全域(Global)資料當作資料來源的方法，則是使用一個大的語料庫，檢查在整個語料庫中和查詢詞共同出現的字以及和查詢詞的關係，利用這些資訊來擴展查詢詞。然而每次擴展查詢詞都要針對整個大語料庫進行搜尋找出相關資訊，會花費相當大的成本，為了節省成本一般的作法則是採用已經存在的詞庫資源，例如:WordNet 或是 ConceptNet，來找出和查詢詞相關的字詞(論文[2])。而近幾年除了使用區域(Local)資料以及全域(Global)資料當作資料來源外，亦有研究採用使用者歷史搜尋紀錄當作資料來源擴展查詢詞(論文[5]、[15])。此方法需先收集過去使用者所下的查詢詞，以及利用此查詢詞進行搜尋後所點選的網頁，探討使用者查詢意圖，用以擴展查詢詞。. 11.

(20) 對於字數較多的長查詢詞，較有利於從查詢詞中分析所含有的資訊，但隨著字數的變多干擾字(noise)也隨著變多。因此，對於長查詢詞的研究分析主要可分為兩種類型，一種是著重於計算長查詢詞內子查詢的分部找出最佳的子查詢，另一種則是著重於計算字詞權重找出代表字詞。 [19]著重於計算長查詢詞內子查詢的分部，並且在此論文中考慮到可以替換的子查詢詞，因此將子查詢進行改寫後的查詢詞亦當作子查詢的一種，並計算子查詢的分佈，最後找出最佳的子查詢。 [7]、[9]則著重於計算字詞權重，選擇查詢詞中的關鍵字詞推薦給使用者，而查詢詞內字詞權重計算的主要方法在先使用原始查詢詞作查詢，根據查詢結果找出較重要的字詞。當一字詞出現的頻率越高，則代表此字詞較為重要，且當重要字詞常和其他重要字詞一起出現時，此字詞的權重也會增加，利用迭代的算法更新字詞權重並且考慮此字詞的逆向文件頻率(Inverse Document Frequency)。本論文希望找出問題句中的查詢面向，而使用者提出的問題句所含的字數通常較多，可視為一個長查詢，因此本論文將參考長查詢詞之擴展方法並加以修改。. 2.4 事實資訊摘要當使用者透過搜尋引擎獲得查詢結果，若能針對查詢結果自動找出相關文件並摘要重點，則可幫助使用者快速瀏覽到查詢結果的重點資訊。 [12]提出以查詢關鍵字以及主題面向代表字，產生主題面向查詢結果資訊摘要的方法。當使用者給予查詢關鍵字，為了符合使用者查詢的摘要提供給使用者，摘要需包含具體的內容且能提供有效的資訊給使用者，此論文利用搜尋網頁 12.

(21) 所提供的“查詢字推薦”以及“相關搜尋”服務，用以辨識查詢面向。該論文是以原始查詢詞，以及原始查詢詞加上主題面字之搜尋結果當作資訊來源，再利用所收集之資訊，計算資訊中每個句子的主題面向分數以及資訊性分數進行挑選，產生主題面向摘要。 [20]提出自動擷取面向事實資訊摘要的方法。在此論文中會將查詢關鍵字與面向關鍵字結合，透過搜尋引擎得到查詢結果，以查詢結果中的文字敘述片段 (snippet)作為資料來源，並提出文字敘述片段在一般面向上重要性分數和查詢面向上重要性分數的計算方法，最後採用綜合考慮內容資訊重要性以及多樣性的摘要句挑選方法，分別產生查詢關鍵字一般面向資訊摘要及面向事實資訊摘要。本論文將利用上述兩篇論文之面向事實資訊自動擷取之技術，首先根據使用者給予之問題句找出使用者欲查詢的查詢主體及查詢面向，再利用查詢主體及查詢面向摘要搜尋結果內容，提供使用者想要的事實資訊。. 13.

(22) 第三章問題句分類方法當使用者提出問題句，會先使用本論文所提出的問題句分類方法，將使用者提出的問題句分成事實問題句及非事實問題句兩類問題。問題句分類方法分成離線訓練(Offline training)以及在線測試(Online testing)兩部分，如圖 2 所示。. 圖 2 問題句分類方法流程圖. 在離線訓練時，首先蒐集屬於兩項分類類別的問題句，將蒐集到的問題句進行問題前處理。接著將處理過的問題句透過字詞分析，擷取出兩類別之代表性的 14.

(23) 字詞當作分類特徵，並建立分類模型(Classification Models)以供在線測試時進行問題分類。在線測試時，同樣先將使用者提出的問題進行問題前處理，接著擷取出問題中的類別代表字詞並以特徵向量表示，套用已建立的分類模型，即可得到其預測的分類結果。本章節將詳細說明問題句的前處理過程、特徵擷取方法、以及分類模型建立方法。. 3.1. 問題前處理當使用者提出一個問題後，首先須對問題進行問題前處理，包括詞性標記以. 及字詞原型化。 <1> 詞性標記本論文採用史丹佛大學自然語言處理研究小組所研發的 Stanford Log-linear Part-Of-Speech Tagger(http://nlp.stanford.edu/software/tagger.shtml)套件軟體，為問題中的每一個字詞標記出詞性。圖 3 所示為一個問題句透過詞性標記處理的結果，其詞性符號為 Penn Treebank 所定義的 POS(Part-Of-Speech)Tagger 標記，如 NN(名詞)、NNS(複數名詞)、DT(冠詞)、VBD(動詞，過去式)、WP(代名詞)及 IN(介係詞)等代表字詞在該句中的詞性。. 圖 3 詞性標記結果. 15.

(24) <2> 字詞原型化英文單字會因為句子的時態、文法或是單複數而有所變化，例如 “think”、 “thought”及“thinking”等，若將這些字詞視為不同的字詞處理，對後續的字詞頻率計算時會造成影響，因此我們使用字根還原工具將字詞進行原型化處理。本論文採. 用. Martin. Porter. 所. 提. 出的. Porter. Stemming. Algorithm. (http://tartarus.org/~martin/PorterStemmer/)進行處理。. 3.2. 特徵擷取為了挑選出兩類別的代表字詞作為特徵字詞，首先分別蒐集屬於兩類別的問. 題句，以𝑄𝑓 表示所有蒐集的事實問題句集合，若總共取 n 個事實問題句，每個事實問題句以𝑞𝑓_𝑖 表示(i=1,2,…,n)，則𝑄𝑓 ={𝑞𝑓_1 , 𝑞𝑓_2 ,…, 𝑞𝑓_𝑛 }，以𝑄𝑛𝑓 表示所有蒐集的非事實問題集合，若總共取 n 個非事實問題句，每個非事實問題句以𝑞𝑛𝑓_𝑖 表示(i=1,2,…,n)，則𝑄𝑛𝑓 ={𝑞𝑛𝑓_1 , 𝑞𝑛𝑓_2 ,…, 𝑞𝑛𝑓_𝑛 }。接著將兩類別問題集合內的問題經過問題前處理後，共可以得到 m 個相異的字詞，每個字詞以 𝑤𝑗 表示 (j=1,2,…,m)。對字詞𝑤𝑗 分別計算在𝑄𝑓 中的出現頻率，以及在𝑄𝑛𝑓 中的出現頻率，一般來說，若字詞𝑤𝑗 出現頻率有達到一定程度時，則代表字詞𝑤𝑗 在此類別中具有一定程度的重要性。令字詞𝑤𝑗 在𝑄𝑓 中的出現機率以𝑃𝑓 (𝑤𝑗 )表示，計算方式如公式一所示，其中𝑤𝑗 ∈ 𝑞𝑓_𝑖 表示𝑤𝑗 在問題句𝑞𝑓_𝑖 有出現。字詞𝑤𝑗 在𝑄𝑛𝑓 中的出現機率以 𝑃𝑛𝑓 (𝑤𝑗 )表示，計算方式如公式二所示，其中𝑤𝑗 ∈ 𝑞𝑛𝑓_𝑖 表示𝑤𝑗 在問題句𝑞𝑛𝑓_𝑖 有出現。. 16.

(25) 𝑃𝑓 (𝑤𝑗 ) =. 𝑃𝑛𝑓 (𝑤𝑗 ) =. |{𝑞𝑓_𝑖 |𝑞𝑓_𝑖 ∈𝑄𝑓 ⋀ 𝑤𝑗 ∈𝑞𝑓_𝑖 }| |𝑄𝑓 |. |{𝑞𝑛𝑓_𝑖 |𝑞𝑛𝑓_𝑖 ∈𝑄𝑛𝑓 ⋀ 𝑤𝑗 ∈𝑞𝑛𝑓_𝑖 }| |𝑄𝑛𝑓 |. (公式一). (公式二). 【範例 3-1】挑選各類別重要字詞之範例假設蒐集的事實問題句集合及非事實問題句集合經前處理後，如表 2 所示。透過公式一及公式二計算所有字詞分別在兩類別中的出現機率，計算結果如表 3 所示。假設字詞𝑤𝑗 在其中一類別出現的機率大於 0.6，代表𝑤𝑗 為此類別的重要字詞，根據結果顯示，對於類別為事實問題句較為重要的字詞有 {What, is, information, of, character}，類別為非事實問題句較為重要的字詞有{What, is, of, your, opinion}。表 2 事實問題句及非事實問題句集合問題句所屬集合. 問題句的內容. 𝑄𝑓. What is movie information of Inception. 𝑄𝑓. What is character information of Twilight. 𝑄𝑓. What is character information of Harry Potter. 𝑄𝑛𝑓. What is your honest opinion of Inception. 𝑄𝑛𝑓. What is your opinion of Twilight. 𝑄𝑛𝑓. What is your impression of movie Harry Potter. 17.

(26) 表 3 範例 3-1 與 3-2 計算結果範例 3-1. 範例 3-2. 𝒘𝒋. 𝑷𝒇 (𝒘𝒋 ). 𝑷𝒏𝒇 (𝒘𝒋 ). 𝑲𝑳𝒇 (𝒘𝒋 ). 𝑲𝑳𝒏𝒇 (𝒘𝒋 ). What. 1. 1. 0.00. 0.00. is. 1. 1. 0.00. 0.00. movie. 0.33. 0.33. 0.00. 0.00. information. 1. 0. 2.02. -0.02. of. 1. 1. 0.00. 0.00. Inception. 0.33. 0.33. 0.00. 0.00. character. 0.67. 0. 1.25. -0.02. Twilight. 0.33. 0.33. 0.00. 0.00. Harry. 0.33. 0.33. 0.00. 0.00. Potter. 0.33. 0.33. 0.00. 0.00. your. 0. 1. -0.02. 2.02. honest. 0. 0.33. -0.02. 0.52. opinion. 0. 0.67. -0.02. 1.25. impression. 0. 0.33. -0.02. 0.52. 18.

(27) 在這個範例中我們可以發現，若挑選在各類別中出現機率值較高重要的字詞作為代表字詞時，可能發生字詞𝑤𝑗 同時被挑選為事實問題句及非事實問題句重要字詞的情況。此情況代表字詞𝑤𝑗 並沒有足夠的類別代表性，或是字詞𝑤𝑗 事實上並沒有實質的語意，通常為句子中的冠詞、介系詞或助詞等。為了改善上述情況，除了考慮字詞𝑤𝑗 在單一類別中出現的機率，同時相對考慮字詞𝑤𝑗 在另一個類別出現的機率是否有一定的差異。因此本論文透過 Kullback–Leibler divergence(以下簡稱 KL divergence)的計算挑選各類別中具代表特徵的字詞。 KL divergence 是用來比較兩個機率分布的差異程度，常用在資料檢索領域，當文字出現的機率分佈差異值越大，則代表兩個文件集合的內容差異越大，反之則代表兩個文件集合的內容十分相似。因此我們利用 KL divergence 的概念，計算一個字詞𝑤𝑗 在兩個類別間的出現機率差異程度，當字詞𝑤𝑗 在𝑄𝑓 中的出現機率大，並且相對於在𝑄𝑛𝑓 中的出現機率差異比例大，則這樣的字詞𝑤𝑗 為𝑄𝑓 中較具代表性的字詞。將一個字詞在𝑄𝑓 中的代表分數以𝐾𝐿𝑓 (𝑤𝑗 )表示，計算方式如公式三所示。反之，亦可算出一個字詞在𝑄𝑛𝑓 中的代表分數，以𝐾𝐿𝑛𝑓 (𝑤𝑗 )表示，計算方式如公式四所示。在公式三及公式四中為了避免分子出現 0 的情況，因此對於字詞𝑤𝑗 在 𝑄𝑓 中的出現機率和在𝑄𝑛𝑓 中的出現機率同時加上常數 c。. 𝐾𝐿𝑓 (𝑤𝑗 ) = (𝑃𝑓 (𝑤𝑗 ) + 𝑐)log. 𝑃𝑓 (𝑤𝑗 )+𝑐 𝑃𝑛𝑓 (𝑤𝑗 )+𝑐. 𝐾𝐿𝑛𝑓 (𝑤𝑗 ) = (𝑃𝑛_𝑓 (𝑤𝑗 ) + 𝑐)log. 𝑃𝑛𝑓 (𝑤𝑗 )+𝑐 𝑃𝑓 (𝑤𝑗 )+𝑐. 19. (公式三). (公式四).

(28) 【範例 3-2】挑選各類別代表字詞之範例以範例 3-1 為例，假設 c 為 0.01，若字詞𝑤𝑗 在𝑄𝑓 中的出現機率𝑃𝑓 (𝑤𝑗 )大於 0.6，且透過公式三計算字詞𝑤𝑗 在𝑄𝑓 中的代表分數𝐾𝐿𝑓 (𝑤𝑗 )大於 0.8，則表示字詞𝑤𝑗 為事實問題句具有代表特徵的字詞。同樣可計算字詞是否為非事實問題句的代表特徵字詞計算結果如表 3 所示。根據結果顯示，在範例 3-1 中同時被挑選為事實問題句及非事實問題句的重要字詞{What, is ,of}，所算出 KL 值並沒有大於一定程度，因此並不會被挑選為代表字詞。最後，找出事實問題句的代表字詞有{information, character}，非事實問題句的代表字詞有{your, opinion}。. 3.3. 分類模型本論文採用支持向量機器(Support Vector Machine, SVM)建立問題句分類模. 型，將使用者提出的問題句分為事實問題句及非事實問題句兩種類別。我們將訓練資料的問題使用上一小節所提出的方法擷取出兩類問題的代表特徵字，並以一個問題句是否出現(1 代表是，0 代表否)轉換成一個特徵向量表示，再採用 Chih-Jen Lin 所提供的軟件[23]建立 SVM 分類模型。在預測問題句類別時，同樣將問題句取出其特徵向量，輸入到訓練好的分類模型，即可得到其預測的分類結果，詳細的特徵向量建立方法將在 3.3.1 說明。而問題句的分類效果會受到從訓練資料所擷取出的類別代表特徵字詞影響，詳細的訓練資料蒐集將在 3.3.2 說明。. 3.3.1建立問題特徵向量. 令𝐹為已建立好的類別代表特徵字詞集合，對一個問題句 q 經過前處理後所 20.

(29) 包含的相異字詞，這些字詞所形成的集合以𝑞. 𝑡𝑒𝑟𝑚𝑠表示，若𝑞. 𝑡𝑒𝑟𝑚𝑠包含特徵字 𝑓𝑖 ∈ 𝐹，則𝑞在𝑓𝑖 特徵上的特徵值為 1，否則為 0。以圖 4 為例，左圖為代表特徵字詞集合 F，欲轉換的問題句為“What is author information of The Lord of the Rings?”，則經過轉換成對應的代表特徵字詞向量如圖 5 所示。. 圖 4 代表特徵字詞集合. 圖 5 代表特徵字詞向量. 3.3.2訓練資料蒐集. 問題的分類效果會受到從訓練資料所擷取的問題句分類代表特徵字詞影響，蒐集到的訓練資料越多，找出的代表特徵字詞將越具有代表性。然而當作訓練資料的問題若全部需以人工的方式進行分類標示，會花費龐大的人力以及時間。因此，本論文採用一種漸進式學習(Incremental Learning)的方式，先人工將一部分的問題句進行分類標示，接著讓電腦學習人工分類的方法，自動將問題句進行分類後再當作新加入的分類訓練資料，以下將說明漸進式學習分類的步驟，其 21.

(30) 方法流程圖如圖 6 所示。步驟一: 將蒐集的問題句，取一部分以人工的方式將問題句標記為事實問題句或非事實問題句。步驟二: 取相同數量的事實問題句和非事實問題句當作初始訓練資料，將這些問題句擷取出事實問題句以及非事實問題句的代表特徵字詞，並利用這些代表特徵字詞建立之特徵向量建立分類模型。步驟三: 取出部分尚未被標記類別的問題句，利用步驟二建立好的分類模型將問題句進行分類。步驟四: 本論文採用 SVM Regression 的方式進行分類預測，分類結果將顯示一個分數，若分數越靠近 1 代表越可能屬於 1 的類別，分數越靠近 0 代表越可能屬於 0 的類別。在此，類別 1 代表為非事實問題句，類別 0 代表為事實問題句。因此，在此步驟將挑選分類分數前𝑙高分和前𝑙低分的問題句，將這些問題加入到標記好的問題作為訓練資料。步驟五: 步驟二至四可重複直到分類正確率達到指定程度以上。. 圖 6 漸進式學習問題句分類流程圖. 22.

(31) 第四章擷取查詢關鍵字方法本論文是針對事實問題句提供摘要答案，因此當使用者提出的問題句進行問題句分類後，若分類結果為事實問題句則將再進一步擷取問題句的查詢關鍵字，方法流程如圖 7 所示。問題句的查詢關鍵字是由查詢主體字詞以及查詢面向字詞所結合而成，首先會將使用者提出的問題句產生候選查詢主體字詞，並且計算每個候選查詢主體字詞的分數，挑選最高分的當作問題句的查詢主體字詞，並將挑選到的查詢主體字詞從問題句中去掉，接著從剩餘的字詞中產生候選查詢面向字詞。對於每個候選查詢面向字詞以其特徵採用 SVM 分類器進行分類，分類為是否為查詢面向字詞兩種類別，最後將所有分類為是查詢面向字詞所成的集合為問題句的查詢面向字詞。以下章節將詳細說明擷取問題句中的查詢主體字詞，以及擷取查詢面向字詞的方法。. 圖 7 擷取查詢關鍵字方法流程圖. 23.

(32) 4.1. 擷取查詢主體字詞. 4.1.1產生候選查詢主體字詞. 當使用者提出的問題句在進行問題句分類時，已先經過問題句前處理對問題句中每個字詞標記詞性。本論文認為具名實體(named entity)以及複合名詞會是問題句中較重要的字詞，因此根據具名實體識別結果及複合名詞樣式規則擷取出問題句中的候選查詢主體字詞，取得方法及規則如下。 <1> 具名實體識別本論文採用史丹佛大學自然語言處理研究小組所研發的 Stanford Named Entity Recognizer (NER) (http://nlp.stanford.edu/software/CRF-NER.shtml)套件軟體，標記出問題句中出現的具名實體，如人名(Person)、組織(Organization)、地點 (Location)以及雜項(MISC)，每一個具名實體都當作一個候選查詢主體字詞。圖 8 所示為一個問題句透過具名實體識別處理的結果。. 圖 8 詞性標記結果. 24.

(33) <2> 複合名詞樣式規則本論文取出 POS 標記結果為名詞(NN)、形容詞(JJ)、動名詞(VBG)，以及冠詞(DT)四種詞性的字詞，且訂定複合名詞的形成規則如下:. (1) NN+:由單一名詞或多個名詞組合而成，如:“author”、“movie character”。. (2) JJ (VBG|NN)+:由形容詞後緊接著一個或多個名詞或動名詞組合而成，如: “best actor”。. (3) DT (VBG|NN)+:由冠詞後緊接著一個或多個名詞或動名詞組合而成，用此規則找出的候選查詢主體字詞將會去掉冠詞，如:“the death characters” 轉換為“death characters”。【範例 4-1】產生候選查詢主體字詞之範例當使用者所提出的問題句為“The Lord of the Rings who wrote this novel?”，本系統根據具名實體識別，及複合名詞樣式規則比對，會列出“Lord of the Rings”、 “Lord”、“Rings”及“fantasy novel”等候選查詢主體字詞，如圖 9 所示。. 25.

(34) 圖 9 範例 4-1 候選查詢主體字詞擷取結果令問題句 q 所產生的候選查詢主體字詞集合以 𝑞. 𝑇𝑐 表示，則 𝑞. 𝑇𝑐 ={𝑡1 , 𝑡2 ,…, 𝑡𝑚 }，其中 𝑡𝑖 (i=1,2,…,m)表示 q 中擷取出的候選查詢主體字詞。. 4.1.2蒐集問題相關文件為了計算𝑞. 𝑇𝑐 中每個候選查詢主體字詞的分數，本系統以問題句 q 作為查詢詞至 Google 搜尋引擎搜尋。由於擷取查詢結果的完整網頁內容需花費大量時間下載文件，因此我們只採用查詢結果所回傳的文字敘述片段(snippet)當作資訊來源，將查詢結果所回傳的每一則文字敘述片段視為一篇文件。我們認為搜尋結果排序較為前面的 snippet 與問題句較為相關，因此取得查詢結果中排序前 k 筆文字敘述片段作為與問題句相關的文件集，以𝐷𝑞 表示，𝐷𝑞 ={𝑑1 , 𝑑2 ,…, 𝑑𝑘 }。以範例 4-1 使用者所提出的問題句為例，並令 k = 10，則所蒐集與問題句相關的文件集，如表 4 所示。. 26.

(35) 表 4 範例 4-1 問題句相關文件集蒐集結果文件編號. 文件內容. d1. The Lord of the Rings is an epic high-fantasy novel written by English author J. R. R. Tolkien. The story began as a sequel to Tolkien's 1937 fantasy novel The .... d2. These, together with The Hobbit and The Lord of the Rings form a connected ...... Tolkien wrote of being impressed as a boy by S. R. Crockett's historical novel .... d3. The Lord of the Rings is a book by J.R.R. Tolkien, the sequel to his earlier ... The primary villain of the work, he created the One Ring to control .... d4. The Hobbit is a novel by J.R.R. Tolkien, set in Middle-earth. ... J.R.R. Tolkien wrote The Hobbit (as well as the first two books of The Lord of the Rings) during his .... d5. The writer's friend, C.S. Lewis, who wrote a review for the first part of "The Lord of the Rings", didn't believe the book would be a success either. However, his .... d6. JRR Tolkien wrote many more works besides his two most popular (The Hobbit and The Lord of the Rings). These mainly included more short ... This ordering of his imagination developed into the Book of Lost Tales. d7. (not published ... 20 Northmoor Road, Oxford, where Tolkien wrote The Lord of the Rings.. d8. A newly translated Russian novel retells Tolkien's "The Lord of the Rings" from ... The novel was written by Kirill Yeskov, a Russian paleontologist, and ... Some of the supporting characters from “The Lord of the Rings” — such .... d9. A meek hobbit of the Shire and eight companions set out on a journey to Mount Doom to destroy the One Ring and the dark lord Sauron.. d10. The Lord of the Rings is a film series consisting of three epic fantasy adventure films directed by Peter Jackson. They are based on the novel The Lord of the. 27.

(36) 4.1.3候選查詢主體字詞分數計算本論文提出一個評估字詞重要性分數的方法，對於𝑞. 𝑇𝑐 中的每一個候選查詢主體字詞𝑡𝑖 ，若計算出來的字詞重要性分數越高，則代表此字詞越有可能是問題句 q 的查詢主體字詞，最後挑選字詞重要性分數最高的當作問題句 q 的查詢主體字詞。我們認為可以從 4.1.2 小節所蒐集與問題句 q 相關的文件集合𝐷𝑞 所提供的資訊，考慮候選查詢主體字詞𝑡𝑖 在其中出現的頻率𝑑𝑓(𝑡𝑖 , 𝐷𝑞 )，以及在𝐷𝑞 中算出的核心分數𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑖𝑡𝑦_𝑠𝑐𝑜𝑟𝑒(𝑡𝑖 )，候選查詢主體字詞𝑡𝑖 對於問題句 q 的重要性分數計算方式如公式五所示。公式中的參數𝑤(𝑡𝑖 )是為了對最後的分數進行加權，因為我們認為透過具名實體識別的方式擷取出來的候選查詢主體字詞較為重要，若候選查詢主體字詞𝑡𝑖 是透過複合名詞樣式規則的方式擷取出來的，將乘以一個介於 0 到 1 之間的參數𝜌，並於實驗中調整選出可得到最好結果的𝜌值。. 𝑡𝑒𝑟𝑚_𝑠𝑐𝑜𝑟𝑒(𝑡𝑖 ) = 𝑤(𝑡𝑖 ) ∗ 𝑑𝑓(𝑡𝑖 , 𝐷𝑞 ) ∗ 𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑖𝑡𝑦_𝑠𝑐𝑜𝑟𝑒(𝑡𝑖 ) 1, 𝑖𝑓 𝑡𝑖 𝑖𝑠 𝑎 𝑛𝑎𝑚𝑒 𝑒𝑛𝑡𝑖𝑡𝑦 𝑤(𝑡𝑖 ) = { 𝜌, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒. (公式五). 公式五中的兩項算式說明如下: <1> 候選查詢主體字詞𝑡𝑖 在問題句相關文件集合𝐷𝑞 中出現的頻率𝑑𝑓(𝑡𝑖 , 𝐷𝑞 ): 我們認為若在問題句相關文件集合𝐷𝑞 中有多篇文件出現字詞𝑡𝑖 ，則此字詞很可能是問題句中重要性較高的字。因此，我們對於一個候選查詢主體字詞𝑡𝑖 ，統. 28.

(37) 計在問題句相關文件集合中出現的頻率以𝑑𝑓(𝑡𝑖 , 𝐷𝑞 )表示，計算方式如公式六。. 𝑑𝑓(𝑡𝑖 , 𝐷𝑞 ) =. |{ 𝑑𝑗 | 𝑑𝑗 ∈𝐷𝑞 𝑡𝑖 ∈ 𝑑𝑗 }|. (公式六). |𝐷𝑞 |. <2> 候選查詢主體字詞𝑡𝑖 在問題句相關文件集合𝐷𝑞 中的核心分數: 本論文將運用[9]所提出的概念，計算候選查詢主體字詞集合𝑞. 𝑇𝑐 中每個候選查詢主體字詞在問題句相關文件集合中𝐷𝑞 的核心分數。我們認為當一個字詞𝑡𝑖 在問題句相關文件集合中𝐷𝑞 中相較於另一個字詞𝑡𝑗 出現的頻率高，則代表此字詞較為重要且當相比較的字詞是重要字詞時，此字詞也會更重要，而增加此字詞的重要性權重。基於上述理論提出字詞在文件集中核心分數的計算方式，如公式七所示。. |𝑞.𝑇 |. 𝑐 𝐴(𝑡𝑖 ) = ∑𝑗=1,𝑗≠𝑖 𝐶𝑢𝑚𝑅𝐹(𝑡𝑖 |𝑡𝑗 ) ∙ 𝐴(𝑡𝑗 ). (公式七). 在公式七中𝐴(𝑡𝑖 )和𝐴(𝑡𝑗 )分別表示候選查詢主體字詞𝑡𝑖 和𝑡𝑗 的核心分數， 𝐶𝑢𝑚𝑅𝐹(𝑡𝑖 |𝑡𝑗 )表示候選查詢主體字詞𝑡𝑖 在問題句相關文件集合𝐷𝑞 中相對於𝑡𝑗 的累積相對頻率權重，𝐶𝑢𝑚𝑅𝐹(𝑡𝑖 |𝑡𝑗 )和𝐴(𝑡𝑗 )相乘後即為候選查詢主體字詞𝑡𝑖 依據𝑡𝑗 算出的重要性分數，最後將𝑡𝑖 依據其他候選查詢字詞算出的重要性分數加總，即為候選查詢主體字詞𝑡𝑖 的核心分數。而候選查詢主體字詞𝑡𝑖 在相關文件集合𝐷𝑞 中相對於𝑡𝑗 的累積相對頻率權重計算方式則如公式八所示。. 𝐶𝑢𝑚𝑅𝐹(𝑡𝑖 |𝑡𝑗 ) = ∑𝑑∈𝐷𝑞 𝑅𝐹(𝑡𝑖 |𝑡𝑗 , 𝑑𝑘 ). 29. (公式八).

(38) 在公式八中𝑅𝐹(𝑡𝑖 |𝑡𝑗 , 𝑑𝑘 )表示為候選查詢主體字詞𝑡𝑖，在一篇問題相關文件𝑑𝑘 中對於𝑡𝑗 的相對頻率權重。𝑡𝑖 分別將問題相關文件集合𝐷𝑞 中所有文件𝑡𝑗 進行頻率權重計算並加總，即為候選查詢主體字詞𝑡𝑖 在問題句相關文件集合𝐷𝑞 中相對於𝑡𝑗 的累積相對頻率權重。累積相對頻率權重，代表在問題句相關文件集合𝐷𝑞 中，候選查詢主體字詞𝑡𝑖 相較於𝑡𝑗 更為重要的程度。而候選查詢主體字詞𝑡𝑖 在一篇問題相關文件𝑑𝑘 中對於𝑡𝑗 的相對頻率權重計算方式如公式九所示。. 𝑙𝑜𝑔2 (1+𝑐(𝑡𝑖 ,𝑑𝑘 )). , 𝑖𝑓 𝑐(𝑡𝑗 , 𝑑𝑘 )) > 0 𝑅𝐹(𝑡𝑖 |𝑡𝑗 , 𝑑) = { 𝑙𝑜𝑔2 (1 + 𝑐(𝑡𝑖 , 𝑑𝑘 )) , 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒𝑠 𝑙𝑜𝑔2 (1+𝑐(𝑡𝑗 ,𝑑𝑘 )). (公式九). 在公式九中𝑐(𝑡𝑖 , 𝑑𝑘 )和𝑐(𝑡𝑗 , 𝑑𝑘 )分別表示候選查詢主體字詞𝑡𝑖 和𝑡𝑗 在問題句相關文件𝑑𝑘 中出現的次數。在計算時會將分子和分母同時加 1，避免分母為 0 的情況。最後計算結果大於 1 代表候選查詢主體字詞𝑡𝑖 在文件𝑑𝑘 中比𝑡𝑗 常出現，反之則相反。在候選查詢主體字詞集合𝑞. 𝑇𝑐 中，每個候選查詢主體字詞𝑡𝑖 都會利用公式七得到一個核心分數。因此我們可以將公式七簡潔地使用矩陣符號表示，如公示十。. 𝐴𝑇 = 𝐶𝑢𝑚𝑅𝐹 ∙ 𝐴𝑇. (公式十). 在公示十中， 𝐶𝑢𝑚𝑅𝐹 表示候選查詢主體字詞集合 𝑞. 𝑇𝑐 中所有字詞透過 𝐶𝑢𝑚𝑅𝐹(𝑡𝑖 |𝑡𝑗 )得到兩兩相對累積頻率的矩陣，𝐴𝑇 則表示𝑞. 𝑇𝑐 中所有的字詞之核心分數所成的向量。我們使用 Power iteration 來計算向量𝐴𝑇 的值，一開始先設定𝐴𝑇 中每一個字詞的核心分數為 1，隨著每次的計算更新向量𝐴𝑇 ，一直計算直到向量𝐴𝑇 內所有字詞核心分數大小的排序不再變動為止。 30.

(39) 【範例 4-2】候選查詢主體字詞核心分數計算之範例以範例 4-1 為例，使用者所提出的問題句為“The Lord of the Rings who wrote this novel?”，產生的候選查詢主體字詞為“Lord of the Rings”、“Lord”、“Rings”及 “fantasy novel”，並且所蒐集與問題句相關的文件集，如表 4 所示。在計算每個候選查詢主體字詞的核心分數時，首先會針對每個候選查詢主體字詞，計算在每一篇相關文件中對於其他候選查詢主體字詞出現的相對頻率權重，表 5 所示為“Lord of the Rings”在每一篇相關文件中對於“Lord”、“Rings”及 “fantasy novel”的相對頻率權重。表 5 “Lord of the Rings”對於其他候選查詢主體字詞的相對頻率權重 d1. d2. d3. d4. d5. d6. d7. d8. d9. d10. Lord. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0.63. Rings. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1. fantasy novel. 0.63. 1. 1. 1. 1. 1. 1. 1.58. 0. 1. 然後對每個候選查詢主體字詞，計算在每一篇相關文件中對於其他候選查詢主體字詞的相對頻率權重累積加總，便可以得到𝐶𝑢𝑚𝑅𝐹兩兩相對累積頻率的矩陣，如圖 10 所示。. 31.

(40) 圖 10 CumRF 兩兩相對累積頻率矩陣接著設定𝐴𝑇 中每一個字詞的核心分數初始值為 1，並透過公式七計算向量𝐴𝑇 中每個候選查詢主體字詞的核心分數並且更新向量𝐴𝑇，為了避免向量𝐴𝑇 內的值越來越大，更新向量𝐴𝑇 後會將字詞分數進行一般化，一直計算直到向量𝐴𝑇 的分數大小排序不再變動為止，如表 6 所示。最後每個候選查詢主體字詞的核心分數即是不再變動的向量𝐴𝑇 內的分數。表 6 候選查詢主體字詞核心分數向量更新 Lord of the Rings. Lord. Rings. fantasy novel. Initial. 1. 1. 1. 1. 1. 0.84. 1. 0.84. 0.23. 2. 0.90. 1. 0.90. 0.72. 4.2. 擷取查詢面向字詞. 4.2.1產生候選查詢面向字詞. 為了避免找出的查詢面向字詞和查詢主體字詞相同，首先會將 4.1 小節所述. 32.

(41) 方法擷取出的查詢主體字詞從問題句中去掉，再從問題句中剩餘的字詞擷取出候選查詢面向。然而問題句中剩餘的字詞可能含有沒有實質語意的字詞，例如“a”、 “is”、“in”及“and”…等字，我們稱之為停用字(stop words)，這些字詞較不可能是查詢面向字詞。因此，本論文使用 TEXT FIXER 提供的 stop words 列表判斷一個字詞是否為停用字，若判斷為停用字便會將這個字詞去除。將問題中剩餘的字詞取出 unigram 作為候選查詢面向字詞集合，以𝐹𝑇𝐶 表示，若以𝑓𝑡𝑖 (i=1,2,…m)表示一個候選查詢面向字詞，則𝐹𝑇𝐶 ={𝑓𝑡1 , 𝑓𝑡2 ,…, 𝑓𝑡𝑚 }。【範例 4-3】產生候選查詢主體字詞之範例使用者所提出的問題句為“The Lord of the Rings who wrote this fantasy novel?”，利用本系統擷取查詢主體字詞的方法，可以找出問題句的查詢主體為 “Lord of the Rings”，接著分別將查詢主體字詞“Lord of the Rings”及停用字“The”、 “who”、“this”從問題句中移除，問題句中剩餘的字詞取出 unigram“wrote”、“fantasy” 及“novel”作為候選查詢面向字詞，如圖 11 所示。. 圖 11 範例 4-3 產生候選查詢面向字詞結果 33.

(42) 4.2.2查詢面向特徵擷取. 本研究對候選查詢面向字詞採用三種特徵進行分類，分類為是否是查詢面向字詞，表 7 顯示這三種特徵表示式和簡要說明。表 7 候選查詢面向字詞擷取出之特徵特徵編號 F1 F2~F21 F22. 表示式. 說明. 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑓𝑡𝑖 ). 𝑓𝑡𝑖 在問題句中和查詢主體字詞之間的距離. 𝑠𝑝𝑒𝑒𝑐ℎ(𝑓𝑡𝑖 ). 𝑓𝑡𝑖 在問題句中的詞性. 𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑖𝑡𝑦_𝑠𝑐𝑜𝑟𝑒(𝑓𝑡𝑖 ) 𝑓𝑡𝑖 在問題句相關文件集合中的核心分數. 以下為各特徵的詳細說明: 1.. 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑓𝑡𝑖 ):若候選查詢面向字詞和查詢主體字詞距離越近，越有可能是和查詢主體相關的面向字詞，因此可以做為一項特徵考慮，其定義如下:. 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑓𝑡𝑖 ) = |𝑝𝑜𝑠𝑖𝑡𝑖𝑜𝑛(𝑡𝑎𝑟𝑔𝑒𝑡 𝑡𝑒𝑟𝑚) − 𝑝𝑜𝑠𝑖𝑡𝑖𝑜𝑛(𝑓𝑡𝑖 )|. 2.. (公式十一). 𝑠𝑝𝑒𝑒𝑐ℎ(𝑓𝑡𝑖 ): 𝑓𝑡𝑖 在問題句中的詞性，總共分為 20 種詞性，如表 8 所示，並以 0 和 1 表示候選查詢面向字詞是否為此詞性。. 34.

(43) 表 8 查詢面向字詞之詞性特徵編號 F2. F3. F4. F5. F6. 3.. 詞性 JJ 形容詞 RB 副詞 NN 名詞 VB 動詞 AUX 助動詞. 編號 F7. F8. F9. F10. F11. 詞性 CC 對等連接詞 CD 純數 DT 限定詞 IN 介系詞 MD 情境助動詞. 編號 F12. F13. 詞性 PDT 前限定詞 POS 誰的. 編號. 詞性 UH. F17. F18. 感嘆詞 WDT wh-判定詞. PRP F14. F15. F16. 人稱代名詞 RP 質詞 TO. F19. WP wh-代名詞. F20. F21. WRB wh-副詞 BV Be 動詞. 𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑖𝑡𝑦_𝑠𝑐𝑜𝑟𝑒(𝑓𝑡𝑖 ): 該候選查詢面向字詞 𝑓𝑡𝑖 在問題句相關文件集合𝐷𝑞 中算出的核心分數，由公式七求得。. 【範例 4-4】候選查詢面向字詞特徵值計算範例以範例 4-3 為例，使用者提出的問題句為“The Lord of the Rings who wrote this fantasy novel?”，本系統所擷取的查詢主體字詞為“Lord of the Rings”，產生的候選查詢面向字詞為“wrote”、“fantasy”及“novel”，其特徵值如表 9 所示。. 35.

(44) 表 9 候選查詢面向字詞特徵值計算範例. 𝑓𝑡𝑖. F F F F F F F F F F F F F F F F F F F F F 1 1 1 1 1 1 1 1 1 1 2 2 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1. F22. wrote. 2 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0. 81.65. fantasy 4 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0. 49.3. novel. 5 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0. 87.26. 本論文採用支持向量器(Support Vector Machine, SVM)分類法，對每個候選查詢面向字詞進行分類，分類為是否為查詢面向字詞兩種類別。我們將訓練資料取出上述所描述的各種特徵值，採用 Chih-Jen Lin 所提供的軟件[23]建立 SVM 分類模型。對於一個事實問題句，同樣取出候選查詢面向字詞上述各種特徵值，套用已建立的分類模型，即可得到其預測的分類結果。最後將分類結果是查詢面向字詞類別的所有候選查詢面向字詞結合，可以得到問題句的查詢面向字詞。在範例 4-4 中，假設候選查詢面向字詞預測的分類結果“wrote”及“novel”是查詢面向字詞，而“fantasy”不是查詢面向字詞，最後得到問題句的查詢面向字詞為 “wrote novel”。. 36.

(45) 第五章查詢結果摘要方法 5.1. 事實資訊摘要方法關於查詢結果摘要的方法，本論文採用本研究室過去在網頁搜尋結果重要面. 向事實內容自動擷取之研究技術 SR-Summarization [20]。此篇論文是針對使用者給予的查詢主體以及多個事實面向，透過搜尋引擎得到查詢結果，以查詢結果中的文字敘述片段(snippet)作為資料來源，提出評估文字敘述片段在一般面向上重要性分數和事實面向上重要性分數的計算方法，分別產生查詢關鍵字一般面向資訊摘要及面向事實資訊摘要。如圖 12 所示，使用者以“harry potter”為查詢關鍵字，並且指定查詢面向為“actors”和“awards”，透過 SR-Summarization 提供一般面向資訊摘要，描述 harry potter 是一系列的奇幻小說，且作者為英國作家 J.K. Rowling，關於 actors 提供的事實面向資訊摘要，則列出參與 harry potter 演出的名單，關於 awards 提供的事實面向資訊摘要，則提到 harry potter 為美國“Teen Choice Awards(青少年票選獎)”得主。. 37.

(46) 圖 12 SR-Summarization 摘要結果. SR-Summarization 評估文字敘述片段在事實面向上重要性分數時會同時考慮面向代表性分數以及事實資訊性分數。 <1> 文字片段面向代表性分數計算文字敘述片段在面向 f 的面向代表性分數時，首先取得文字敘述片段中的代表字詞，接著計算每個代表字詞 w 在 f 的面向代表性分數並加總，即為文字敘述片段在 f 的面向代表性分數。而計算代表字詞 w 在 f 的面向代表性分數時，同時考慮字詞 w 在面向 f 的資料來源中出現的頻率，並考慮該出現頻率是否大於 w 在其他面向之資料來源中出現的頻率，若字詞 w 在面向 f 的資料來源中出現的頻率很大，且相對於其他面向的資料來源中出現的頻率較大，則代表字詞 w 在面向 f 中具有代表性。 <2> 文字片段事實資訊性分數計算文字敘述片段在面向 f 的面向事實資訊性分數時，則是計算文字敘述片段中每個代表字詞 w 的面向事實資訊性分數並加總，即為該文字敘述片段的面向 38.

(47) 事實資訊性分數。而計算代表字詞 w 的面向事實資訊性分數時，是考慮字詞 w 在面向 f 的資料來源中，相對於全部面向資料來源的機率分布情形，若字詞 w 集中出現在面向 f，而其他面向很少出現字詞 w，則代表字詞 w 很可能是面向 f 的重要資訊字詞。相反地，當字詞 w 平均出現在各個面向中，則字詞 w 為面向 f 上的重要資訊字詞可能性較小。基於上述 SR-Summarization 方法評估文字敘述片段在事實面向的重要性分數時，必須相對其他面向同時進行考慮。因此，當使用者提出一個問題句後，利用本論文的方法擷取出問題句的查詢主體字詞，以及查詢面向字詞，若要運用 SR-Summarization 的事實資訊摘要方法，則需產生查詢主體字詞的其他面向字詞，方能有效的利用 SR-Summarization 方法產生各個面向的事實資訊摘要，並擷取使用者詢問的面向事實資訊摘要，做為答案提供給使用者。方法流程如圖 13 所示，首先會對擷取的查詢主體字詞產生候選查詢主體面向字詞，並計算每個候選查詢主體面向字詞的分數。為了避免挑選的候選查詢主體面向字詞面向相似，本研究會將候選查詢主體面向字詞進行分群，最後挑選前 x 高分且落在不同群的候選查詢主體面向字詞，當作查詢主體字詞的其他對照面向字詞。接著利用問題句的查詢主體字詞、問題句的查詢面向字詞，以及查詢主體字詞的其他面向字詞，利用 SR-Summarization 產生問題句的查詢面向事實資訊摘要。. 39.

(48) 圖 13 查詢結果摘要方法流程圖. 5.2. 產生查詢主體字詞之面向. 5.2.1產生候選查詢主體字詞之面向. 為了產生與查詢主體字詞有關的其他面向字詞，必須先蒐集和查詢主體字詞相關的文件，再從中挑選面向字詞。因此，本系統以查詢主體字詞𝑡𝑞 作為查詢詞至 Google 搜尋引擎搜尋，並將查詢結果所回傳的每一則文字敘述片段(snippet)視為一篇文件。我們認為排序結果較前面的文字敘述片段與查詢主體字詞較相關，因此取查詢結果中排序前 k 筆文字敘述片段作為與查詢主體字詞相關的文件集，並以𝐷𝑡 表示，則𝐷𝑡 = {𝑑𝑡1 , 𝑑𝑡2 ,…, 𝑑𝑡𝑘 }。接著針對查詢主體字詞相關的文件集𝐷𝑡 中每一篇文章𝑑𝑡 ，擷取候選查詢主體面向字詞。由於對𝑑𝑡 取出所有 unigram，會列出過多的候選查詢主體面向字詞，導致挑選面向字詞時計算字詞重要性的時間過長。因此，我們只挑選在查詢主體相關文件中較為重要的字詞，當作候選查詢主體面向字詞。我們認為根據具名實體識別，及複合名詞樣式規則擷取出的字詞較為重要。例如當查詢主體字詞為 “Lord of the Rings”，並假設取得查詢結果中排序前 20 筆文字敘述片段作為與查詢主體字詞相關的文件集，以 unigram 的方式列出的候選查詢主體面向字詞個 40.

(49) 數，以及只挑選具名實體識別及複合名詞樣式規則擷取出的字詞，所列出的候選查詢主體面向字詞個數統計如表 10 所示。表 10 不同方法產生之候選查詢主體面向字詞個數方法. unigram. 只挑選重要字詞. 候選查詢主體面向字詞個數. 1434. 128. 5.2.2挑選查詢主體字詞之面向. 為了從產生的候選查詢主體面向字詞中挑選前 x 個具有代表性的面向字詞，必須計算每個候選查詢主體面向字詞對於查詢主體字詞的重要性。在此我們採用傳統的方法以 TF-IDF 對每個候選查詢主體面向字詞進行評估，TF-IDF 實際上是：TF * IDF，TF 代表詞頻(Term Frequency)，IDF 代表逆向文件頻率(Inverse Document Frequency)，基本概念為一個字詞在一篇文章中出現的頻率越高，且在整個文件集合中出現的文章數越少，則此字詞在此篇文章中的代表性越高。而在本論文中計算候選查詢主體面向字詞𝑜𝑓𝑡𝑖 的詞頻時，字詞𝑜𝑓𝑡𝑖 有可能在多篇文件中出現，因此我們將綜合考慮所有文件中出現字詞𝑜𝑓𝑡𝑖 的詞頻，計算方式如公式十二所示，而逆向文件頻率的計算方式如公式十三所示。. 𝑆𝑇𝐹(𝑜𝑓𝑡𝑖 ) =. 𝐼𝐷𝐹(𝑜𝑓𝑡𝑖 ) = log. ∑𝑑𝑡 ∈𝐷𝑡. 𝑐(𝑜𝑓𝑡𝑖 ,𝑑𝑡 ) |𝑑𝑡 |. |𝐷𝑡 | |{ 𝑑𝑡 | 𝑑𝑡 ∈𝐷𝑡 𝑜𝑓𝑡𝑖 ∈ 𝑑𝑡 }|. 41. (公式十二). (公式十三).

(50) 當每個候選查詢主體面向字詞以𝑆𝑇𝐹(𝑜𝑓𝑡𝑖 ) ∗ 𝐼𝐷𝐹(𝑜𝑓𝑡𝑖 )的方式計算其重要性程度後，依其分數的大小排序。如圖 14 所示為查詢主體字詞“Lord of the Rings”，假設取得查詢結果中排序前 20 筆 snippets 作為與查詢主體字詞相關的文件集，產生的候選查詢主體面向字詞依 STF-IDF 分數計算後排序的結果。. 圖 14 候選查詢主體面向字詞依重要性分數排序結果. 對於候選查詢主體面向字詞，若依照 STF-IDF 分數高低直接挑選面向字詞，則很有可能挑出多個面向相似的面向字詞。因此，本論文除了考慮面向字詞重要性程度之外，亦考慮面向字詞多樣性。為了避免挑選面向相似的面向字詞，在此我們採用階層式分群法（hierarchical clustering）將候選查詢主體面向字詞依共同出現的相似性進行分群。階層式分群法是透過一種階層架構的方式，將資料層層反覆地進行聚合，以產生最後的樹狀結構，以下將講解階層式分群法的步驟[13]。步驟一:. 將每一個候選查詢主體面向字詞視為一個群聚（cluster），假設現在有 n 個候選查詢主體面向字詞，則將這 n 個字詞視為 n 個群聚𝐶𝑖 ，. 42.