概念式自動問答探索系統

全文

(1)Automatic Concept-Based Answer-Finding System Student: Yi-Fen Chen. Advisor: Dr. Hao-Ren Ke, Dr. Wei-Pang Yang. Institute of Computer and Information Science National Chiao Tung University. ABSTRACT In this thesis, we propose an automatic concept-based answer-finding system (ACAF) that exploits LSA as its core technology. Users issue their new questions into the ACAF system by natural language, and the system will return suitable answers from the question-and-answer set (QA set). To accomplish its task, ACAF employs machine learning techniques to learn three kinds of knowledge: the relationship between question keywords and answer keywords, conceptual space, and answer-type knowledge. LSA is used learn the relation matrix between question keywords and answer keywords; LSA is used construct the conceptual space as well. In addition, a probabilistic model is employed to train the relations between interrogatives and answer types. According to these three knowledge bases, ACAF calculates the similarity of a new question and the answers in the QA set. ACAF not only compares keyword-similarity but also retrieves the concepts of the new question. In this manner, an automatic answer- finding system can be promoted to the semantic level. ACAF was evaluated by using a QA set about basketball and baseball rules, and average TRDR of 83.87%, average precision of 36.4% and average recall of 44.2% were achieved. Compared to ACAF W , the average increasing range of TRDR, precision, and recall are 17.75%, 8.53%, and 18.37% respectively. Keywords: Automatic Answer-Finding System、Latent Semantic Analysis、Conceptual Space、Answer Type Detection I.

(2) 概念式自動問答探索系統研究生: 陳意芬. 指導教授: 柯皓仁博士，楊維邦博士. 國立交通大學資訊科學研究所. 摘要本論文提出一套以潛在語意分析 (LSA) 為核心技術的概念式自動問答探索系統。自動問答探索系統能讓使用者以自然語言的方式輸入新問題，系統會從歷史問答集中找出符合的答案。此套概念式自動問答探索系統首先學習三種知識庫：問題詞鍵和答案詞鍵間的關係矩陣、概念空間知識庫和答案類型判別知識庫。其中，問題詞鍵和答案詞鍵間的關係矩陣以及建構概念空間知識庫係利用潛在語意分析學習而得，而疑問詞鍵與答案類型的關係則是以一機率模組學習而得。依據此三種知識庫，概念式自動問答探索系統會比對新問題與問答集中的答案之詞鍵相似度、概念描述相似度和答案類型相似度，不僅透過詞鍵比對，更擷取出問題的概念描述，以期將自動問答探索系統提昇至語意層面。實驗中，先人工建構了關於籃球和棒球規則的問答組，概念式自動問答探索系統的效能在排序準確度 (TRDR) 評估上平均可達 83.87%，準確率平均可達 36.4%，而查全率平均可達 44.2%；較非概念式的自動問答系統的效能在排序準確度、準確率和查全率的評估上，平均增幅分別為 17.75%、8.53%、18.37%。關鍵字：自動問答探索系統、潛在語意分析、概念空間、答案類型的判別. II.

(3) 致謝本論文能從無到完成，首先得感謝我的兩位指導教授，柯皓仁老師與楊維邦老師。在他們的指導下，開拓了我在資訊領域的眼界，訓練我獨立研究的能力，也培養我團隊合作時的技巧，不僅提供課業與研究方面的解惑，也在我日常生活上給予幫助與指導。謝謝交大資科資料庫實驗室的學長姊、學弟和同學們，因為有你們的集思廣義才讓我的碩士論文得以順利進行，讓我的研究生活增添了色彩。此外，還要感謝交大圖書館數位圖書資訊組的夥伴們在定期論文研討時給我的建議與指教。最後，要感謝關心我的家人和朋友們，你們的支持和鼓勵讓我能全心全意地投入我的學業與研究中，謝謝你們在我情緒低落時給我安慰，謹以這篇小小的論文獻給我最愛的你們。. May 19, 2003. III.

(4) 目錄英文摘要 ........................................................................................................................I 中文摘要 .......................................................................................................................II 致謝 ............................................................................................................................. III 目錄 ............................................................................................................................. IV 圖目錄 .......................................................................................................................... V 表目錄 ......................................................................................................................... VI 方程式目錄 ................................................................................................................VII 第一章簡介 ............................................................................................................... 1 第一節自動問答探索系統 ................................................................................... 1 第二節研究動機 ................................................................................................... 5 第三節研究目的 ................................................................................................... 6 第四節論文架構 ................................................................................................... 6 第二章相關研究工作 ............................................................................................... 7 第一節以統計技術為基礎的自動問答探索系統 ............................................... 8 第二節潛在語意分析 (Latent Semantic Analysis) ............................................ 12 第三節概念空間 (Concept Space) 的建立 ....................................................... 16 第四節答案類型 (Answer Type) 判別 ............................................................. 18 第三章概念式自動問答探索系統 ......................................................................... 27 第一節系統架構 ................................................................................................. 27 第二節問答組詞鍵關係的學習機制 ................................................................. 30 第三節概念空間的建構 ..................................................................................... 32 第四節答案類型判別知識的學習 ..................................................................... 38 第五節問答探索機制 ......................................................................................... 40 第四章實驗結果分析與評估 ................................................................................. 44 第一節實驗問答集與實驗設計 ......................................................................... 44 第二節評估方法 ................................................................................................. 45 第三節知識庫建構評估 ..................................................................................... 47 第四節 ACAF 查詢結果評估.............................................................................. 55 第五章結論與未來研究方向 ................................................................................. 59 第一節結論 ......................................................................................................... 59 第二節未來研究方向 ......................................................................................... 60 參考文獻 ..................................................................................................................... 62 附錄：ACAF 搜尋流程 (以常問問答集為例) ......................................................... 66. IV.

(5) 圖目錄圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖. 1：自動問答系統架構圖 ....................................................................................... 2 2：自動問答探索系統架構圖 ............................................................................... 4 3：相關研究工作發展 ........................................................................................... 7 4：利用 LSA 建構概念空間流程圖 .................................................................... 18 5：ACIRD 學習模組 ............................................................................................ 20 6：ACIRD 詞鍵語意網路示意圖 ........................................................................ 23 7：ACAF 系統架構圖.......................................................................................... 28 8：ACAF 學習架構圖.......................................................................................... 29 9：問答組詞鍵關係學習機制圖 ......................................................................... 31 10：ACAF 問題概念空間建構流程圖................................................................ 33 11：平均連結分群法之演算法 ........................................................................... 35 12：ACAF 訓練問答集 (運動規則問答集) ....................................................... 45 13：ACAF 訓練問答集 (常問問答集) ............................................................... 66 14：ACAF WC 的搜尋結果.................................................................................... 67 15：答案類型判別知識庫 (常問問答集)........................................................... 68 16： ACAF 的搜尋結果...................................................................................... 68. V.

(6) 表目錄表格表格表格表格表格表格表格表格表格表格表格表格表格表格表格表格. 1：NSIR 答案類型列表 ................................................................................... 24 2：NSIR 疑問詞與各個答案類型的關係表 ................................................... 25 3：NSIR 答案類型判別的 Template 實例表 .................................................. 25 4：詞鍵相似度矩陣實例 ................................................................................. 36 5：表格 4 套用平均相似度每一步驟的分群結果變化 ................................ 36 6：答案類型與可能出現的疑問詞鍵 ............................................................. 40 7：維度約化對問題與答案詞鍵關係建構的影響 (運動規則問答集)......... 48 8：維度約化對問題與答案詞鍵關係建構的影響 (一般參考問題問答集). 48 9：維度約化對問題與答案詞鍵關係建構的影響 (常問問答集)................. 49 10：維度約化和門檻值對概念空間建構品質的評量表 (運動規則)........... 52 11：維度約化和門檻值對概念空間建構品質的評量表 (一般參考問題) ... 53 12：維度約化和門檻值對概念空間建構品質的評量表 (交大常問問題)... 54 13：答案類型知識庫建構評估表 ................................................................... 55 14：ACAF 查詢結果效能評估表 (運動規則問答集) ................................... 56 15：ACAF 查詢結果效能評估表 (一般參考問題問答集) ........................... 57 16：ACAF 查詢結果效能評估表 (常問問答集) ........................................... 57. VI.

(7) 方程式目錄方程式方程式方程式方程式方程式方程式方程式. 1：查詢句與文件的相似度計算 ................................................................... 8 2：改良式 TF-IDF 模組 IDF 改善公式 ........................................................ 9 3：問答集中問題與答案詞鍵間的交互資訊值 ......................................... 10 4：翻譯因子模組表示法 ............................................................................. 11 5：潛在因子計算公式 ................................................................................. 11 6：EM 學習機制 .......................................................................................... 12 7：利用 LSA 計算二詞鍵的相似度 ............................................................ 18. 方程式 8：ACIRD 最明確節點的詞鍵支持值 sup ti ,C ............................................. 21 方程式 9：ACIRD 其它節點的詞鍵支持值 sup ti ,C ................................................. 22 方程式 10：關連性規則 t i → t j 的信任值 conf ti →t j 和支持值 sup ti → t j ..................... 22 方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式方程式. 11：ACIRD 微調分類知識 .......................................................................... 23 12：問題詞鍵 wq 與答案詞鍵 wa 的共同出現關係計算公式.................... 32 13：詞鍵相似度計算公式 ........................................................................... 34 14：疑問詞鍵 tj 的問題對某個答案類型 ATi 的可能性............................. 40 15：答案詞鍵 wa 與問題 q 的相關度.......................................................... 41 16：問題 q 與答案 a 詞鍵間的關係強度.................................................... 41 17：問題 q 與概念 c 的相似度.................................................................... 42 18：問題 q 與問題 q’在概念相似度 ........................................................... 42 19：預選答案篩選相似度 ........................................................................... 42 20：問題 q 屬於答案類型 AT 的可能性公式 ............................................ 42 21：問題 q 與問題 q’在答案類型上符合強度 ........................................... 43 22：問題 q 和答案 a 的相似度.................................................................... 43 23：TRDR 計算公式.................................................................................... 46 24：準確率計算公式 ................................................................................... 46 25：查全率計算公式 ................................................................................... 46 26：inter-cluster 計算公式 ........................................................................... 50 27：intra-cluster 計算公式 ........................................................................... 50. VII.

(8) 第一章第一節. 簡介. 自動問答探索系統. 隨著資訊科技的進步與數位化技術的迅速發展，有越來越多的數位化資訊藉由網路快速廣泛地傳播，讓網際網路儼然成為一個資訊的寶庫，資訊已垂手可得！透過網路雖然可以快速地獲取大量資訊，但對人們來說，面對過於龐大的資訊卻是沉重的負擔，因此過濾不需要的資訊，進而正確判斷出有用的資訊，已成為重要的課題！搜尋引擎的相關研究因而嶄露頭角。. 一般資訊擷取系統 (包括網際網路上的搜尋引擎 [Google03] [Yahoo!03] [Yam03]) 的操作模式大致如下：首先使用者輸入一筆查詢，這筆查詢通常由一些關鍵詞組成，之後資訊擷取系統就會根據使用者輸入的查詢，回傳與該查詢相關的文件，這些回傳的文件在傳統的資訊擷取系統中，就被認為和使用者資訊需求相關。此種資訊擷取系統面臨了二個主要的問題：(1)使用者必須遵循各個搜尋引擎的特殊用詞規則建構查詢；(2) 使用者的資訊需求往往是針對某一個問題的解答，資訊擷取系統所回傳的相關文件，僅僅與使用者輸入的查詢相關 ( 例如：文件中包含查詢的關鍵詞)，但大部分卻不是問題的解答 [Radev01][Radev02]。例如：當使用者想要知道「台灣最高的山峰是什麼？」時，其查詢可能包含「台灣」、「最高」、「山峰」等關鍵詞，搜尋引擎會找到這些與關鍵詞相關的文件，這些相關文件中只有一部分擁有該問題的解答，因此使用者必須經由逐一瀏覽每一篇回傳的文件後，才能找到「台灣最高的山峰是什麼？」的正確答案是「玉山」。為了解決上述的問題，自動問答系統 (Automatic Question Answering System)的相關研究便如雨後春筍般陸續出現[Prager00] [Pasca01] [Kwok01] [Radev01] [Radev02] [Pinto02] [Dumais02]。自動問答系統能讓使用者直接使用. 1.

(9) 自然語言輸入問題，系統則從文件集中找出正確的解答。例如：當使用者輸入的問題為「台灣最高的山峰是什麼？」時，自動問答系統就會找出該問題的答案是「玉山」。. 問題分析(Question Analysis) Query Formulation. Query. Answer Type Detection. Answer Type. Question. 答案擷取(Answer Retrieval) Answer Set. Answer Ranking. Answer Extraction. Sentence Retrieval. Document Retrieval. 圖 1：自動問答系統架構圖. 綜合自動問答系統的相關研究，可以整理出如圖 1 的自動問答系統架構圖，自動問答系統主要分為二個階段，首先是「問題分析 (Question Analysis)」階段，將使用者的問題經過查詢建構 (Query Formulation) 和答案類型判別 (Answer Type Detection)，分別產生適合資訊擷取系統的查詢與使用者問題的答案類型，這些答案類型指出問題的解答可能是「人名」、「組織名」或是「時間」等答案類型；其次是「答案擷取 (Answer Retrieval)」階段，這一個階段主要分為「文件擷取 (Document Retrieval)」、「語句擷取 (Sentence Retrieval)」、「答案抽取 (Answer Extraction)」、「答案評等 (Answer Ranking)」等步驟，這些步驟會因系統的不同而有所刪減。「文件擷取」的步驟是將之前產生的查詢輸入搜尋引擎以找出與問題相關的文件，這些文件中有一部分可能會包含問題的解答；而「語句擷取」是由每一篇相關文件中判斷出答案可能存在的語句，並找出最有可能包含答案的相關語句；在找出答案可能存在的語句後，會根據問題分析. 2.

(10) 階段所產生的答案類型，再經過「答案抽取」的步驟抽取出可能是答案的詞鍵片語；最後再經過「答案評等」使最正確的解答能在回傳的答案集中佔有較前面的排序位置，讓使用者得以快速地找到問題的解答。另一方面，受到網際網路的衝擊，圖書館的諮詢台已由面對面服務轉變為無時間空間限制的網路服務。然而在圖書館諮詢台的知識工作者，每天仍要處理許多讀者的問題，這些問題的重覆性高，因此當使用者發問時，若能利用自動問答系統找尋曾經發問過的類似問題並回覆給使用者，而不用再讓知識工作者親自回答，便能節省知識工作者的時間，提高工作效率。為了達成這一個目的，為圖書館諮詢台建立一個自動問答系統似乎是一個可行的辦法。但是，對圖書館的諮詢台來說，使用者提問的問題領域十分廣泛，因此為圖書館諮詢台所發展的自動問答系統應該要能處理各個領域的問題。此外，在自動問答系統相關研究中可以發現：這些自動問答系統雖然已由回答某一特殊專業領域 (Specific Domain) 的相關問題發展到可以回答一般性非專業領域 (General Domain) 的相關問題，然而所找到的答案準確率卻令人不夠滿意。因此將自動問答系統套用在圖書館諮詢台上，並不能準確地回覆使用者的問題！為了使自動問答系統能夠適用於圖書館諮詢台，本論文輔以搜尋引擎的機制，建構一個不同於前段所提的自動問答系統，為有所分別，我們稱此系統為自動問答探索系統 (Automatic Answer-Finding System) [Berger00]。自動問答探索系統是將圖書館諮詢台的知識工作者從前回答過的問題之回覆視為文件集，這種文件集有別於傳統資訊擷取系統的文件集，它不但包括了使用者所提問的歷史問題，更包含相對應的回覆，我們稱此文件集為問答集 (Question and Answer Set, QA Set)。而自動問答探索系統會從問答集中找出能回. 3.

(11) 答使用者新問題的回覆，這些回覆就是問答集中的答案部分。圖 2 為自動問答探索系統的架構圖，與搜尋引擎相似都是回傳答案的整篇文件內容，而不是像自動問答系統是回傳答案的關鍵詞鍵。例如：使用者輸入的問題是「台灣最高的山峰是什麼？」，自動問答系統回傳的是「玉山」這個答案的關鍵詞鍵；一般搜尋引擎回傳的是有關台灣山峰等的相關文件，至於答案只在一些文件中會出現；而自動問答探索系統回傳的是答案文件，在這篇答案文件中會有一部分會講述到台灣最高的山峰是玉山，此外還可能會有玉山的介紹或是台灣其它山峰的簡介。以圖書館諮詢台此一應用來說，我們認為自動問答探索系統是比較適合的。. Answer-Finding System Answer Retrieval Mechanism User Question. Answer Documents. QA Set. 圖 2：自動問答探索系統架構圖. [Berger00]所提出的自動問答探索系統主要是探勘在問答集中問題與答案的相關性，利用使用者提出的新問題和問答集中問題與答案間的語彙關係，來擷取問答集中符合新問題用詞的答案。但是往往使用者的新問題和問答集中問題與答案在所使用的詞鍵上並不完全一樣，因此若只是參考問題與答案間的語彙關係，當新問題與問答集中的某個問題是類似的，但因使用的語彙和問答集中的問題與答案不同，就無法找到符合新問題的回覆，這會降低系統的擷取效能。故本論文除了探勘出問答集中問題與答案間的語彙關係外，還利用潛在語意分析 (Latent Semantic Analysis, LSA) 的技術導入問題的概念空間 (Concept Space) ，只要新問題與問答集中的問題擁有相同的概念，問答集中的問題所相 4.

(12) 對應的答案就是符合新問題的回覆，這樣就能克服新問題與問答集中的問題使用不同語彙的狀況。此外，我們也納入了在自動問答系統中對答案類型 (Answer Type) 判別的步驟，讓系統所找到的答案內容能符合新問題問及的意圖，例如：如果新問題是「台灣最高的山峰是什麼？」，問的是山峰的名字，那麼答案內容應該有山峰的名字，而不能只是做台灣山峰地形的介紹。. 總結上述，本論文提出了一個「概念式自動問答探索系統 (Automatic Concept-Based Answer-Finding System, 簡稱 ACAF)」，ACAF 結合問題與答案間語彙關係、概念式查詢和答案類型判別三方面的知識，期能更準確地擷取出使用者新問題的解答。. 第二節. 研究動機. 一個自動問答探索系統除了要了解使用者的問題以外，還必須了解問答集中每一組問題與答案(在這裡我們稱為問答組)所表達的知識內容，進而根據問答集的知識內容，針對每一個新問題擷取出最佳的答案。以往自動問答探索系統的相關研究，評估答案的主要依據仍是問題與答案語彙上的比對，但我們認為要能找到問題的真正解答，必須要理解問題所詢問的概念和答案類型，進而比對問題與答案在概念傳達和答案類型的異同。藉由問題與答案詞彙的比對，再佐以傳達之概念和答案類型的異同，期望將自動問答探索系統提昇至概念式自動問答探索系統，使系統能更準確地找到使用者問題的真正解答。另一方面，答案類型判別的相關技術主要都是處理英文問題，由於英文和中文特性上的不同，因此既存的系統若要處理中文問題和文件，就必須在答案類型判別的技術上有所更動。. 5.

(13) 本論文的研究動機就是希望設計一套自動問答探索系統，並建構概念空間和答案類型的判別知識，更改良答案類型的判別技術，使系統能應用到中文。藉由導入概念空間與答案類型的判別，使此自動問答探索系統不僅能成功運用於探索中文問題的解答，更將此系統提昇至概念式自動問答探索系統。. 第三節. 研究目的. 本論文之研究目的在於探討自動問答探索系統的相關技術，著重如何建立概念空間，並以此概念空間為基礎建立概念式自動問答探索系統，使系統對使用者提問的問題能找到正確的解答。. 本論文的主要方法是運用潛在語意分析 (Latent Semantic Analysis, LSA) 建構問答集所表達的知識內容，首先建構問答集的問題和答案的隱含語彙關係，其次是建構問題的概念空間；此外，本論文也採用了機率模組，用來判別問題的答案類型。最後，針對我們所建構的概念式自動問答系統設計實驗，以顯示概念空間在自動問答探索系統上的可行性。. 第四節. 論文架構. 本論文首先在第二章大略介紹各項相關研究，包括自動問答探索系統、潛在語意分析、概念空間的建構技術和答案類型的判別；接著在第三章闡述我們提出的概念式自動問答系統 (Automatic Concept-Based Answer-Finding System, ACAF) 中，各主要模組的功能及採用的技術，分別介紹系統架構、學習機制和問答探索 (Answer-Finding) 機制；第四章是針對 ACAF 進行實驗，評估學習和探索效能，以證明 ACAF 的可行性；最後第五章總結本論文，並探討未來的研究發展方向。. 6.

(14) 第二章. 相關研究工作. 本章說明相關的研究工作。對本論文概念式問答系統採用的技術而言，相關研究工作主要分三方面： l l l. 自動問答探索系統：[Berger00] [Pasca01] [Dumais02] [Pinto02] 概念空間建立：[Park96] [Bellegarda96] [Chung99] [Aggarwal01] [Fu01] [Lin01] [Sugumaran02] 答案類型判別：[Prager00] [Pasca01] [Zelikovitz01] [Radev02] [Lin02]. 圖 3 依年份及技術整理了相關研究的發展，而粗體的部分是 ACAF 主要採取的方法。. Answer Finding. Dumais02 Berger00. Pasca01 Pinto02. Concept Space Construction Park96. Aggarwal01 Chung99. Fu01. Bellegarda96. Sugumaran02. Lin01. Answer Type Detection Pasca01. Radev02. Prager00 Zelikovitz01 1996. 1997. 1998. 1999. 2000. 2001. Lin02 2002. 2003. 圖 3：相關研究工作發展. 以下就這三方面逐一介紹，首先在第一節介紹[Berger00]以統計技術為基礎所提出的五種自動問答探索系統模組。接著第二節說明在傳統資訊擷取中探勘詞鍵潛在語意的技術：潛在語意分析 (Latent Semantic Analysis, LSA) [Landauer98]。而為了讓本論文的自動問答探索系統能結合概念搜尋，成為一個. 7.

(15) 概念式自動問答探索系統，因此第三節簡介建構概念空間與概念式搜尋引擎的相關研究。最後為了讓系統能精準地找出問題的答案，本論文導入使用者問題的答案類型判別，所以在第四節中介紹關於答案類型判別的發展。. 第一節. 以統計技術為基礎的自動問答探索系統. [Berger00]根據從資訊擷取所得到的經驗，針對自動問答探索系統提出了 5 種統計模組，這 5 種統計模組分別為：TF-IDF 模組、改良式 TF-IDF 模組、查詢詞鍵擴展 (Query Expansion) 模組、統計基礎翻譯 (Statistical Translation) 模組、潛在變數模組 (Latent Variable Models)，以下分別概略介紹這 5 種統計模組。 TF-IDF 模組. 2.1.1.. TF-IDF 模組是以資訊擷取技術為基礎，評估使用者新問題與問答集中答案的相似度，並將相似度最大的答案視為新問題的回覆。換句話說，TF-IDF 模組把使用者新提問的問題當作查詢句 q (Query)，將問答集中的每一個答案視為文件集的一篇文件 a，利用資訊擷取技術分別將此查詢句(即新問題)和文件集的文件(即問答集中的每一個答案)以詞鍵向量空間表示，利用方程式 1(a)評量查詢句 q 與文件 a 的相似度，與查詢句 q 相似度最高的文件即為使用者新問題的最佳回覆。. ( a) score ( q, a) =. ∑λ. w∈q ,a. ∑f w∈q. (b )λw = idf w = log. 2 w. q. ⋅ f q ( w) ⋅ f a ( w) ( w) 2 ∑ f a ( w) 2 w∈a. N dfw. 方程式 1：查詢句與文件的相似度計算. 8.

(16) 在方程式 1 中 N 為文件集中的文件總數； df w 是在文件集中出現詞鍵 w 的文件數； f q (w) 代表詞鍵 w 出現在查詢句 q 中的頻率； f a (w) 表示詞鍵 w 出現在文件 a 中的頻率； score (q , a) 為查詢句 q 和文件 a 的相似度。. 2.1.2.. 改良式 TF-IDF. 上述 TF-IDF 模組雖然簡單，但以問答組 (Question-Answer Pair) 為訓練集 (Training Set) 來說，依然是有改善的空間。改良式 TF-IDF 模組是由訓練集改善每一個詞鍵的 IDF 值，即前述方程式 1 中的 λw 。改善的方法是根據問答集中的每一組問答組，對每一詞鍵 w 利用登山法 (Hill Climbing) 修正其 IDF 值，提高同時出現在問題與相對答案中的詞鍵之 IDF 值，降低沒有同時出現在問題與相對答案中的詞鍵之 IDF 值。改善詞鍵 IDF( λw )值的方法是針對所有詞鍵 w，考慮所有問題與答案同時出現詞鍵 w 的問答組，並利用方程式 2 改善詞鍵 w 的 IDF( λw )值。. ( a)λw ← λw + r ( λ2w ) score(q, a* ) (b)λw ← λw − r ( λ2w ) score(q, a' ) 方程式 2：改良式 TF-IDF 模組 IDF 改善公式. 在方程式 2 中 r 代表學習速度參數 (Learning Rate Parameter)，其值介於 0 和 1 之間；q 是問答組的問題部分； a * 為該問答組的答案部分；而 a ' 表示其它問答組的答案； score 這一個函數可利用方程式 1(a)計算。一般情形下， λw 會根據方程式 2(a)修正，而方程式 2(b)只有在 score( q, a' ) > score( q, a* ) 時才會做調整。. 經過上述登山法的學習後，每一個詞鍵的 IDF 值就能更貼切地表示該詞鍵對每一個答案集中的答案之重要性，因此使用者新問題和問答集中的答案之相. 9.

(17) 似度就能利用方程式 1(a)計算得到，而在方程式 1(a)中的 λw 就是先前經登山法學習的 IDF 值。. 2.1.3.. 查詢詞鍵擴展 (Query Expansion) 模組. [Berger00]從這一個模組開始，將問答組中問題與答案所出現詞鍵間的關係納入考慮，運用這個關係來找出真正的答案。例如：若問題出現詞鍵「為什麼」，在對應的答案可能會出現詞鍵「因為」。查詢詞鍵擴展模組是利用問答集中問題詞鍵 u 與答案詞鍵 v 間的交互資訊值 (Mutual Information). I (u , v)，交互資訊值代表問題詞鍵 u 與答案詞鍵 v 的相. 關性，公式如下列方程式 3： ( a) I (u , v) = H ( p( v)) − p (u ) H ( p( v | u )) − p (u ) H ( p( v | u )) (b ) H ( p ) = − p log p − (1 − p) log( 1 − p ) ( c) p( v) = p( v ∈ a), p(u ) = p(u ∈ q ), p (u ) = p( u ∉ q) 方程式 3：問答集中問題與答案詞鍵間的交互資訊值. 其中，q 表示某一問答組中的問題，a 為該問答組中的答案。查詢詞鍵擴展模組先利用方程式 3 中的 I (u , v) 找出與使用者問題中所有問題詞鍵最相關的 n 個答案詞鍵，再把這些答案詞鍵加入原來使用者的問題查詢句中，增加問題查詢句在答案中可能出現的詞鍵，以提升系統的準確率。例如：若使用者問題中出現 why、site 和 windows 這些詞鍵，經過方程式 3 中的 I (u , v) 可找出與這些詞鍵最相關的答案詞鍵分別為 because、http 和 Microsoft，而查詢詞鍵擴充模組會將這三個答案詞鍵加入查詢中，使原本的查詢詞鍵擴充成： why、site、windows、because、http 和 Microsoft。. 2.1.4.. 統計基礎翻譯模組 (Statistical Translation). 10.

(18) 近年來統計基礎翻譯技術 (Statistical Machine Translation) 運用在解決文件擷取和文件自動摘要上有顯著的成效，因此[Berger00]運用相同的技術來解決在自動問答探索系統上的問題。[Berger00]運用問答集來學習如何由答案詞鍵轉換成問題詞鍵，例如：答案中若同時含有 at、location、place、street、directions 這些答案詞鍵，則這些答案詞鍵會一起轉換為 where 這一個問題詞鍵，藉此評量問答集中的答案成功翻譯為使用者新提問問題的可能性，可能性最高的答案即為使用者新問題的最佳回覆。在[Berger00]採用 IBM 所開發的翻譯模組技術 [Brown90]。. 2.1.5.. 潛在變數模組 (Latent Variable Models). 潛在變數模組利用因子模組 (Factored Model) 來表示前述問題與答案間的翻譯機制，表示法如方程式 4 所示： p ( wa | wq ) = ∑ p ( wa | z ) p ( z | wq ) z. 方程式 4：翻譯因子模組表示法. 其中 wq 為問題詞鍵； wa 為答案詞鍵；z 為一潛在因子向量，這些潛在因子向量形成一集合 Z。[Berger00]的潛在變數模組藉由 EM 演算法從問答集中學習出 p ( wa | z) 和 p ( z | wq ) 。學習的步驟如下：. 1.. 任意給定 p ( q | z) 、 p ( a | z ) 、 p ( wa | z) 和 p ( z | wq ) 初始值。. 2.. 利用方程式 5 計算潛在因子。. p ( z | q, a, wq , wa ) =. p (q | z ) p (a | z ) p ( wq | z ) p ( wa | z ) p ( z ) ∑ p (q | z ' ) p( a | z ' ) p ( wq | z ' ) p( wa | z ' ) p ( z ' ). z '∈Z. 方程式 5：潛在因子計算公式. 11.

(19) 3.. 針對每一問答組，利用上述方程式 5 所得到的潛在因子重新計算 p ( q | z) 、 p ( a | z ) 、 p ( wa | z) 和 p ( z | wq ) ，公式如方程式 6 所示。. ∑ λ(q, a , w , w ) / L. p (q | z) =. q. a. wq , a , wa. p (a | z) =. ∑ λ(q, a , w , w ) / L q. a. q ,wq , wa. p ( wq | z ) =. ∑ λ(q, a, w , w ) / L q. a. q ,a ,wa. p ( wa | z ) =. ∑ λ(q, a, w , w ) / L q. a. q ,a ,wq. λ( q, a, wq , wa ) = n( q, wq ) ⋅ n(a , wa ) ⋅ p ( z | q, a , wq , wa ) L=. ∑ λ(q, a , w , w ) q. a. q ,wq , a , wa. 方程式 6：EM 學習機制. 其中 n (q , wq ) 代表問題詞鍵 wq 出現在問題 q 中的次數； n (a , wa ) 代表答案詞鍵 wa 出現在答案 a 中的次數。. 由上述的學習機制，能夠找出最佳 p ( wa | z) 和 p ( z | wq ) 的值，再利用方程式 4 就能找出符合使用者新問題的答案。. 第二節. 潛在語意分析 (Latent Semantic Analysis). LSA 藉著統計的方法自動從文件集中粹取並表示詞鍵在文件中的內涵， [Landauer98]指出 LSA 能評估文件內容所隱含的知識，也能適當地表現人類在知識上的推演過程。. LSA 是以奇異值分解 (Singular Value Decomposition, SVD) 和維度約化 (Dimension Reduction) 為基礎的知識模組，SVD 是一種數學矩陣的分解技術，能將文件所隱含的知識抽象轉換到語意空間中，而維度約化能去除文件知識在語意空間中的雜訊，使 LSA 能更精確地推演出文件所隱含的知識。 12.

(20) 2.2.1.. LSA 的運作流程. LSA 的運作流程如下：. 1.. 將文件集中所有文件的 Context 表示為一個 Word-by-Context 矩陣 X。矩陣 X 中的每個元素 xij 表示詞鍵 wi 在 Context Pj 中的出現頻率或重要性。在這裡 Context 代表具有意義的一段文字，可能為 Sentence, Paragraph, Chapter, 或 Document，視需求而定。.  x11 x12 x x 22 X =  21  Μ Μ   xM 1 xM 2. 2.. Κ Κ Ο Κ. x1N  x2 N  Μ  xMN . 將矩陣 X 經過 SVD 分解後得到三個矩陣的連乘積： X = WSPT，其中 S 為一對角矩陣，代表語意空間 (Semantic Space) ；矩陣 W 的某一列向量 (Row Vector) 為該詞鍵在語意空間的表示法；矩陣 P T 的某一列向量為該 Context 在語意空間的表示法。. 3.. 利用維度約化，消除此語意空間中的雜訊，並重建矩陣 X ~ X ' = W ' S ' P'T。經過維度約化所得到的新語意空間 S ' 能較精確地描. 述詞鍵與 Context 所代表的意義。 2.2.2.. LSA 的實例說明. 以下利用在[Landauer98]中提到的實例來說明 LSA 的運作流程。這一個例子使用 9 個技術文件標題作為 Context。其中 5 個 Context 為關於人機互動 (Human Computer Interaction, HCI) 的相關文件，分別為 c1、c2、c3、c4、c5，其它 4 個 Context 是關於數學圖形理論 (Mathematical Graph Theory) 的相關文件，分別為 m1、m2、m3、m4。 13.

(21) Example of text data: Titles of Some Technical Memos [Human-Computer Interface] c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement [Mathematical Graph Theory] m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey 首先，從這些 Contexts 中挑選出現 2 次以上的詞鍵(斜體的部分)，共計 12 個，將這些詞鍵和 Context 建置為一個 Word-by-Context 的矩陣 X，矩陣 X 每一列為所選出的每一個詞鍵，每一行為一個 Context。將矩陣 X 經過 SVD 後，得到三個矩陣的連乘積，分別為 W 、 S 、 P T 。 c1 c2 c3 c4 c5 m1 m2 m3 m4    human 1 0 0 1 0 0 0 0 0    interface 1 0 1 0 0 0 0 0 0    0 0 0   computer 1 1 0 0 0 0  user 0 1 1 0 1 0 0 0 0    0 1 1 2 0 0 0 0 0   system X =  response 0 1 0 0 1 0 0 0 0  = WSP T   0 1 0 0 1 0 0 0 0   time  EPS 0 0 1 1 0 0 0 0 0    survey 0 1 0 0 0 0 0 0 1    0 0 0 0 0 1 1 1 0   trees  graph 0 0 0 0 0 0 1 1 1    0 0 0 0 0 0 0 1 1   minors. 14.

(22) 0.22 − 0 .11 0.29 0.20 − 0 .07 0.14  0.24 0 .04 − 0 .16  0.40 0 .06 − 0 .34 0.64 − 0 .17 0.36  0 .27 0.11 − 0.43 W =  0 .27 0.11 − 0.43  0.30 − 0 .14 0 .33 0 .21 0.27 − 0 .18  0 .01 0 .49 0 .23  0.22 0.04 0 .62 0.03 0 .45 0.14. − 0.41 − 0 .11 − 0.34 − 0 .55 − 0.59 0.10 0.33 0.07 0.07 0.19. 0 .52. 0.28 0 .50 − 0.07 − 0 .11 − 0.25 − 0.30 0.33 0.38 0 .00. − 0.06 − 0 .01 0 .06 0 .00. − 0.41  − 0.11  0 .49   0.01  0.27   − 0.05  − 0.05   − 0 .17  − 0.58  − 0.23   0 .23  0 .18 . − 0.16 − 0 .21 − 0.17 0 .03 0.08 − 0.17 0 .28 − 0.02 0.08 0 .11. − 0.17 0 .27. 0 .28 0.03. − 0.02 − 0.02. − 0 .03 − 0.54 0.08 − 0.47 − 0.04 0.03 0 .59 − 0.39 − 0.29 0 .25 0.00 − 0.07 0.11 0 .16 − 0.68 − 0.01 − 0.30. 0.28. 0 .34. 0 .68. 0 0 0 0 0 0 0 0  3.34  0 2.54 0 0 0 0 0 0 0    0 0 2.35 0 0 0 0 0 0    0 0 1.64 0 0 0 0 0   0 S= 0 0 0 0 1.50 0 0 0 0    0 0 0 0 1.31 0 0 0   0  0 0 0 0 0 0 0.85 0 0    0 0 0 0 0 0 0.56 0   0  0 0 0 0 0 0 0 0 0.36    0.20  − 0.06   0.11   − 0.95 P =  0.05   − 0.08  0.18   − 0.01  − 0.06 . 0.61 0.46 0.17 − 0.13 − 0.50 0.21 − 0.03 0.04 − 0.21 0.38 − 0.26 0.72 − 0.43 − 0.24 0.05 0.01 0.24 0.02. 0.54 0.28 0.00 0.01 − 0.23 0.11 0.19 0.44 0.57 − 0.51 0.10 0.19 0.27 0.15 0.02 0.02 − 0.21 0.33 0.39 0.35 − 0.37 0.03 − 0.30 − 0.21 0.26 0.67 − 0.34 − 0.15 − 0.02 − 0.06 0.45 − 0.76 − 0.08 − 0.26 − 0.62 0.02. 0.02 0.62 0.25 0.01 0.15 0.00 0.25 0.45 0.52. 0.08  0.53  0.08   − 0.03 − 0.60  0.36  0.04   − 0.07 − 0.45. 再經過維度約化，在這裡選擇新維度 (Dimension) 為 2，也就是保留矩陣 S 中最高的兩個數值，其餘的數值均設為 0，相當於只取三個矩陣 W 、 S 、P 的前 2 列，其餘值設為 0，分別得到 W ' 、 S ' 、 P'T 。重建矩陣後得到矩陣 X ' 。. 15.

(23)   human   interface  computer  user   system X' =  response   time  EPS   survey   trees  graph   minors. c1 c2 0.16 0.40 0.14 0.37. c3 0.38 0.33. c4 0.47 0.40. 0.15 0.51 0.36 0.26 0.84 0.61 0.45 1.23 1.05. 0.41 0.70 1.27. 0.16 0.58 0.16 1.58. 0.42 0.42. 0.38 0.38. 0.22 0.55 0.51 0.63 0.10 0. 53 0.23 0.21 − 0.06 0. 23 − 0.14 − 0.27 − 0.06 0.34 − 0.15 − 0.30 − 0.04 0.25 − 0.10 − 0.21. c5 m1 m2 m3 m4  0.18 − 0.05 − 0.12 − 0.16 − 0.09 0.16 − 0.03 − 0.07 − 0.10 − 0.04  0.24 0.02 0.06 0.09 0.12  0.39 0.03 0.08 0.12 0.19   0.56 − 0.07 − 0.15 − 0.21 − 0.05 0.28 0.06 0.13 0.19 0.22  = W' S ' P' T  0.28 0.06 0.13 0.19 0.22  0.24 − 0.07 − 0.14 − 0.20 − 0.11 0.27 0.14 0.31 0.44 0.42   0.14 0.24 0.55 0.77 0.66  0.20 0.31 0.69 0.98 0.85   0.15 0.22 0.50 0.71 0.62 . 比較 LSA 前後的矩陣 X 和 X ' 。考慮 tree 這一個詞鍵，因 tree 並沒有出現在 m4 這個 graph theory 的標題中，但 m4 包含了 graph 和 minors 這 2 個詞鍵，因此 tree 在 m4 的權重由在原矩陣 X 的 0，在經過 SVD 和維度約化後提昇為在矩陣 X ' 的 0.66。另一方面，考慮 survey 這個詞鍵，它在 m4 這一個 graph theory 標題中出現 1 次，因此在原矩陣 X 中的值為 1，經過 SVD 和維度約化後，在矩陣 X ' 中的值降為 0.42，這顯示了 survey 對 m4 這個 Mathematical Graph Theory 領域標題並不重要。由此可知，LSA 能粹取出詞鍵中隱含的語意，進而能估量詞鍵對每一個 Context 的重要性。. 第三節. 概念空間 (Concept Space) 的建立. 概念空間的建構主要分為三種方面。其一是人工建立概念空間 [Sugumaran02]；其二是建立詞鍵語意的關聯性，再經由分群自動產生概念空間 [Bellegarda96]、[Park96]、[Lin01]；其三為粹取文件的概念詞鍵，根據文件分群產生詞鍵群，並自動建構出概念空間[Fu01]。以人工建立概念空間需耗費大量的人力，且當概念改變時也較不易變更，因此近年來有許多研究致力於自動建立概念空間。而自動建立概念空間的技術. 16.

(24) 又可分為兩種，一種是利用文件分群，另一種是利用詞鍵分群。但因為文件所描述的概念往往不只一種，所以根據文件分群來產生的概念會過於籠統。因此在概念空間的建立方面大多採用詞鍵分群來產生。在詞鍵分群方面，首先必須建立詞鍵的語意關聯性，而建立詞鍵語意關聯性的方法主要分為二種，第一種是利用詞典 (Thesuarus) [Lin01]，如 WordNet、 HowNet。在詞典中已經明確定義了詞鍵語意間的相同、相似、相反、上下位等關係，所以直接查詢詞典便能得到二詞鍵的語意關聯性。但是要為某一領域建構一個完善的詞典需要花費大量的人力與時間，這並不是一件容易的事。建立詞鍵語意關聯性的第二種方法是藉由分析文件集產生詞鍵的語意關聯性。[Chung99]提出利用共同出現分析 (Co-occurrence Analysis) 來衡量詞鍵的語意關聯，[Chung99]認為若二詞鍵常常共同出現在同一篇文件中，則二詞鍵視為具有相似性，但若二詞鍵未在同一篇文件中共同出現，則二詞鍵就視為不具相似性。然而有時二詞鍵雖未共同出現於同一篇文件，但仍具有相似性，這二詞鍵的相似性可以藉由語意遞移性 (Transitive) 推演出，也就是若詞鍵 A 與詞鍵 B 相似，而詞鍵 B 與詞鍵 C 相似，雖然由共同出現分析將詞鍵 A 與詞鍵 C 視為不具相似性，但藉由詞鍵 B 利用語意遞移性可以推導出詞鍵 A 與詞鍵 C 具有語意關聯性。[Park96]就是利用貝氏網路 (Bayesian Network) 和語意遞移性找出二詞鍵間的語意關聯。. 在另一方面，[Bellegarda96]利用了 LSA 表達詞鍵隱含語意的能力來衡量詞鍵間的語意關聯，利用此語意關聯性的衡量產生概念空間。[Bellegarda96]的運作流程如圖 4 所示。首先先將文件集表示為一個 Word-by-Document 的矩陣 K；經過 SVD 和維度約化後，矩陣 K 變為 K = USV T → U ' S ' V 'T = K ' ，在 U ' 中的列向量 u'i 即為隱含語意的詞鍵表示法；根據上述所得到的詞鍵表示法再利用方程. 17.

(25) 式 7 即可計算二詞鍵的相似度；最後，套用任一分群演算法對詞鍵做分群，所得到的分群結果即為概念空間。. Construct. SVD and. Define a distance. Cluster the. Word-Document. Dimension. measure between the. singular vectors. Matrix. Reduction. singular vectors of. (any algorithm). words. 圖 4：利用 LSA 建構概念空間流程圖. Sim ( wi , w j ) = D( u'i , u ' j ) = cos(u 'i S ' , u ' j S ' ) =. u 'i S '2 u ' j. T. u 'i S ' u ' j S '. 方程式 7：利用 LSA 計算二詞鍵的相似度. 第四節. 答案類型 (Answer Type) 判別. 答案類型判別的相關研究主要分為二個方向，一為利用文件分類的方法判別答案類型，首先將每一個問題視為一篇文件，每一個答案類型視為一個分類，藉由一個學習機制，學習出每一個分類的知識，對一個新問題，經由之前學習出的分類知識，可以判別出這一個新的問題屬於哪一個答案類型；另一為問答系統 (Question Answering) 對答案類型判別上的研究工作，主要是利用語言學的一些經驗法則或是語句分析，來判斷每一個問題的答案類型，例如：如果問題中有出現「where」，那麼可以判定此問題的答案類型為「地名」。以下分別針對在答案類型判別二方面的相關研究做一些介紹。文件分類的相關研究. 2.4.1. 文件分類主要是依據文件的詞鍵特徵，而要學習文件分類的特徵首先要有一個訓練集 (Training Set)，此一訓練集包含事先人工指定好類別的文件，再利. 18.

(26) 用機器學習 (Machine Learning) 的技術學習每一個文件分類所具有的詞鍵特徵。對於一篇尚未分類的新文件，只要利用這些特徵就能判斷新文件所屬的分類。近期研究中[Lin02]成功導入資料探勘 (Data Mining) 的技術來改善文件的自動分類。. [Lin02]提到在全球資訊網上搜尋資料，主要有兩種方式。一種是搜尋引擎 (Search Engines)，如 Google 和 Alta Vista；另外一種是主題式目錄分類 (Topic Directories)，如 Yahoo!。這兩種方式各有缺點，搜尋引擎主要的缺點是因為它使用字串比對，但在語言中存在一義多詞或一詞多義的情況下，找出來的資料往往有許多不是使用者所需要的，因此準確率較低。主題式目錄分類的最大缺點就是需要藉由人工來完成分類的工作，當有新網頁加入時就需要人工歸類。另外主題式目錄分類所找到的文件只包含有登錄的網頁，因此查全率偏低。 [Lin02]希望能融合這兩種方法的優點以互補彼此的缺點，所以發展出 ACIRD (Automatic Classifier for the Internet Resource Discovery) 系統，期能有效且有效率地組織、搜尋網路上的文件。在[Lin02]中主要的核心就是從主題式目錄中已分類好的文件學習每一分類的知識表示法。. ACIRD 採用監督式學習 (Supervised Learning)，其學習機制主要分為三個部分。首先從已分類的文件初步學習出分類的知識，其次再從已分類的文件探勘出詞鍵間隱含的語意 (Implicit Term Semantics) 關連性規則 (Association Rules)，最後由探勘出的詞鍵關連性規則重新調整之前所學習的分類知識。 ACIRD 的學習模組如圖 5 所示。. 19.

(27) Documents. Preprocessing. Term. Feature. Process. Vector. Selection. Object Knowledge. Refined. Classification. Classification. Knowledge. Classification Knowledge. Knowledge. Stable. Classification. Term. Classification. Knowledge. Association. Knowledge. 圖 5：ACIRD 學習模組. 前處理 (Preprocessing Process). 1.. 在經過前處理後，每一個文件都可用一個詞鍵向量來表示，向量中每一個詞鍵都有一個相對應的支持值 (Support Value) 代表這個詞鍵在文件中的重要性。. 2.. 特徵選取 (Feature Selection) 經過前處理後所得到文件之詞鍵向量，其維度都會很大，導致後續學習過. 程的複雜度增加，因此利用特徵選取來降低詞鍵向量的維度。[Lin02]利用由經驗得到的門檻值 (Threshold)，消去所有支持值低於臨界值的詞鍵，留下具有代表性的特徵(即詞鍵)。 3.. 學習分類知識 (Learning Classification Knowledge). 20.

(28) 在 ACIRD 中每一個類別 (Class) 都可用一個晶格 (Class Lattice) 來表示。在晶格中每一個節點 (Node) 都表示一個類別，而每一個父節點 (Parent Node) 表示其子節點 (Child Node) 的集合，即此晶格是代表一個階層式的分類架構。一個沒有父節點的節點稱為最籠統節點 (the Most General Node)，而一個沒有子節點的節點稱為最明確節點 (the Most Specific Node)。 ACIRD 中每一個類別的分類知識也是以一個詞鍵向量來表示，每一詞鍵所對應的支持值表示這個詞鍵在此類別的重要性。分類知識的學習機制就是要學習出代表每一個類別的詞鍵向量，其步驟如下： (1) 先針對每一個最明確節點來說，因為最明確節點只包含文件，所以最明確節點 C 的詞鍵向量之支持值，可由在該類別下所有文件的詞鍵向量利用方程式 8 計算得到。. sup' sup. ti ,C. ti ,C. = =. ∑ sup oj. sup' MAX.   . t i ,o. j. t i ,C. sup'. ti , C.   . 方程式 8：ACIRD 最明確節點的詞鍵支持值 sup t i ,C. 其中 sup ti ,o j 代表詞鍵 ti 在文件 o j 中的支持值，而 o j 表示在類別 C 中的一個文件，而 sup ti , C 表示詞鍵 t i 在類別 C 中的支持值。. (2) 計算其它節點的詞鍵向量支持值。對於其它節點來說，除了可能包含子類別外，還有可能包含無法歸屬於所有子類別下的文件，因此其它節點詞鍵向量的支持值，必須考慮該類別 C 下的所有子類別和不包含在任何子類別下的所有文件。類別 C 的詞鍵向量支持值可利用方程式 9 計算得到。. 21.

(29) sup' sup. t i ,C. ti ,C. = =. ∑ sup oj. t i ,o. + j. ∑. cj. c j × sup. ti ,c j. sup' t i , C    sup'  ti ,C  . MAX. 方程式 9：ACIRD 其它節點的詞鍵支持值 sup t i ,C. 其中 o j 是屬於類別 C 且不屬於子類別 c j 的文件；而 c j 是類別 c j 下的文件數。. 4.. 探勘詞鍵關連性 (Mining Term Association) 將詞鍵視為探勘時的項目 (Item)，文件中每一個隱含資訊的段落視為探勘. 時的一筆交易 (Transaction)，而每一個類別則作為一個交易資料庫 (Transaction Database)。ACIRD 運用資料探勘的技術探勘詞鍵的關連性規則。在這裡只考慮一對一的關連性規則，即找出像 t i → t j 的關連性規則，表示詞鍵 t j 是詞鍵 t i 的相關詞，並且利用信任值 (Confidence) 和支持值 (Support) 來估量這兩個詞鍵的相關程度，其定義如方程式 10 所示。. conf sup 方程式 10：關連性規則 t i. ti → t j. ti → t. =. =. df C (t i ∩ t j ) df C (t i ). df C (t i ∩ t j ) DC. j. → t j 的信任值 conf ti →t j 和支持值 sup ti → t j. 其中 df C (t i ) 表示在類別 C 中出現詞鍵 t i 的文件數， df C ( t i ∩ t j ) 表示在類別 C 中同時出現詞鍵 t i 和 t j 的文件數， DC 為在類別 C 中的總文件數。. 經過探勘詞鍵關連性後，結合先前的分類知識圖 6(a)和詞鍵關連性圖 6(b) 可得到詞鍵語意網路示意圖如圖 6(c)。. 22.

(30) ：類別. ：詞鍵. (a). (b). (c). 圖 6：ACIRD 詞鍵語意網路示意圖. 微調分類知識 (Refinement of Classification Knowledge). 5.. 利用上述所探勘出的詞鍵關連性規則，可微調先前 3 所產生的分類知識。為了決定詞鍵在類別中的支持值，必須考慮所有在詞鍵語意網路圖中該詞鍵到該類別的路徑 (Path)，並根據所有的路徑藉由方程式 11 計算出該詞在類別中的支持值。. sup. * t ,c. =. MAX.   conf . t →tj. × conf. t j → tk. × ... ×. conf. ty → tz. × sup. tz,c.   . 方程式 11：ACIRD 微調分類知識. 由於要根據方程式 11 計算所有詞鍵的支持值需要花費很多時間，因此 [Lin02]根據「對一個最佳的路徑來說，其子路徑也是一個最佳路徑。」，進而導入 Greedy 演算法，以加快微調分類知識的速度。問題系統在答案類型判別上的相關研究. 2.4.2. [Radev02]中提出一個網際網路的問答系統，稱之為 NSIR，使用者以自然語言 (Natural Language ) 表達問題，NSIR 便從網際網路搜尋出解答，例如：一. 23.

(31) 個使用者輸入一個問題「Who was the first American in space?」，NSIR 必須找出「Alan Shepard」來回答使用者。 NSIR 的流程主要分為下列幾個步驟：首先必須先判別問題答案的類型，即判別問題所問的是人名、地名、組織名稱…等；接著利用問題所描述的關鍵字從搜尋引擎擷取出相關的文件；之後從這些相關文件抽取出可能包含答案的句子或段落；再來將這些句子或段落切割成一些片語 (Phrase) ，這些片語就是可能的答案；最後將這些答案重新排序，使愈符合問題的答案能排列在回傳結果的愈前方。 NSIR 的答案類型判別係採用語言學上的一些經驗法則，所採用的答案類型如表格 1 所示。由於 NSIR 所輸入的問題為英文，因此 NSIR 在答案類型判別上主要是根據英文的疑問詞 (Wh-word)，首先由訓練資料先分析這些疑問詞與各個答案類型的關係，如表格 2 所示。由表格 2 可知當疑問詞為 When 和 Why 時，答案類型只有唯一的可能，分別是 DATE 和 REASON；當疑問詞為 Who 和 Where 時，答案類型必須使用一些簡單的樣版 (Template) 判定問題的答案類型，一些 Template 的實例如表格 3 所示。 PERSON NUMBER DESCRIPTION RATE REASON NOMINAL. PLACE DEFINITION ABBREVIATION LENGTH DURATION OTHER. DATE ORGANIZATION KNOWNFOR MONEY PURPOSE. 表格 1：NSIR 答案類型列表. Wh-word Who(102). Types. Wh-word. PER(77) DES(19) ORG(6). What / which (233). 24. Types NOM(78) PLA(27) DEF(26) PER(18).

(32) Where(60) PLA (54) NOM(4), ORG(2). When(40). DATE(40). Why(1). REA(1). How(48). ORG(16) NUM(14) ABB(13) DATE(11) RATE(4) KNO(8) MON(3) PUR(2) REA(1) NUM(33) LEN(6) RATE(2), MON(2) DUR(3) REA(1), DES(1). 表格 2：NSIR 疑問詞與各個答案類型的關係表. Template. Types. Who is <Person Name>. DESCRIPTION. Who (manufacture | produce | grow | provide). ORGANIZATION. 表格 3：NSIR 答案類型判別的 Template 實例表. 疑問詞為 What/Which 的答案類型判別，先要將問題做語句詞性標記 (Part of Speech Tagging, POS Tagging)，若 What/Which 是 WDT (Determiner)，則答案類型的判別是根據緊接在 What/Which 的名詞片語來做辨別，例如：「What card company sells Christmas ornaments?」，What 由語句詞性標記得知為 WDT，因此答案類型是由 card company 判斷，又 card company 為一名詞片語，所以根據該片語的最後一個名詞 company 來辨別，這個名詞稱為資訊名詞 (Information Noun)，故這個問題的答案類型為 ORGANIZATION。若 What/Which 為 WP (wh-phrase) 時，首先根據緊接在後的動詞做判斷，例如：「What caused the Lynmouth floods?」，What 經語句詞性標記得知為 WP，由 caused 所意指的答案類型可知問題的答案類型為 DEFINITION；如果動詞無法做判斷(例如動詞為 Be 動詞)，則根據動詞之後的第一個名詞片語的最後一個名詞來辨別，例如：「What is the average salary of a professional baseball player?」，其第一個名詞片語為「the average salary」，由 salary 可知問題的答案類型為 MONEY。. 25.

(33) 當疑問詞為 How 或其它情況時，則必須由問句的資訊名詞來辨別，再根據資訊名詞所意指的答案類型來做辨別。. 26.

(34) 第三章. 概念式自動問答探索系統. 本論文提出一套概念式自動問答探索系統 (Automatic Concept-Based Answer Finding System, ACAF System)，結合潛在語意分析 (Latent Semantic Analysis, LSA)、概念式搜尋系統與答案類型的辨別機制，提高系統的效能。本章首先描述 ACAF 的系統架構；接著分別說明系統中三個主要模組的建構方式，分別是問答組詞鍵關係的學習機制、概念空間的建立、與答案類型的判別知識；最後闡述 ACAF 系統的問答探索機制。. 第一節. 系統架構. 由相關研究工作中對潛在語意分析 LSA 的介紹，我們知道 LSA 能用以描述詞鍵與語句 (Sentence) 或文件 (Document) 的隱含關係，因此，在本論文提出的概念式自動問答探索系統乃運用 LSA 找出問題與答案間用詞的關係，再佐以概念式查詢與答案類型的比對，期能更廣泛準確地找到使用者問題的解答。. 圖 7 是 ACAF 的系統架構圖。當使用者將新問題 Q 輸入 ACAF 系統，ACAF 的處理流程如下：. 1.. 將問題 Q 斷詞切字，得到問題 Q 的關鍵字和疑問詞鍵 (Question Words)。. 2.. 將問題 Q 的關鍵字和問題與答案的詞鍵關係矩陣 (Wq-by-Wa Matrix) 加以比對，找出與問題 Q 最相關的 N 個答案詞鍵。. 3.. 將問題 Q 的關鍵字和問題概念 (Question Concept) 知識庫加以比對，找到與問題最相關的 M 個問題概念。. 4.. 分別依據此 N 個答案詞鍵與 M 個問題概念，找到一些候選答案。. 27.

(35) 根據答案類型知識庫篩選符合的答案類型，找出符合問題 Q 的真正解. 5.. 答。. Question Concepts. Find Top N. Find Top M. Answer Words. Concepts. Segmentation. Keywords. Wq-by-Wa Matrix. Candidate Answers. Question Words. Answer Type. Answer Type Knowledge. Detection. The Answers. 圖 7：ACAF 系統架構圖. 由上述的 ACAF 系統流程可知，ACAF 系統的成功與否，取決於問題與答案詞鍵關係矩陣、問題概念知識庫和答案類型知識庫，因此在提供問答探索的服務之前，必須先從訓練資料集 (Training Data Set) 中分別學習出問題與答案詞鍵關係矩陣、問題概念知識庫和答案類型知識庫，圖 8 為 ACAF 的學習機制架構圖。. 28.

(36) QA Set. Wq-by-Wa Training Training Process of Wq-by-Wa Matrix. Segmentation. Preprocessing. Q&A Keywords. Wq-by-Wa Matrix. Question Concept Training Question in QA set. Training Process of Question Concept. Question Concept. Training Process of Answer Type. Answer Type Knowledge. Answer Type Training Question Words. 圖 8：ACAF 學習架構圖. 首先針對訓練資料集(即問答集, QA Set)進行前置處理 (Preprocessing)，前置處理主要是在控制用詞的一致性，例如：台與臺、体與體、…等不同寫法的字，這些字的使用必須統一，以減去問答集的雜訊，提高後續學習的效能。接著對問答集斷詞切字，本論文使用的是比對詞庫的方法，並採取最長符合 (Longest Matching) [Nei99]的策略，同時也會消去停用詞 (Stop Word)，例如：「我是一位交通大學資訊科學系的學生。」此一句子會斷詞成：「我」、「一位」、「交通大學」、「資訊科學系」、「學生」，其中「是」與「的」這些不具意義的詞都是停用詞，而對「交通大學」這一關鍵詞來說，雖然「交通」和「大學」也都有出現在詞庫中，但是「交通大學」是由「交」字開始符合詞庫的最長關鍵詞，所以會切割為「交通大學」一詞，而不會斷為二詞「交通」和「大學」。問答集中問題與答案經斷詞切字後所得到的關鍵詞，會輸入問題詞鍵與答案詞鍵關係的訓練流程，以學習出問題詞鍵與答案詞鍵的關係。. 29.

(37) 另一方面，在斷詞切字的處理過程中，除了一般關鍵詞外，因 ACAF 必須從問題中學習出答案類型，所以雖然在一般的斷詞切字中，會把像「為什麼」、「何時」、「哪些」等的疑問詞鍵視為停用詞，本論文仍是將這些疑問詞鍵保留，以便學習答案類型與疑問詞鍵的關係。. 至於 ACAF 學習機制中的問答組詞鍵關係、問題概念知識庫和答案類型知識庫，分別在以下三節中闡述。. 第二節. 問答組詞鍵關係的學習機制. 在[Berger00]中統計基礎翻譯模組 (Statistical Translation) 和潛在變數模組 (Latent Variable Models )，是利用前置工作所學習出問題與答案的詞鍵關係，從問答集中找出符合使用者問題的答案。此外根據 LSA 在傳統資訊擷取中的成功經驗，LSA 能探勘出詞鍵與 Context 間的隱含關係。因此我們認為若能善加利用 LSA，就可提高學習問答組詞鍵隱含關係的效能，進而改善探索的準確率 (Precision)。 LSA 是利用一個 Word-by-Context 的矩陣學習出詞鍵與 context 的隱含語意，因此如果利用問題詞鍵 (w q) 與答案詞鍵(wa )的共同出現關係建立一個 Wq-by-Wa 的矩陣 M，再套入 LSA，經過奇異值分解 (SVD) 與維度約化 (Dimension Reduction) 後，即可得到問題詞鍵與答案詞鍵的隱含關係矩陣 M’。問答組詞鍵關係的學習機制如圖 9 所示。. 30.

(38) Q&A Keywords. S. Construct Wq-by-Wa Matrix M. V D. Dimension Reduction. LSA New Wq-by-Wa Matrix M’. 圖 9：問答組詞鍵關係學習機制圖. 假設共有 n 組問答組，以 < qi , a i > 表示第 i 組問答組，qi 表示問題，ai 表示答案。要建立一個代表問題詞鍵 Wq 與答案詞鍵 Wa 之間共同出現關係的 Wq-by-Wa 矩陣 M，其步驟如下：首先，先將所有的問題詞鍵 wq 以 n 維的問題向量表示， wq = [ f wq1 , f wq 2 ,..., f wq n ] ，其中 f wq i 代表 wq 在 qi 中出現的頻率，同理所有的答案. 詞鍵 wa 亦可以 n 維的答案向量表示， wa = [ f wa1 , f wa 2 ,..., f wa n ] ，其中 f wa i 代表 wa 在 ai 中出現的頻率。接下來利用方程式 12 計算問題詞鍵 wq 與答案詞鍵 wa 的共同出現關係. mwq wa ，其中 kth answer 表示第 k 組問答組中答案的長度比例。在計算 mwq wa 時除以第 i 組問答組的答案長度比例 kth answer 的原因是：因為問題的用詞方面通常都較為簡短，但是答案的部分有時會因為有較詳細的說明而長度較長；此外，由觀察訓練資料集發現，當答案較為簡短時，問題與答案間的詞鍵關係較強，然而當答案較長時，由於答案的用字充斥著與問題較不相關的說明關鍵詞，因此問題詞鍵與大部分的答案詞鍵關係較弱，故除以答案長度比例以顯現問題與答案間的詞鍵關係會隨著共同出現的問答組之答案長度比例而有所不同。. 31.

(39) n. f wq k × f wa k. k =1. kth answer. mwq wa = ∑. | kth answer |= 1 +. ∑f. wa k. wa. 10. 方程式 12：問題詞鍵 wq 與答案詞鍵 wa 的共同出現關係計算公式. 最後利用每一個問題詞鍵與答案詞鍵共同出現的關係(如方程式 12 所示) 即可建立一個 Wq-by-Wa 矩陣 M，如下：  m wq1 wa1  m wq wa M = 2 1  Μ  m wq M wa1. m wq wa 1. 2. Λ. m wq 2 wa. Λ. Μ. Ο. m wq. M. 2. wa 2. Λ. m wq waN  1  mwq wa  2 N Μ   mwq waN  M . 藉由問題詞鍵和答案詞鍵共同出現之關係建立詞鍵關係矩陣 M 後，透過 LSA 之奇異值分解和維度約化此二步驟，得到詞鍵隱含關係矩陣 M’，矩陣 M’ 中的每一元素 m'wq wa 表示問題詞鍵 wq 與答案詞鍵 wa 之隱含關係。. 第三節. 概念空間的建構. 本節描述問答集中問題之概念空間 (Conceptual Space) 的建構方法。在問答集中可能有與新問題類似的問題，但因新問題的詞鍵與問答集中的詞鍵並不會完全一樣，此時若僅依據由問答集學習出的問題與答案詞鍵間的關係，並不能完全推導出符合新問題的答案可能出現的詞鍵。有鑑於此，我們希望建立問題的概念空間，讓新問題中所使用的詞鍵，能透過問題概念空間，從問答集中找到符合新問題所描述的概念之問答組，而這些問答組中的答案部分就是新問題可能的答案。. 32.

(40) 在 ACAF 中利用一些詞鍵來表示一個概念，例如：利用「回教」、「伊斯蘭教」等詞來描述「回教」此一概念，也就是說若新問題是與「伊斯蘭教」相關，而由所建立的概念空間可知「伊斯蘭教」與「回教」是同一個概念，因此除了從問答集中尋找由「伊斯蘭教」可能導出的答案詞鍵外，也會搜尋「回教」可能推導出的答案詞鍵。. ACAF 中問題概念空間的建構流程如圖 10 所示，我們同樣採用 LSA 的學習模組，希望能藉 LSA 先找出詞鍵與文件的隱含關係，以提高詞鍵相似度的正確性，進而改善利用詞鍵分群所建構的問題概念空間！. Questions in. Search. QA Set. Engine. Word. Related Documents of the same class. Segmentation & Indexing. SVD & Word-by-Doc. Dimension. Matrix X’. Reduction. Clustering. Word-by-Doc Matrix X. Concept1. Concept2. Concept3. 圖 10：ACAF 問題概念空間建構流程圖. 由於問答集中問題的字數通常都較少，若直接由問題來建立問題的概念空間，此概念空間會較不完整。有鑑於此，我們首先透過網路上的搜尋引擎收集建構概念空間的文件集，實作上是採用 Google [Google03]。先把問題的關鍵字利用 AND 形成查詢字串，再將查詢透過 Google 為每一個問題找到 5 篇相關文件，並將問題與相關文件合併為一個文件集，每一個問題與每一篇相關文件都 33.

(41) 是一篇文件，將此文件集經過斷詞切字 (Segmentation) 和計算權重並建立索引後，產生 Word-By-Document 的矩陣。經 LSA 重建矩陣後，用此矩陣的列向量表示相對應的詞鍵，再採用分群法將詞鍵分群，分群結果中的每一個群就代表一個概念。本論文建構概念空間所使用的分群法是採用平均連結分群法 (Average-Link Clustering) [Gose96]，演算法如圖 11 所示，斜體字代表變數， Clusters 代表分群結果，並利用集合表示，例如：w1 、w2 為一群，而 w3 、w4 為一群，則分群結果 Clusters ={{w1 , w2 }、{w3 , w4 }}。其詳細步驟如下：首先計算兩兩詞鍵的相似度 (Similarity)，公式如方程式 13 所示，並將高於某一門檻值 (Threshold ) 的相似度由高至低排序。接著將相似度最高的兩詞鍵 wi 和 wj，併為一群；接下來處理相似度次高的兩詞鍵 wk 和 wl，判斷 wk 是否能加入現有群中含有詞鍵 wl 的所有群，此外亦要判斷 wl 是否能加入現有群中含有詞鍵 wk 的所有群，若兩詞鍵 wk 和 wl 其中有一詞鍵不能加入現有群中，則兩詞鍵 wk 和 wl 再形成新的一群。之後再處理相似度第三高的兩詞鍵，處理方法與上述相同，並以此類推。. sim. w i ,w. j. ϖ ϖ wi ⋅ w j = ϖ ϖ wi w j. 方程式 13：詞鍵相似度計算公式. ϖ 在方程式 13 中， wi 代表在 LSA 重建的矩陣中，與詞鍵 wi 對應的列向量表示. ϖ ϖ 法，分子的部分為兩向量的內積，而 wi 表示 wi 的向量長度。因此當兩詞鍵對文件集中所有文件的重要性愈相似，則該二詞鍵的相似度就越高。. 34.

(42) 而要判斷一詞鍵 w 是否能加入某一群 C 中，主要是比較詞鍵 w 與群 C 中所有詞鍵的平均相似度，若平均相似度大於事先定義的門檻值，則詞鍵 w 可以加入群 C 中，否則詞鍵無法加入群 C 中。分群法中與平均連結分群法相似的技術還包括完整連結分群法 (Complete-Link Clustering) [Jain99]和單一連結分群法 (Single-Link Clustering) [Jain99]，此二種分群法與平均連結分群法的不同點在於：判斷某詞鍵 w 是否能加入某一群 C 時，完整連結分群法是比較詞鍵 w 與群 C 中所有詞鍵的相似度，若相似度均大於門檻值，則詞鍵 w 可以加入群 C 中；而單一連結分群法是比較詞鍵 w 與群 C 中所有詞鍵的相似度，只要有一相似度大於門檻值，則詞鍵 w 可以加入群 C 中。由於使用完整連結分群法所得到的概念會過於瑣碎，而使用單一連結分群法所得到的概念又太過籠統，因此本論文採用折衷的技術–平均連結分群法。 1. 2. 3. 4.. Input: word vectors and threshold T；Output Variable: Clusters=φ Count Similarities between words. Sims[] ? Sort the Similarities bigger than T. for i=0 To Size-of (Sims[]) (1) Let Sims[i] is the similarity of wj and wk. (2) NewCluster ← -1；Changes ← 0 (3) ∀cluster c in Clusters and wk in c, AVE ← the average of the similarities of wj and all words in c if (AVE ≥ T) then wj joins c and Changes ← Changes + 1 if (Changes > 0) then NewCluster ← NewCluster + 1 and Changes ← 0 (4) ∀cluster c in Clusters and wj in c, AVE ← the average of the similarities of wk and all words in c if (AVE ≥ T) then wk joins c and Changes ← Changes + 1 if (Changes > 0) then NewCluster ← NewCluster + 1 (5) if (NewCluster < 2) then New cluster c = {wj, wk} c joins Clusters 圖 11：平均連結分群法之演算法. 35.

(43) 以下以一個實例來說明平均連結分群法的每一個步驟。. 表格 4 為詞鍵的相似度矩陣，假設事先定義的門檻值為 0.5，表格 4 中灰底的部分為詞鍵相似度大於門檻值的詞鍵組。首先提取詞鍵間相似度大於 0.5 的詞鍵組，根據相似度由大至小分別為(A, F)、(A, E)、(B, F)、(A, D)、(A, C)、 (B, D)、(C, D)，依序考慮這此詞鍵組能不能加入現有群中，起始的分群結果為一空集合。 A A B. B. C. D. E. F. .3. .5. .6. .8. .9. .4. .5. .1. .8. .3. .5. .2. .4. .1 .3. C D E F. 表格 4：詞鍵相似度矩陣實例. 表格 5 為表格 4 套用平均連結分群法每一個步驟分群結果的變化，粗體字的部分為新產生的分群或發生變化的分群結果。詳細的分群步驟描述如下：步驟. 分群結果. 一. {A, F}. 二. {A, E, F}. 三四. {A, E, F}、{B, F} {A, E, F}、{B, F}、{A, D}. 五. {A, E, F}、{B, F}、{A, D}、{A, C}. 六七. {A, E, F}、{B, F}、{A, D}、{A, C}、{B, D} {A, E, F}、{B, F}、{A, D}、{A, C, E}、{B, D}. 表格 5：表格 4 套用平均相似度每一步驟的分群結果變化. 第一步：考慮(A, F)，因現在分群結果為空集合，故{A, F}自成一群。. 36.

(44) 第二步：考慮(A, E)，現在分群中僅有一群{A, F}，因此判斷 E 是否能加入 {A,. F} 中，先計算. E. 與此群 {A,. F} 的平均相似度，. Ave( Sim AE , Sim EF ) = (0.8 + 0.3) / 2 = 0 .55 ，因平均相似度大於門檻值 0.5，所以 E 能成功加入現有群{A, F}中形成{A, E, F}。第三步：考慮(B, F)，現在分群中僅有一群{A, E, F}，因此判斷 B 是否能加入 {A, E, F} 中，先計算 B 與此群 {A, E, F} 的平均相似度，. Ave( Sim AB , Sim BE , Sim BF ) = 0.4 ，因平均相似度小於門檻值 0.5，所以 B 不能加入現有群{A, E, F}中。此外現在的分群結果中沒有包含 B 的分群，因此{B, F} 形成一群。現在分群結果有二群，{A, E, F}、{B, F}。第四步：考慮(A, D)，現有分群中包含 A 的分群僅有一群{A, E, F}，因此判斷 D 是否能加入{A, E, F}中，先計算 D 與此群{A, E, F}的平均相似度，. Ave( Sim AD , Sim DE , Sim DF ) = 0.367 ，因平均相似度小於門檻值 0.5，所以 D 不能加入現有群{A, E, F}中。此外現在的分群結果中沒有包含 D 的分群，因此{A, D} 形成一群。現在分群結果有三群，{A, E, F}、{B, F}、{A, D}。第五步：考慮(A, C)，現有分群中包含 A 的分群有二群{A, E, F}和{A, D}，因此先判斷 C 是否能加入{A, E, F}中，計算 C 與此群{A, E, F}的平均相似度， Ave( Sim AC , Sim CE , Sim CF ) = 0.4 ，因平均相似度小於門檻值 0.5，所以 C 不能加入現有群{A, E, F}中。再判斷 C 是否能加入{A, D}中，計算 C 與此群{A, D}的平均相似度， Ave( Sim AC , Sim CD ) = 0.4 ，因平均相似度小於門檻值 0.5，所以 C 不能加入現有群{A, D}中。此外現在的分群結果中沒有包含 C 的分群，因此{A, C}形成一群。現在分群結果有四群，{A, E, F}、{B, F}、{A, D}、{A, C}。第六步：考慮(B, D)，現有分群中包含 B 的分群僅有一群{B, F}，因此判斷 D 是否能加入 {B, F} 中，先計算 D 與此群 {B, F} 的平均相似度，. 37.

(45) Ave( Sim BD , Sim DF ) = 0.3 ，因平均相似度小於門檻值 0.5，所以 D 不能加入現有群{B, F}中。另一方面，現在的分群結果中包含 D 的分群，僅有一群{A, D}，因此判斷 B 是否能加入{A, D}中，先計算 B 與此群{A, D}的平均相似度，. Ave( Sim AB , Sim BD ) = 0.4 ，因平均相似度小於門檻值 0.5，所以 B 不能加入現有群{A, D}中。因此{B, D}形成一群。現在分群結果有五群，{A, E, F}、{B, F}、 {A, D}、{A, C}、{B, D}。第七步：考慮最後一對詞鍵組(C, E)，現有分群中包含 C 的分群僅有一群 {A, C}，因此判斷 E 是否能加入{A, C}中，先計算 E 與此群{A, C}的平均相似度， Ave( Sim AE , SimCE ) = 0.65 ，因平均相似度大於門檻值 0.5，所以 E 能成功加入現有群{A, C}中形成新的{A, C, E}，現在分群結果仍有五群，{A, E, F}、{B, F}、{A, D}、{A, C, E}、{B, D}。另一方面，現在的分群結果中包含 E 的分群，有二群{A, E, F}和{A, C, E}，因此判斷 C 是否能加入{A, E, F}中，先計算 C 與此群{A, E, F}的平均相似度， Ave( Sim AC , Sim CE , Sim CF ) = 0.4 ，因平均相似度小於門檻值 0.5，所以 C 不能加入現有群{A, E, F}中。故最後利用平均相似度分群法得到的分群結果為：{A, E, F}、{B, F}、{A, D}、{A, C, E}、{B, D}。. 第四節. 答案類型判別知識的學習. 由答案類型判別的相關研究中可以發現，利用文件分類的技術來判別答案的類型，對於每一篇文件需要有較多的字數，然而對於我們要處理的問題來說，問題的描述通常都較為精短，因此較不適合，故在答案類型的判別方面，本論文參考[Radev02]中的作法，但因[Radev02]所處理的是英文的問題，然而 ACAF 回答的是中文的問題，而對中文的問題來說，若能抓取一些較重要的疑問詞鍵，例如：「為什麼」、「如何」、「多少」等，大部分都能直接做出答案類型的判斷，雖然這些疑問詞鍵對於問題與答案詞鍵關係和概念空間的建立是沒有意義的. 38.