第三章 概念式自動問答探索系統
第一節 系統架構
由相關研究工作中對潛在語意分析 LSA 的介紹,我們知道 LSA 能用以描 述詞鍵與語句 (Sentence) 或文件 (Document) 的隱含關係,因此,在本論文提 出的概念式自動問答探索系統乃運用 LSA 找出問題與答案間用詞的關係,再佐 以概念式查詢與答案類型的比對,期能更廣泛準確地找到使用者問題的解答。
圖 7 是 ACAF 的系統架構圖。當使用者將新問題 Q 輸入 ACAF 系統,ACAF 的處理流程如下:
1. 將問題 Q 斷詞切字,得到問題 Q 的關鍵字和疑問詞鍵 (Question Words)。
2. 將問題 Q 的關鍵字和問題與答案的詞鍵關係矩陣 (Wq-by-Wa Matrix) 加以比對,找出與問題 Q 最相關的 N 個答案詞鍵。
3. 將問題 Q 的關鍵字和問題概念 (Question Concept) 知識庫加以比對,
找到與問題最相關的 M 個問題概念。
4. 分別依據此 N 個答案詞鍵與 M 個問題概念,找到一些候選答案。
5. 根據答案類型知識庫篩選符合的答案類型,找出符合問題 Q 的真正解 答。
圖 7:ACAF 系統架構圖
由上述的 ACAF 系統流程可知,ACAF 系統的成功與否,取決於問題與答 案詞鍵關係矩陣、問題概念知識庫和答案類型知識庫,因此在提供問答探索的 服務之前,必須先從訓練資料集 (Training Data Set) 中分別學習出問題與答案 詞鍵關係矩陣、問題概念知識庫和答案類型知識庫,圖 8 為 ACAF 的學習機制 架構圖。
Candidate Answers Wq-by-Wa
Matrix
Question Concepts
Find Top N Answer Words
Find Top M Concepts
Answer Type Knowledge Answer Type
Detection
The Answers
Segmentation
Keywords
Question Words
圖 8:ACAF 學習架構圖
首先針對訓練資料集(即問答集, QA Set)進行前置處理 (Preprocessing),前 置處理主要是在控制用詞的一致性,例如:台與臺、体與體、…等不同寫法的 字,這些字的使用必須統一,以減去問答集的雜訊,提高後續學習的效能。
接著對問答集斷詞切字,本論文使用的是比對詞庫的方法,並採取最長符 合 (Longest Matching) [Nei99]的策略,同時也會消去停用詞 (Stop Word),例 如:「我是一位交通大學資訊科學系的學生。」此一句子會斷詞成:「我」、「一 位」、「交通大學」、「資訊科學系」、「學生」,其中「是」與「的」這些不具意義 的詞都是停用詞,而對「交通大學」這一關鍵詞來說,雖然「交通」和「大學」
也都有出現在詞庫中,但是「交通大學」是由「交」字開始符合詞庫的最長關 鍵詞,所以會切割為「交通大學」一詞,而不會斷為二詞「交通」和「大學」。
問答集中問題與答案經斷詞切字後所得到的關鍵詞,會輸入問題詞鍵與答案詞 鍵關係的訓練流程,以學習出問題詞鍵與答案詞鍵的關係。
Answer Type Training Question Concept Training Wq-by-Wa Training QA Set
PreprocessingSegmentation
Q&A Keywords
Question in QA set
Question Words
Training Process of
Wq-by-Wa Matrix Wq-by-Wa
Matrix
Training Process of Question Concept
Training Process of Answer Type
Question Concept
Answer Type Knowledge
另一方面,在斷詞切字的處理過程中,除了一般關鍵詞外,因 ACAF 必須 從問題中學習出答案類型,所以雖然在一般的斷詞切字中,會把像「為什麼」、
「何時」、「哪些」等的疑問詞鍵視為停用詞,本論文仍是將這些疑問詞鍵保留,
以便學習答案類型與疑問詞鍵的關係。
至於 ACAF 學習機制中的問答組詞鍵關係、問題概念知識庫和答案類型知 識庫,分別在以下三節中闡述。