系統架構

第三章概念式自動問答探索系統

第一節系統架構

由相關研究工作中對潛在語意分析 LSA 的介紹，我們知道 LSA 能用以描述詞鍵與語句 (Sentence) 或文件 (Document) 的隱含關係，因此，在本論文提出的概念式自動問答探索系統乃運用 LSA 找出問題與答案間用詞的關係，再佐以概念式查詢與答案類型的比對，期能更廣泛準確地找到使用者問題的解答。

圖 7 是 ACAF 的系統架構圖。當使用者將新問題 Q 輸入 ACAF 系統，ACAF 的處理流程如下：

1. 將問題 Q 斷詞切字，得到問題 Q 的關鍵字和疑問詞鍵 (Question Words)。

2. 將問題 Q 的關鍵字和問題與答案的詞鍵關係矩陣 (Wq-by-Wa Matrix) 加以比對，找出與問題 Q 最相關的 N 個答案詞鍵。

3. 將問題 Q 的關鍵字和問題概念 (Question Concept) 知識庫加以比對，

找到與問題最相關的 M 個問題概念。

4. 分別依據此 N 個答案詞鍵與 M 個問題概念，找到一些候選答案。

5. 根據答案類型知識庫篩選符合的答案類型，找出符合問題 Q 的真正解答。

圖 7：ACAF 系統架構圖

由上述的 ACAF 系統流程可知，ACAF 系統的成功與否，取決於問題與答案詞鍵關係矩陣、問題概念知識庫和答案類型知識庫，因此在提供問答探索的服務之前，必須先從訓練資料集 (Training Data Set) 中分別學習出問題與答案詞鍵關係矩陣、問題概念知識庫和答案類型知識庫，圖 8 為 ACAF 的學習機制架構圖。

Candidate Answers Wq-by-Wa

Matrix

Question Concepts

Find Top N Answer Words

Find Top M Concepts

Answer Type Knowledge Answer Type

Detection

The Answers

Segmentation

Keywords

Question Words

圖 8：ACAF 學習架構圖

首先針對訓練資料集(即問答集, QA Set)進行前置處理 (Preprocessing)，前置處理主要是在控制用詞的一致性，例如：台與臺、体與體、…等不同寫法的字，這些字的使用必須統一，以減去問答集的雜訊，提高後續學習的效能。

接著對問答集斷詞切字，本論文使用的是比對詞庫的方法，並採取最長符合 (Longest Matching) [Nei99]的策略，同時也會消去停用詞 (Stop Word)，例如：「我是一位交通大學資訊科學系的學生。」此一句子會斷詞成：「我」、「一位」、「交通大學」、「資訊科學系」、「學生」，其中「是」與「的」這些不具意義的詞都是停用詞，而對「交通大學」這一關鍵詞來說，雖然「交通」和「大學」

也都有出現在詞庫中，但是「交通大學」是由「交」字開始符合詞庫的最長關鍵詞，所以會切割為「交通大學」一詞，而不會斷為二詞「交通」和「大學」。

問答集中問題與答案經斷詞切字後所得到的關鍵詞，會輸入問題詞鍵與答案詞鍵關係的訓練流程，以學習出問題詞鍵與答案詞鍵的關係。

Answer Type Training Question Concept Training Wq-by-Wa Training QA Set

PreprocessingSegmentation

Q&A Keywords

Question in QA set

Question Words

Training Process of

Wq-by-Wa Matrix Wq-by-Wa

Matrix

Training Process of Question Concept

Training Process of Answer Type

Question Concept

Answer Type Knowledge

另一方面，在斷詞切字的處理過程中，除了一般關鍵詞外，因 ACAF 必須從問題中學習出答案類型，所以雖然在一般的斷詞切字中，會把像「為什麼」、

「何時」、「哪些」等的疑問詞鍵視為停用詞，本論文仍是將這些疑問詞鍵保留，

以便學習答案類型與疑問詞鍵的關係。

至於 ACAF 學習機制中的問答組詞鍵關係、問題概念知識庫和答案類型知識庫，分別在以下三節中闡述。

在文檔中概念式自動問答探索系統 (頁 34-37)

第三章 概念式自動問答探索系統

第一節 系統架構

第三章概念式自動問答探索系統

第一節系統架構