簡介 - 概念式自動問答探索系統

第一節自動問答探索系統

隨著資訊科技的進步與數位化技術的迅速發展，有越來越多的數位化資訊藉由網路快速廣泛地傳播，讓網際網路儼然成為一個資訊的寶庫，資訊已垂手可得！透過網路雖然可以快速地獲取大量資訊，但對人們來說，面對過於龐大的資訊卻是沉重的負擔，因此過濾不需要的資訊，進而正確判斷出有用的資訊，

已成為重要的課題！搜尋引擎的相關研究因而嶄露頭角。

一般資訊擷取系統 (包括網際網路上的搜尋引擎 [Google03] [Yahoo!03]

[Yam03]) 的操作模式大致如下：首先使用者輸入一筆查詢，這筆查詢通常由一些關鍵詞組成，之後資訊擷取系統就會根據使用者輸入的查詢，回傳與該查詢相關的文件，這些回傳的文件在傳統的資訊擷取系統中，就被認為和使用者資訊需求相關。此種資訊擷取系統面臨了二個主要的問題：(1)使用者必須遵循各個搜尋引擎的特殊用詞規則建構查詢；(2) 使用者的資訊需求往往是針對某一個問題的解答，資訊擷取系統所回傳的相關文件，僅僅與使用者輸入的查詢相關 ( 例如：文件中包含查詢的關鍵詞)，但大部分卻不是問題的解答 [Radev01][Radev02]。例如：當使用者想要知道「台灣最高的山峰是什麼？」

時，其查詢可能包含「台灣」、「最高」、「山峰」等關鍵詞，搜尋引擎會找到這些與關鍵詞相關的文件，這些相關文件中只有一部分擁有該問題的解答，因此使用者必須經由逐一瀏覽每一篇回傳的文件後，才能找到「台灣最高的山峰是什麼？」的正確答案是「玉山」。

為了解決上述的問題，自動問答系統 (Automatic Question Answering System)的相關研究便如雨後春筍般陸續出現[Prager00] [Pasca01] [Kwok01]

[Radev01] [Radev02] [Pinto02] [Dumais02]。自動問答系統能讓使用者直接使用

自然語言輸入問題，系統則從文件集中找出正確的解答。例如：當使用者輸入的問題為「台灣最高的山峰是什麼？」時，自動問答系統就會找出該問題的答案是「玉山」。

圖 1：自動問答系統架構圖

綜合自動問答系統的相關研究，可以整理出如圖 1 的自動問答系統架構圖，自動問答系統主要分為二個階段，首先是「問題分析 (Question Analysis)」

階段，將使用者的問題經過查詢建構 (Query Formulation) 和答案類型判別 (Answer Type Detection)，分別產生適合資訊擷取系統的查詢與使用者問題的答案類型，這些答案類型指出問題的解答可能是「人名」、「組織名」或是「時間」

等答案類型；其次是「答案擷取 (Answer Retrieval)」階段，這一個階段主要分為「文件擷取 (Document Retrieval)」、「語句擷取 (Sentence Retrieval)」、「答案抽取 (Answer Extraction)」、「答案評等 (Answer Ranking)」等步驟，這些步驟會因系統的不同而有所刪減。「文件擷取」的步驟是將之前產生的查詢輸入搜尋引擎以找出與問題相關的文件，這些文件中有一部分可能會包含問題的解答；

而「語句擷取」是由每一篇相關文件中判斷出答案可能存在的語句，並找出最有可能包含答案的相關語句；在找出答案可能存在的語句後，會根據問題分析

答案擷取(Answer Retrieval) 問題分析(Question Analysis)

Question

Query Formulation

Answer Type Detection

Query

Answer Type

Document Retrieval Sentence

Retrieval Answer

Extraction Answer

Ranking Answer

Set

階段所產生的答案類型，再經過「答案抽取」的步驟抽取出可能是答案的詞鍵片語；最後再經過「答案評等」使最正確的解答能在回傳的答案集中佔有較前面的排序位置，讓使用者得以快速地找到問題的解答。

另一方面，受到網際網路的衝擊，圖書館的諮詢台已由面對面服務轉變為無時間空間限制的網路服務。然而在圖書館諮詢台的知識工作者，每天仍要處理許多讀者的問題，這些問題的重覆性高，因此當使用者發問時，若能利用自動問答系統找尋曾經發問過的類似問題並回覆給使用者，而不用再讓知識工作者親自回答，便能節省知識工作者的時間，提高工作效率。

為了達成這一個目的，為圖書館諮詢台建立一個自動問答系統似乎是一個可行的辦法。但是，對圖書館的諮詢台來說，使用者提問的問題領域十分廣泛，

因此為圖書館諮詢台所發展的自動問答系統應該要能處理各個領域的問題。此外，在自動問答系統相關研究中可以發現：這些自動問答系統雖然已由回答某一特殊專業領域 (Specific Domain) 的相關問題發展到可以回答一般性非專業領域 (General Domain) 的相關問題，然而所找到的答案準確率卻令人不夠滿意。因此將自動問答系統套用在圖書館諮詢台上，並不能準確地回覆使用者的問題！

為了使自動問答系統能夠適用於圖書館諮詢台，本論文輔以搜尋引擎的機制，建構一個不同於前段所提的自動問答系統，為有所分別，我們稱此系統為自動問答探索系統 (Automatic Answer-Finding System) [Berger00]。

自動問答探索系統是將圖書館諮詢台的知識工作者從前回答過的問題之回覆視為文件集，這種文件集有別於傳統資訊擷取系統的文件集，它不但包括了使用者所提問的歷史問題，更包含相對應的回覆，我們稱此文件集為問答集 (Question and Answer Set, QA Set)。而自動問答探索系統會從問答集中找出能回

答使用者新問題的回覆，這些回覆就是問答集中的答案部分。圖 2 為自動問答探索系統的架構圖，與搜尋引擎相似都是回傳答案的整篇文件內容，而不是像自動問答系統是回傳答案的關鍵詞鍵。例如：使用者輸入的問題是「台灣最高的山峰是什麼？」，自動問答系統回傳的是「玉山」這個答案的關鍵詞鍵；一般搜尋引擎回傳的是有關台灣山峰等的相關文件，至於答案只在一些文件中會出現；而自動問答探索系統回傳的是答案文件，在這篇答案文件中會有一部分會講述到台灣最高的山峰是玉山，此外還可能會有玉山的介紹或是台灣其它山峰的簡介。以圖書館諮詢台此一應用來說，我們認為自動問答探索系統是比較適合的。

圖 2：自動問答探索系統架構圖

[Berger00]所提出的自動問答探索系統主要是探勘在問答集中問題與答案的相關性，利用使用者提出的新問題和問答集中問題與答案間的語彙關係，來擷取問答集中符合新問題用詞的答案。但是往往使用者的新問題和問答集中問題與答案在所使用的詞鍵上並不完全一樣，因此若只是參考問題與答案間的語彙關係，當新問題與問答集中的某個問題是類似的，但因使用的語彙和問答集中的問題與答案不同，就無法找到符合新問題的回覆，這會降低系統的擷取效能。故本論文除了探勘出問答集中問題與答案間的語彙關係外，還利用潛在語意分析 (Latent Semantic Analysis, LSA) 的技術導入問題的概念空間 (Concept Space) ，只要新問題與問答集中的問題擁有相同的概念，問答集中的問題所相

Answer-Finding System

User Question

Answer Retrieval Mechanism

QA Set

Answer Documents

對應的答案就是符合新問題的回覆，這樣就能克服新問題與問答集中的問題使用不同語彙的狀況。此外，我們也納入了在自動問答系統中對答案類型 (Answer Type) 判別的步驟，讓系統所找到的答案內容能符合新問題問及的意圖，例如：

如果新問題是「台灣最高的山峰是什麼？」，問的是山峰的名字，那麼答案內容應該有山峰的名字，而不能只是做台灣山峰地形的介紹。

總結上述，本論文提出了一個「概念式自動問答探索系統 (Automatic Concept-Based Answer-Finding System, 簡稱 ACAF)」，ACAF 結合問題與答案間語彙關係、概念式查詢和答案類型判別三方面的知識，期能更準確地擷取出使用者新問題的解答。

第二節研究動機

一個自動問答探索系統除了要了解使用者的問題以外，還必須了解問答集中每一組問題與答案(在這裡我們稱為問答組)所表達的知識內容，進而根據問答集的知識內容，針對每一個新問題擷取出最佳的答案。

以往自動問答探索系統的相關研究，評估答案的主要依據仍是問題與答案語彙上的比對，但我們認為要能找到問題的真正解答，必須要理解問題所詢問的概念和答案類型，進而比對問題與答案在概念傳達和答案類型的異同。藉由問題與答案詞彙的比對，再佐以傳達之概念和答案類型的異同，期望將自動問答探索系統提昇至概念式自動問答探索系統，使系統能更準確地找到使用者問題的真正解答。

另一方面，答案類型判別的相關技術主要都是處理英文問題，由於英文和中文特性上的不同，因此既存的系統若要處理中文問題和文件，就必須在答案類型判別的技術上有所更動。

本論文的研究動機就是希望設計一套自動問答探索系統，並建構概念空間和答案類型的判別知識，更改良答案類型的判別技術，使系統能應用到中文。

藉由導入概念空間與答案類型的判別，使此自動問答探索系統不僅能成功運用於探索中文問題的解答，更將此系統提昇至概念式自動問答探索系統。

第三節研究目的

本論文之研究目的在於探討自動問答探索系統的相關技術，著重如何建立概念空間，並以此概念空間為基礎建立概念式自動問答探索系統，使系統對使用者提問的問題能找到正確的解答。

本論文的主要方法是運用潛在語意分析 (Latent Semantic Analysis, LSA) 建構問答集所表達的知識內容，首先建構問答集的問題和答案的隱含語彙關係，其次是建構問題的概念空間；此外，本論文也採用了機率模組，用來判別問題的答案類型。最後，針對我們所建構的概念式自動問答系統設計實驗，以顯示概念空間在自動問答探索系統上的可行性。

第四節論文架構

本論文首先在第二章大略介紹各項相關研究，包括自動問答探索系統、潛在語意分析、概念空間的建構技術和答案類型的判別；接著在第三章闡述我們

在文檔中概念式自動問答探索系統 (頁 8-14)

簡介

第一節 自動問答探索系統

第二節 研究動機

第三節 研究目的

第四節 論文架構

第一節自動問答探索系統

第二節研究動機

第三節研究目的

第四節論文架構