第一節 自動問答探索系統
隨著資訊科技的進步與數位化技術的迅速發展,有越來越多的數位化資訊 藉由網路快速廣泛地傳播,讓網際網路儼然成為一個資訊的寶庫,資訊已垂手 可得!透過網路雖然可以快速地獲取大量資訊,但對人們來說,面對過於龐大 的資訊卻是沉重的負擔,因此過濾不需要的資訊,進而正確判斷出有用的資訊,
已成為重要的課題!搜尋引擎的相關研究因而嶄露頭角。
一般資訊擷取系統 (包括網際網路上的搜尋引擎 [Google03] [Yahoo!03]
[Yam03]) 的操作模式大致如下:首先使用者輸入一筆查詢,這筆查詢通常由 一些關鍵詞組成,之後資訊擷取系統就會根據使用者輸入的查詢,回傳與該查 詢相關的文件,這些回傳的文件在傳統的資訊擷取系統中,就被認為和使用者 資訊需求相關。此種資訊擷取系統面臨了二個主要的問題:(1)使用者必須遵 循各個搜尋引擎的特殊用詞規則建構查詢;(2) 使用者的資訊需求往往是針對 某一個問題的解答,資訊擷取系統所回傳的相關文件,僅僅與使用者輸入的查 詢相關 ( 例如:文件中包含查詢的關鍵詞), 但大部分卻不是問題的解答 [Radev01][Radev02]。例如:當使用者想要知道「台灣最高的山峰是什麼?」
時,其查詢可能包含「台灣」、「最高」、「山峰」等關鍵詞,搜尋引擎會找到這 些與關鍵詞相關的文件,這些相關文件中只有一部分擁有該問題的解答,因此 使用者必須經由逐一瀏覽每一篇回傳的文件後,才能找到「台灣最高的山峰是 什麼?」的正確答案是「玉山」。
為了解決上述的問題, 自動問答系統 (Automatic Question Answering System)的相關研究便如雨後春筍般陸續出現[Prager00] [Pasca01] [Kwok01]
[Radev01] [Radev02] [Pinto02] [Dumais02]。自動問答系統能讓使用者直接使用
自然語言輸入問題,系統則從文件集中找出正確的解答。例如:當使用者輸入 的問題為「台灣最高的山峰是什麼?」時,自動問答系統就會找出該問題的答 案是「玉山」。
圖 1:自動問答系統架構圖
綜合自動問答系統的相關研究,可以整理出如圖 1 的自動問答系統架構 圖,自動問答系統主要分為二個階段,首先是「問題分析 (Question Analysis)」
階段,將使用者的問題經過查詢建構 (Query Formulation) 和答案類型判別 (Answer Type Detection),分別產生適合資訊擷取系統的查詢與使用者問題的答 案類型,這些答案類型指出問題的解答可能是「人名」、「組織名」或是「時間」
等答案類型;其次是「答案擷取 (Answer Retrieval)」階段,這一個階段主要分 為「文件擷取 (Document Retrieval)」、「語句擷取 (Sentence Retrieval)」、「答案 抽取 (Answer Extraction)」、「答案評等 (Answer Ranking)」等步驟,這些步驟 會因系統的不同而有所刪減。「文件擷取」的步驟是將之前產生的查詢輸入搜尋 引擎以找出與問題相關的文件,這些文件中有一部分可能會包含問題的解答;
而「語句擷取」是由每一篇相關文件中判斷出答案可能存在的語句,並找出最 有可能包含答案的相關語句;在找出答案可能存在的語句後,會根據問題分析
答案擷取(Answer Retrieval) 問題分析(Question Analysis)
Question
Query Formulation
Answer Type Detection
Query
Answer Type
Document Retrieval Sentence
Retrieval Answer
Extraction Answer
Ranking Answer
Set
階段所產生的答案類型,再經過「答案抽取」的步驟抽取出可能是答案的詞鍵 片語;最後再經過「答案評等」使最正確的解答能在回傳的答案集中佔有較前 面的排序位置,讓使用者得以快速地找到問題的解答。
另一方面,受到網際網路的衝擊,圖書館的諮詢台已由面對面服務轉變為 無時間空間限制的網路服務。然而在圖書館諮詢台的知識工作者,每天仍要處 理許多讀者的問題,這些問題的重覆性高,因此當使用者發問時,若能利用自 動問答系統找尋曾經發問過的類似問題並回覆給使用者,而不用再讓知識工作 者親自回答,便能節省知識工作者的時間,提高工作效率。
為了達成這一個目的,為圖書館諮詢台建立一個自動問答系統似乎是一個 可行的辦法。但是,對圖書館的諮詢台來說,使用者提問的問題領域十分廣泛,
因此為圖書館諮詢台所發展的自動問答系統應該要能處理各個領域的問題。此 外,在自動問答系統相關研究中可以發現:這些自動問答系統雖然已由回答某 一特殊專業領域 (Specific Domain) 的相關問題發展到可以回答一般性非專業 領域 (General Domain) 的相關問題,然而所找到的答案準確率卻令人不夠滿 意。因此將自動問答系統套用在圖書館諮詢台上,並不能準確地回覆使用者的 問題!
為了使自動問答系統能夠適用於圖書館諮詢台,本論文輔以搜尋引擎的機 制,建構一個不同於前段所提的自動問答系統,為有所分別,我們稱此系統為 自動問答探索系統 (Automatic Answer-Finding System) [Berger00]。
自動問答探索系統是將圖書館諮詢台的知識工作者從前回答過的問題之 回覆視為文件集,這種文件集有別於傳統資訊擷取系統的文件集,它不但包括 了使用者所提問的歷史問題,更包含相對應的回覆,我們稱此文件集為問答集 (Question and Answer Set, QA Set)。而自動問答探索系統會從問答集中找出能回
答使用者新問題的回覆,這些回覆就是問答集中的答案部分。圖 2 為自動問答 探索系統的架構圖,與搜尋引擎相似都是回傳答案的整篇文件內容,而不是像 自動問答系統是回傳答案的關鍵詞鍵。例如:使用者輸入的問題是「台灣最高 的山峰是什麼?」,自動問答系統回傳的是「玉山」這個答案的關鍵詞鍵;一般 搜尋引擎回傳的是有關台灣山峰等的相關文件,至於答案只在一些文件中會出 現;而自動問答探索系統回傳的是答案文件,在這篇答案文件中會有一部分會 講述到台灣最高的山峰是玉山,此外還可能會有玉山的介紹或是台灣其它山峰 的簡介。以圖書館諮詢台此一應用來說,我們認為自動問答探索系統是比較適 合的。
圖 2:自動問答探索系統架構圖
[Berger00]所提出的自動問答探索系統主要是探勘在問答集中問題與答案 的相關性,利用使用者提出的新問題和問答集中問題與答案間的語彙關係,來 擷取問答集中符合新問題用詞的答案。但是往往使用者的新問題和問答集中問 題與答案在所使用的詞鍵上並不完全一樣,因此若只是參考問題與答案間的語 彙關係,當新問題與問答集中的某個問題是類似的,但因使用的語彙和問答集 中的問題與答案不同,就無法找到符合新問題的回覆,這會降低系統的擷取效 能。故本論文除了探勘出問答集中問題與答案間的語彙關係外,還利用潛在語 意分析 (Latent Semantic Analysis, LSA) 的技術導入問題的概念空間 (Concept Space) ,只要新問題與問答集中的問題擁有相同的概念,問答集中的問題所相
Answer-Finding System
User Question
Answer Retrieval Mechanism
QA Set
Answer Documents
對應的答案就是符合新問題的回覆,這樣就能克服新問題與問答集中的問題使 用不同語彙的狀況。此外,我們也納入了在自動問答系統中對答案類型 (Answer Type) 判別的步驟,讓系統所找到的答案內容能符合新問題問及的意圖,例如:
如果新問題是「台灣最高的山峰是什麼?」,問的是山峰的名字,那麼答案內容 應該有山峰的名字,而不能只是做台灣山峰地形的介紹。
總結上述,本論文提出了一個「概念式自動問答探索系統 (Automatic Concept-Based Answer-Finding System, 簡稱 ACAF)」,ACAF 結合問題與答案間 語彙關係、概念式查詢和答案類型判別三方面的知識,期能更準確地擷取出使 用者新問題的解答。
第二節 研究動機
一個自動問答探索系統除了要了解使用者的問題以外,還必須了解問答集 中每一組問題與答案(在這裡我們稱為問答組)所表達的知識內容,進而根據問 答集的知識內容,針對每一個新問題擷取出最佳的答案。
以往自動問答探索系統的相關研究,評估答案的主要依據仍是問題與答案 語彙上的比對,但我們認為要能找到問題的真正解答,必須要理解問題所詢問 的概念和答案類型,進而比對問題與答案在概念傳達和答案類型的異同。藉由 問題與答案詞彙的比對,再佐以傳達之概念和答案類型的異同,期望將自動問 答探索系統提昇至概念式自動問答探索系統,使系統能更準確地找到使用者問 題的真正解答。
另一方面,答案類型判別的相關技術主要都是處理英文問題,由於英文和 中文特性上的不同,因此既存的系統若要處理中文問題和文件,就必須在答案 類型判別的技術上有所更動。
本論文的研究動機就是希望設計一套自動問答探索系統,並建構概念空間 和答案類型的判別知識,更改良答案類型的判別技術,使系統能應用到中文。
藉由導入概念空間與答案類型的判別,使此自動問答探索系統不僅能成功運用 於探索中文問題的解答,更將此系統提昇至概念式自動問答探索系統。
第三節 研究目的
本論文之研究目的在於探討自動問答探索系統的相關技術,著重如何建立 概念空間,並以此概念空間為基礎建立概念式自動問答探索系統,使系統對使 用者提問的問題能找到正確的解答。
本論文的主要方法是運用潛在語意分析 (Latent Semantic Analysis, LSA) 建構問答集所表達的知識內容,首先建構問答集的問題和答案的隱含語彙關 係,其次是建構問題的概念空間;此外,本論文也採用了機率模組,用來判別 問題的答案類型。最後,針對我們所建構的概念式自動問答系統設計實驗,以 顯示概念空間在自動問答探索系統上的可行性。
第四節 論文架構
本論文首先在第二章大略介紹各項相關研究,包括自動問答探索系統、潛 在語意分析、概念空間的建構技術和答案類型的判別;接著在第三章闡述我們
本論文首先在第二章大略介紹各項相關研究,包括自動問答探索系統、潛 在語意分析、概念空間的建構技術和答案類型的判別;接著在第三章闡述我們