目前問答系統的研究可分為三大類:基於常問問題集的問答系統,基於百科知識的 問答系統,開放領域的問答系統(秦兵 et al., 2003)。依據答案來源的研究方向可以分為 以網際網路上的資訊為潛在的答案來源以及以 TREC 的 Q&A 測試文集為答案來源等兩 大類(Huang et al., 2004)。問答系統處理的三個步驟:問題分析、資料檢索、答案抽取(鄭 實福 et al., 2002; 李季, 2004)。本論文中,我們主要是針對中文問句的分析與處理,利 用網路上的資源進行訓練與擷取答案。
問題分析包含問句類型分類與查詢詞轉換,這些對擷取答案段落與文件是很重要 的。超過 70%的錯誤歸因於無效的問句類型分類、關鍵字選擇、查詢詞擴充(Moldovan et al., 2002)。所以在我們的中文問答系統提出一個有效的問句類型分類規則,依據疑問詞
中文的問答系統中,問句使用自然語言處裡去取得文件,擷取查詢詞與查詢詞擴充
其特色是問句所使用的擴充詞並非系統建置者所預設的,擴充詞是由搜尋引擎所得到的 結果分析而來,因此所得的擴充詞有助於對搜尋答案效能的提升。在我們的系統中學習 此研究中查詢詞擴充的方法,並且把非名詞的關鍵詞也擴充,增加系統效能。
基於常問問題的中文問答系統(秦兵 et al., 2003),系統必須先建立一個候選的問題 集,然後計算使用者所提問句的語意相似度,在候選的問題集中找尋相似的問句,並將 答案返回給使用者。在實驗中發現基於關鍵詞的句子相似度計算,基於語意的句子相似 度計算提高了問題匹配的準確率。基於常問問題的中文問答系統可作為其他的問答系統 的一部份,當使用者提出問句時,可以先去資料庫中找尋是否有相關的題目,如果有就 可以直接把答案返回給使用者。這樣可以減少系統的處理問句的數量,提高系統效率。
系統的精確度取決於候選問題集的範圍與類別、數量。
以網際網路內容為基礎之問答系統”Why”問句研究(沈天佐 et al., 2003),問題的答 案是”原因”,”原因”有不同的型態,可能是一句片語、一個子句、一個句子,甚至跨越 句子的範圍。答案文件的取得,是將問句的停詞與標點符號全部移除,使用”AND”的方 式至 Google 搜尋,所以文件必須包含所有的關鍵詞,並在文件中找尋表達因果關係的 資訊,使用因果 patterns 比對與 Penn Treebank 之 PRP 標記來擷取答案。這類研究方式 的特色是使用詞意分析與標記,並針對問題的因果關係分析文件擷取答案。
開放領域的中文自動問答系統(林川傑, 2004),自動回答非限定領域的自然語言問 句,中文問句類型定義有十一類,問句類型分類規則共有 136 條,針對不同的問句類型,
論文中提出不同的候選答案找尋方式。短答問題的候選詞多半來自於具名實體辨識系統 的輸出,或是在語意辭典中的下位詞等。長答問題的候選答案則是藉由特定句型所抽取 出的詞組,並可針對特別問問類型限制組中所帶的語意等。不同的問句類型亦有著不同 的候選答案排名策略。各種分數計算、權重設定及排名策略等都將由實驗結果來決定最 好的組合。中文問句類型定義與分類,候選答案分數的多層次排名策略、以及短答問題 及長答問題的可能候選答案為何為此系統的特色。我們學習這一個論文中的將問題分類 與建立問句類型分類規則,分為 4 類 24 條問句類型分類規則。
在我們的研究方法上,分析自然語言問句取得問句樣式與關鍵詞,資訊檢索以 Google 為資源並擷取出答案段落,最後再透過問句與答案段落之間的關聯性統計以計算 出最適合每個問句樣式與關鍵詞的擴充查詢詞組,增加查詢詞組至搜尋引擎擷取答案的 機會。