第一章 緒論
1.1 研究動機
隨著 Yahoo! Answer 或是 Quora 等問答社群(Community Question Answering,
cQA)平台的發展,當使用者欲查詢某些資訊時,可以藉由查詢別人已提出之相似 問題參考問題答案,或是提出欲被解答的問題內容等待他人的回答。論文[4]認為 使用者在問答社群所提出的問題句主要可分為:事實問題句、主觀問題句以及社交 問題句等三種類別。一個事實問題句是指所詢問的問題句是為了尋求事實資訊,
例如:“Who's the author of harry potter?”。而一個主觀問題句則是所詢問的問題句是 為了尋求他人意見或想法,例如:“What did you think of the Harry Potter movie?”。
社交問題句則是指希望和其他使用者有社交活動所提出的問題句,例如:“Anyone near New York City?”。
在問答社群提問的缺點是不容易得到即時的回答,甚至大多數的提問並沒有 被回答。進一步分析,此三種類別的問題中,後兩種問題較適合由使用者答覆。
而事實問題句通常會有標準答案,而問答社群上的答案均是由其他使用者所提 供,這些答案可能會有錯誤,因此當使用者提出問題並得到其他使用者所提供的 答案時,尚須衡量並驗證答案的可信賴程度。此外,事實問題句的答案可能會隨 著時間改變。舉例來說,當使用者提出問題“What are the Harry Potter Books in order?”,在 1998 年時答案應該為“Harry Potter and the Philosopher's Stone (26 June 1997)、Harry Potter and the Chamber of Secrets (2 July 1998)”,但到了 1999 年時答 案應該被更新為“Harry Potter and the Philosopher's Stone (26 June 1997)、Harry
Potter and the Chamber of Secrets (2 July 1998)、Harry Potter and the Prisoner of Azkaban (8 July 1999)”。因此,事實問題句較可能無法從問答社群平台上得到滿 意或最新答案。
現在是網路資訊發展的時代,舉凡期刊、網路百科資料庫、新聞…等,各式 各樣最新的資訊內容透過網際網路進行傳播,並可利用網路搜尋引擎獲得相關的 資訊。基於上述考量,若能對使用者提出的事實問題句,從網路搜尋引擎回傳的 結果,自動摘要文字內容產生答案,則可以幫助使用者快速得到事實問題句欲搜 尋的最新答案。
1.2 研究目的
本論文研究目的是針對事實問題句,利用網路搜尋結果自動分析回傳結果摘 要事實資訊,作為問題答案提供給使用者。然而若直接以問題句當作查詢詞讓搜 尋引擎進行查詢,查詢詞中可能包含無關的字,導致回傳結果內包含許多與答案 不相關的文字內容。因此本論文將探討如何從問題中有效擷取出查詢關鍵字,並 利用該查詢關鍵字之查詢結果摘要作為答案提供給使用者。
本論文的目標是可針對事實問題句自動擷取出問題句的查詢關鍵字,問題句 的查詢關鍵字包含查詢主體字詞以及查詢面向字詞,透過查詢主體字詞及查詢面 向字詞的網路搜尋文字內容自動摘要,作為事實問題句的答案。以下表 1 為例,
當使用者所查詢的問題句為“The Lord of the Rings who wrote this novel?”,對此問 題句擷取出查詢主體字詞為“Lord of the Rings”,查詢面向字詞為“wrote novel”。
透過上述擷取出的查詢主體字詞及查詢面向字詞,對網路搜尋回傳的結果文字敘
3
述片段(snippet)進行摘要分析,可得到“Lord of the Rings 是由一個英文作者 J. R.
R. Tolkien 所撰寫史詩奇幻小說”的摘要句,此摘要內容即可提供使用者提出問題 所希望獲得的答案。
表 1 問題句及資訊摘要
1.3 研究範圍與限制
本論文假設在底層環境有一個能夠回傳網頁內容簡短文字敘述片段(snippet) 的搜尋引擎,並假設其搜尋結果排序較前面的文件(top result)與查詢關鍵字較為相 關。所探討的問題主體及查詢關鍵字皆限定為英文。
本論文之研究具體工作包括以下部分:
(1) 如何對使用者提出的問題句,設計一種根據字詞特徵進行分類的方法,將問 題句自動分為事實問題句以及非事實問題句兩類。
(2) 如何對事實問題句,自動擷取出問題句中的查詢主體字詞,並由該查詢主體 問題句: The Lord of the Rings who wrote this fantasy novel?
查詢主體字詞: Lord of the Rings 查詢面向字詞: wrote novel 答案摘要:
The Lord of the Rings is an epic high fantasy novel written by English author J. R. R. Tolkien
字詞,設計自動取出查詢面向字詞的方法。
(3) 如何利用擷取出的查詢主體字詞及查詢面向字詞,結合本研究室過去在網頁 搜尋結果重要面向事實內容自動擷取之研究技術,摘要出事實資訊文字片段 作為答案提供給使用者。
1.4 論文方法
本論文方法處理流程如圖 1 所示。首先需分類所提出的問題句是否為事實問 題句,若為事實問題句則再進一步擷取出問題句中的查詢關鍵字,接著利用擷取 出的查詢關鍵字進行網際網路搜尋,再摘要搜尋結果文字片段。因此,論文方法 主要分為三大部分。
圖 1 系統流程圖
5
問題句的分類方法本論文是採用支持向量器(Support Vector Machine, SVM) 分類法,將使用者提出的問題句分為事實問題句或非事實問題句兩種類別。我們 從兩種類別的問題句中學習出代表字詞做為分類特徵,並使用[23]所提供的軟件 建立 SVM 分類模型。為了取得兩個類別較完整的代表字詞,需蒐集足夠多的已 標示類別問題句作為訓練資料。然而若採用人為將問題句進行分類標示,需要花 費龐大的人工時間,因此本論文採用一種漸進式學習的方法,可動態調整分類特 徵並重建問題句分類模型。
問題句的查詢關鍵字則是由查詢主體字詞以及查詢面向字詞所結合而成。擷 取問題句之查詢主體字詞的方法,本論文首先對使用者提出的問題句利用專有名 詞識別及語言樣式產生多個候選查詢主體字詞,並將問題句作為查詢詞至搜尋引 擎搜尋,取得查詢結果的文字敘述片段(snippets)作為與問題句相關的文件集,接 著計算每個候選查詢主體字詞在問題句相關文件集中的重要性分數,最後選取重 要性分數最高的當作查詢主體字詞。擷取問題句的查詢面向字詞的方法,則先對 使用者提出的問題句去掉查詢主體字詞和沒有實質意義的字詞,接著從剩餘的字 詞中產生候選查詢面向字詞。對於每個候選查詢面向字詞以其特徵採用 SVM 分 類器進行分類,分類為是否為查詢面向字詞兩種類別,最後將所有分類為是查詢 面向字詞所成的集合為問題句的查詢面向字詞。
關於查詢結果摘要的方法,本論文則結合本研究室所提出的方法[19]技術。
該方法技術是針對使用者給予的查詢主體以及多個事實面向,計算句子中每個字 詞的面向代表性分數,分別摘要出指定面向的重要事實文字片段。因此除了原來 事實問題句中擷取出的查詢事實面向,還必須自動提供查詢主體的其他事實面 向。因此本論文先以查詢主體字詞作為查詢詞以網際網路搜尋引擎進行搜尋,取
得查詢結果中的文字敘述片段作為與查詢主體相關的文件集,從中挑選代表性前 k 高的字詞,並採用階層式分群方法將這些字詞進行分群,再從各分群各取一個 字詞作為查詢主體的查詢面向。
1.5 論文架構
本論文以下章節內容如下:第二章說明相關研究文獻探討。第三章說明問題 句分類方法。第四章說明查詢關鍵字擷取方法。第五章說明查詢結果摘要方法。
第六章以實驗結果評估討論本論文方法的執行效果,最後在第七章進行總結並討 論未來研究方向。
7