中文問答系統－以網路為基礎之查詢詞擴充策略

(1)

國立交通大學

電機資訊學院在職專班數位圖書資訊組

碩士論文

中文問答系統－以網路為基礎之查詢詞擴充策

略

Web-Based Learning to Query Expansion for Chinese

Question Answering System

研究生：許長進

指導教授：梁婷

(2)

中文問答系統－以網路為基礎之查詢詞擴充策略

Web-Based Learning to Query Expansion for Chinese Question

Answering System

研究生：許長進 Student：Chang-Chin Hsu

指導教授：梁婷 Advisor：Tyne Liang

國立交通大學

電機學院與資訊學院專班數位圖書資訊學程

碩士論文

A Thesis

Submitted to Degree Program of Electrical Engineering and Computer Science College of Computer Science

National Chiao Tung University in Partial Fulfillment of the Requirements

for the Degree of Master of Science

in

Digital Library June 2006

Hsinchu, Taiwan, Republic of China

(3)

中文問答系統－以網路為基礎之查詢詞擴充策略

研究生：許長進指導教授：梁婷

國立交通大學電機學院與資訊學院數位圖書資訊學程﹙研究所﹚碩士班

摘要

網路有如資訊的海洋。然而遺憾的是，人們在網路中尋找自己感興趣的

答案常如大海撈針。傳統的關鍵詞檢索方式多無法解決使用者的查詢意圖。

本論文提出一個應用網路資料和查詢詞擴充技術的中文問答系統。我們提

出法則式的問句樣式機制以分析問句的意圖。另一方面，有別於一般中文

問答系統擴充詞多來自事先所設定的相關詞資料庫，本論文所提的查詢詞

擴充技術乃是應用現成的網路語料，進行相關詞探勘。我們利用對應演算

法將訓練問句和搜尋結果進行非名詞關鍵詞與查詢詞擴充。

爲了檢驗所提的方法，我們以 383 個問句做為訓練資料，進行查詢詞擴

充探勘，並另以 80 個問句作測試，所得到的搜尋結果比一般關鍵詞搜尋在

使用者所需要閱讀的篇數明顯減少，實驗結果顯示系統效能為每個問題所

花的 human effort 2.03 和 MMR 0.765。

關鍵詞：中文問答系統、問句類型分析、查詢詞擴充、關鍵詞擴充

(4)

Web-Based Learning of Query Expansion for Chinese Question Answering

System

Student：Chang-Chin Hsu Advisor：Dr. Tyne Liang

Degree Program of Electrical Engineering and Computer Science

National Chiao Tung University

ABSTRACT

Searching in the Web is just like searching in a sea. Traditional query resolution is based on inefficient keyword search. This thesis proposes a Chinese question answering system by using web corpus and query expansion. We propose a rule-based query processing method to detect the query type. On the other hand, we propose new query expansion which is unlike traditional one based on predefined thesaurus. The presented query expansion is based on web corpus by aligning the training questions and the search-results returned from a search engine.

In order to verify the proposed method we use 383 questions for training and 80 questions for testing. The results show that the proposed expansion technique yields better performance than the keyword-based search in terms of less human efforts per question 2.03 and MMR 0.765.

Keyword：Chinese question answering system、question type extraction、query expansion、 keyword expansion

(5)

誌

謝

首先要感謝我的指導教授—梁婷老師，身為一個在職專班的學生，工作

與學業要兼顧是一件很困難的事，並且我的工作與經驗也都非相關領域，

因此對自然語言與資料擷取的技術並不熟悉，但是老師確不厭其煩的指導

我，並帶我進入這一個領域，學習到更有效的方法去執行論文研究，因此

我真的很感謝指導教授—梁婷老師

其次要感謝資料擷取研究室中每一位學長姐與同學的幫助，幫我找出論

文中不夠完善之處，並且給予建議。更要感謝黃立泓同學的幫助，適時的

伸出援手，幫我解決許多相關的問題。

還有感謝大學同學杜宗原，幫助我修飾我的論文。還有每一位數圖組老

師的教導與同學的幫助，讓我完成我的論文。最後感謝中央研究院詞庫小

組所提供的中文斷詞系統。

(6)

目錄

中文摘要 ……… i 英文摘要 ……… ii 誌謝 ……… iii 目錄 ……… iv 表目錄 ……… v 圖目錄 ……… vi 第一章緒論 ……….. 1 1-1 背景 ……… 1 1-2 中文問答系統組成要素…..……… 1 1-3 動機………..……… 2 第二章相關研究 ……….. 4 第三章系統學習問句中查詢詞的轉換………..……….. 7 3-1 系統架構 ……… 7 3-2 問句斷詞與擷取答案段落 ……….…………... 9 3-3 問句分析 ……… 9 3-3-1 疑問詞分類 ………..……… 9 3-3-2 萃取問句樣式………..………... 10 3-4 分析答案段落與查詢詞和關鍵詞轉換擴充……….... 12 3-4-1 使用文字組合的技術去學習非名詞關鍵詞與查詢詞的轉換…... 12 3-4-2 鄰近等級………...……… 14 3-4-3 結合鄰近等級與配對等級………..…….... 15 3-5 產生查詢句………...… 16 第四章實驗與分析 ……….. 18 4-1 實驗步驟 ……… 18 4-2 擷取問句樣式的成效 ……… 18 4-3 實驗結果與評論非名詞關鍵詞與查詢詞擴充.……… 20 第五章未來工作 ………... 23 參考文獻 ……… 24 附錄一測試的問句與答案……… 26 附錄二問句法則例句……… 29

(7)

表目錄

表 1：問句與答案，輸入與輸出範例…….……….. 9 表 2：疑問詞分類………... 10 表 3：問句法則………... 11 表 4：候選擴充詞與關鍵詞的配對等級範例………... 14 表 5：問句答案類型是”什麼地方生長”的鄰近詞加總……….…… 15 表 6：將表 4 與 5 結合取得加權平均值的最後等級………... 15 表 7：非名詞關鍵詞與查詢詞轉換擴充….………..… 17 表 8：訓練資料與測試資料問句類型統計………..…. 18 表 9：訓練資料問句數量、問句樣式及從搜尋引擎擷取的答案段落統計……… 18 表 10：問句樣式評論結果 (一) ……… 19 表 11：問句樣式評論結果 (二) ……… 19 表 12：前五個問句和問句樣式與評論………. 19 表 13：各類查詢句的 MRR 值與改進程度……….. 20 表 14：各類查詢句的 MMR 值依問句的類別分類………. 20

表 15：查詢詞擴充在 Recall at R 與 Human Effort 的結果………... 21

表 16：評論非名詞關鍵詞與查詢詞擴充 HE per question 的結果，依問句的類別分 類……….. 22

(8)

圖目錄

圖 1：一般的問答系統……… 1

圖 2：線上中文問答系統架構圖……… 7

(9)

第一章緒論

1-1. 背景

網路是資訊的海洋，令人遺憾的是，人們在網路中尋找到自己真正感興趣問題的答案確如大海撈針。通常使用者在搜尋引擎的文字框中輸入關鍵詞，搜尋引擎按照可信度的大小順序取回一系列含有該關鍵詞的文字資料與 URL(Uniform Resource Locator)。使用者再依次瀏覽每一個 URL，以找尋真正需要的資料。(關毅 et al., 2004)。資料搜尋傳統的方式是依賴關鍵詞做搜尋，通過關鍵詞檢索來找尋所要的資料及文件。但是，關鍵詞檢索並不能真正立即獲取所要的知識或是立即回答使用者的問題，所以我們需要新的技術來加強檢索的功能。近年來問答系統在資料檢索、自動學習、自然語言處理等研究領域都受到了注意(Huang et al., 2004)。問答系統可以根據用戶的問題找出確切的答案。我們希望這個答案不只是與問題所搜尋出來的整個文獻有關，而是更精確地滿足用戶需求文獻的一部份或一句話(李季, 2004)。

1-2. 中文問答系統組成要素

一般的問答系統包含三個構成要素(鄭實福 et al., 2002; 李季, 2004)見圖 1：問題分析、資訊檢索、答案抽取。圖 1 一般的問答系統

(10)

中文問答系統先將問句斷詞。問句分析的目的在擷取可以明確表達問句的問句樣式 (Question Pattern)，並分析出問句類型(Question Type)類型包含人、事物、時間、地點、數量等。之後在擷取問句的關鍵詞，並將關鍵詞擴展，通過問題分析而取得到的關鍵詞集需提交資訊檢索系統中檢索。資訊檢索的任務就是將取得的關鍵詞集至文件資料庫中搜尋出相關的文件資料。或也可以使用網路上的搜尋引擎如：Google，將關鍵詞集送至搜尋引擎做搜尋擷取出結果。在 TREC 會議中就不要求每個問答系統都要有自己的資訊檢索模組(鄭實福 et al., 2002)。將這些文件資料送至答案抽取中處理。在答案抽取這一個階段中必須處理這些網頁，抽取出相關的答案，這些答案可能是一句話或是一段文字，依據問句類型與這些預選答案中的相關度計算出權重，並根據權重排序找出最佳的答案。

1-3. 動機

一般找尋答案的方式是使用關鍵詞搜尋，但是關鍵詞檢索並不能真正立即獲取所要的知識或者立即回答使用者的問題(Huang et al., 2004)。所以我們產生了動機，設計一個有效的方法去分析自然語言問句，以問句樣式中的主要詞為查詢詞，並擷取出問句的關鍵詞，這些關鍵詞又分為名詞關鍵詞與非名詞關鍵詞，因為名詞在問句中有其代表性，將其轉換會影響答案搜尋結果，所以我們將選出非名詞關鍵詞與查詢詞做擴充並搜尋答案。我們以問句”岳飛在哪裡出生？”做範例，使用關鍵詞搜尋擷取出”岳飛”與”出生”作為關鍵詞，並送至 Google 做搜尋，我們會發現所回傳的結果並不是很正確。如果我們找出問句樣式為”哪裡出生”，查詢詞為”出生”並且轉換成”出生於”，再送至 Google 做搜尋將會得到更好的結果。論文中我們將挑戰一般人們最常使用的關鍵詞搜尋，設計一個中文問答系統，系統分為兩個部分：線上中文問答系統與訓練系統，在訓練階段中，訓練系統時會先自動將中文問句斷詞並至網路上擷取答案片段，分析問句擷取出每一個問句的問句樣式，將答案片段中在答案附近的鄰近詞萃取出來，最後再根據語言學與統計的技術計算出查詢詞、非名詞關鍵詞與鄰近詞的鄰近等級(Proximity Rank)與配對等級(Alignment Rank)，根據權重計算出每一個查詢詞、非名詞關鍵詞與鄰近詞的相關等級。在執行階段中，線上中文問答系統會將自然語言的問句分析，擷取出問句樣式，分別找出與查詢詞、非名詞關鍵詞相關等級最高的詞作為擴充詞。

(11)

原理、流程並且分析問句做非名詞關鍵詞與查詢詞的轉換，第四章敘述實驗流程與分析結果，蒐集問句輸入系統中，分析結果並評論之。第五章說明未來工作。

(12)

第二章相關研究

目前問答系統的研究可分為三大類：基於常問問題集的問答系統，基於百科知識的問答系統，開放領域的問答系統(秦兵 et al., 2003)。依據答案來源的研究方向可以分為以網際網路上的資訊為潛在的答案來源以及以 TREC 的 Q&A 測試文集為答案來源等兩大類(Huang et al., 2004)。問答系統處理的三個步驟：問題分析、資料檢索、答案抽取(鄭實福 et al., 2002; 李季, 2004)。本論文中，我們主要是針對中文問句的分析與處理，利用網路上的資源進行訓練與擷取答案。問題分析包含問句類型分類與查詢詞轉換，這些對擷取答案段落與文件是很重要的。超過 70%的錯誤歸因於無效的問句類型分類、關鍵字選擇、查詢詞擴充(Moldovan et al., 2002)。所以在我們的中文問答系統提出一個有效的問句類型分類規則，依據疑問詞的類別將問句分類，在查詢詞擴充上使用鄰近等級與配對等級加權計算出相關等級，並選出前兩名相關度最高的詞為擴充詞。在問答系統中使用到的有效技術有(Lee et al., 2005)： 1. 斷詞與標記 2. 具名實體辨識 3. 完全與淺的語法分析 4. 語義角色/關聯標明論文中的問答系統使用到 1 與 4 項技術，斷詞是使用中央研究院的中文斷詞系統同時也會自動給詞類標記，並使用語意角色的技術將疑問詞做分類，擷取問句答案的類型。目前中文資料檢索仍然面對以下需要解決的難題(Huang et al., 2004)： 1. 使用文件中出現的字詞或簡單的數學式無法輕易地表達概念，如何決定或表達隱藏於文件中的知識是相當困難的。 2. 一般文件幾乎是中英文共存，因此中文檢索系統需提供處理雙語的能力。 3. 中文檢索在處理斷詞方面不同於西方文字，中文句子的斷詞要困難得多。我們所開發的中文問答系統，針對第 3 項上我們開發了一個學習的功能，在中文斷詞發生斷詞錯誤時，可以使用人工的方式建立新詞，再下一次斷詞時系統就會自動修正，彌補中文斷詞的錯誤。我們將答案段落中在答案鄰近的字切開使用「N-gram」索引法(曾元顯, 2004)， N-gram 為文件中任意 N 個連續字元，「中國社會」N=2 時產生「中國」、「國社」、「社會」三個索引詞，可排除或降低「字元法」中類似「中國」與「國中」的字串順序問題，可省去「詞彙法」中維護詞庫的煩惱，在研究中是將 N=2 and 3，因為 2grams 時重複性太高，很容易不相關的詞，切詞後產生重複，當 3grams 會減少這種問題的出現機率。

(13)

中文的問答系統中，問句使用自然語言處裡去取得文件，擷取查詢詞與查詢詞擴充是影響搜尋結果的主要關鍵。在資訊檢索中，查詢詞擴充通常是基於查詢詞的語意關係，查詢詞擴充根據問題的特性可以使精確度提升。中文問答系統中查詢詞擴充是根據問句的類型(Yu et al., 2005)。

例如：

Q2: 泰山的高度是多少？（How high is the Taishan?）問句類型: 高度(Num_height) 查詢詞：{泰山高度} 查詢詞的擴充詞：{千米,米,英尺,厘米} 系統特色是依據查詢詞的類型擴充，根據系統預先所設定的擴充詞擴充，系統的精確度取決於所設定的擴充詞。在我們的系統中也是使用查詢詞擴充的方式，但是擴充的相關詞來源不同，相關詞是由搜尋引擎所擷取的答案片段分析統計所得到的。網頁搜尋引擎問答(王雅婷, 2003)，研究中提供兩種問答方式，一是提供使用者使用自然語言查詢。二是提供關於人與物的問題型態選擇題。先將使用者的自然語言問題分類，型態大略可分為人、事、時、地、物，後再將分類後的問句做適當的轉型，當網路在進行資料擷取時可傳回更適合與更相關的資料。例如：”陳水扁的老婆是誰？”由於” 老婆”一詞較口語化，網路上的尊稱多為”妻子”、”女士”。在問句分析中將問句的停詞與常用詞挑出，找出關鍵詞，將查詢字串做轉型，例如：問題分類為”人”，判斷查詢詞中是否有”寫”的關鍵詞，如果有將”寫”轉成”作者”。處理好的查詢關鍵詞使用 GAIS 搜尋引擎進行網頁資料的擷取。取回的資料計算其特有詞的數量，計算出比重與分數並找出答案。研究中使用的轉型與查詢詞的擴充其意義相同，都是使用相關詞。分類後依據問句型態找出相關詞對關鍵詞作轉型擴充是這一個研究的特點。所謂的停詞(Stop word)往往是一些文法用詞，或者是些常見但不重要的名詞等等，這些停詞出現的頻率很高，容易影響分類或斷詞的準確性，例如：的、與、是…等。常用詞(Common word)若有一串詞網頁中出現次數很高，代表此字串可能代表某種語文上的意義以致常被使用，有些常出現的字也是，如果可以去除掉這些詞，就可以留下有用的詞(王雅婷, 2003)。我在系統中是把停詞與常用詞結合起來統稱為停詞，分成兩部份利用，在擷取問句樣式時系統會將這些這些詞移除，但是在鄰近等級與配對等級時是使用加權平均法來做計算，把含有這些詞的詞等級降低，使真正有用的詞等級上升。問答系統之查詢擴充－以網路資源為本的非監督式學習策略(王怡嘉, 2004)。在訓練過程中，必須先自網路上收集所需的訓練資料，依據語言學的知識及統計學上的技術從問句訓練資料中抽取出可清楚表達答案類別的問句樣式，最後再透過問句與答案段落之間的關聯性統計以計算出最適合每個問句樣式的擴充查詢詞組。在執行階段，輸入的問句之問句樣式會被轉換成其對應的擴充查詢詞，用以增加搜尋引擎擷取出答案的機會。

(14)

其特色是問句所使用的擴充詞並非系統建置者所預設的，擴充詞是由搜尋引擎所得到的結果分析而來，因此所得的擴充詞有助於對搜尋答案效能的提升。在我們的系統中學習此研究中查詢詞擴充的方法，並且把非名詞的關鍵詞也擴充，增加系統效能。基於常問問題的中文問答系統(秦兵 et al., 2003)，系統必須先建立一個候選的問題集，然後計算使用者所提問句的語意相似度，在候選的問題集中找尋相似的問句，並將答案返回給使用者。在實驗中發現基於關鍵詞的句子相似度計算，基於語意的句子相似度計算提高了問題匹配的準確率。基於常問問題的中文問答系統可作為其他的問答系統的一部份，當使用者提出問句時，可以先去資料庫中找尋是否有相關的題目，如果有就可以直接把答案返回給使用者。這樣可以減少系統的處理問句的數量，提高系統效率。系統的精確度取決於候選問題集的範圍與類別、數量。以網際網路內容為基礎之問答系統”Why”問句研究(沈天佐 et al., 2003)，問題的答案是”原因”，”原因”有不同的型態，可能是一句片語、一個子句、一個句子，甚至跨越句子的範圍。答案文件的取得，是將問句的停詞與標點符號全部移除，使用”AND”的方式至 Google 搜尋，所以文件必須包含所有的關鍵詞，並在文件中找尋表達因果關係的資訊，使用因果 patterns 比對與 Penn Treebank 之 PRP 標記來擷取答案。這類研究方式的特色是使用詞意分析與標記，並針對問題的因果關係分析文件擷取答案。開放領域的中文自動問答系統(林川傑, 2004)，自動回答非限定領域的自然語言問句，中文問句類型定義有十一類，問句類型分類規則共有 136 條，針對不同的問句類型，論文中提出不同的候選答案找尋方式。短答問題的候選詞多半來自於具名實體辨識系統的輸出，或是在語意辭典中的下位詞等。長答問題的候選答案則是藉由特定句型所抽取出的詞組，並可針對特別問問類型限制組中所帶的語意等。不同的問句類型亦有著不同的候選答案排名策略。各種分數計算、權重設定及排名策略等都將由實驗結果來決定最好的組合。中文問句類型定義與分類，候選答案分數的多層次排名策略、以及短答問題及長答問題的可能候選答案為何為此系統的特色。我們學習這一個論文中的將問題分類與建立問句類型分類規則，分為 4 類 24 條問句類型分類規則。在我們的研究方法上，分析自然語言問句取得問句樣式與關鍵詞，資訊檢索以 Google 為資源並擷取出答案段落，最後再透過問句與答案段落之間的關聯性統計以計算出最適合每個問句樣式與關鍵詞的擴充查詢詞組，增加查詢詞組至搜尋引擎擷取答案的機會。

(15)

第三章系統學習問句中查詢詞的轉換

3-1 系統架構

在本論文中我們將提出以非名詞關鍵詞與查詢詞轉換擴充的線上中文問答系統，此系統共分為兩個部份，第一個部份是線上中文問答系統，架構圖如圖 2，第二部分是學習非名詞關鍵詞與查詢詞轉換擴充的訓練系統，架構圖如圖 3。系統以網路為基礎，使用語言學與統計學的理論去分析處裡問句，並且根據問句和答案與問句類別處裡後自動擷取出問句樣式再擷取出含有答案與關鍵詞的答案段落，利用這些答案段落使系統能夠自動去學習，分析這些答案段落與關鍵詞、查詢詞之間的關係，有效的將非名詞關鍵詞與查詢詞做擴充，增加系統至搜尋引擎搜尋答案的精確度。圖 2：線上中文問答系統架構圖當線上中文系統取得問句的搜尋結果後可以把問句轉換到學習資料中，訓練系統會把這一個新的問句進行處理。

(16)

圖 3：資料訓練系統流程圖系統主要處裡的問句類型分為五類：人、時間、地點、數量、事與物。針對答案單一與絕對的問題做處理。我們將系統分為四個階段，在 3-2 中我們將描述如何將問句做斷詞並將關鍵詞送至搜尋引擎擷取出答案段落。3-3 中我們將描述如何分析問句依據我們所制定的規則萃取出問句樣式。3-4 中我們將分析問句的答案段落，並且有效的擷取出查詢詞與關鍵詞的擴充詞。最後在 3-5 中我們將擷取的結果處裡後組合成搜尋引擎所能處裡的方程式。

(17)

3-2 問句斷詞與擷取答案段落

搜集大量的問句與答案作為系統的學習資料。利用中文斷詞系統做標記，所給的詞類標記是根據中研院平衡語料庫詞類標記集之簡化詞類與線上斷詞服務採用之精簡詞類。當有時中文斷詞系統所斷的詞會有錯誤，所以在這一個階段中，系統會出現一個建立新詞的服務，可以修正錯誤的斷詞，只要做過一次修正後下次遇到相同的詞句就會自動做修正。當系統回收的資料量越多時同時系統在問句斷詞的精確度也會升高。當問句中含有特殊的名詞時使用者可以使用”[“符號，將特殊名詞前後括起，系統就不會將這一個特殊的名詞做斷詞。接下來系統會先找出問句的關鍵詞，至 Google 搜尋取得答案段落，步驟如下： 1. 從問句與答案對中找出關鍵詞(k1,k2,….kn, A)，並且將停詞移除。 2. 將(k1,k2,….kn, A)組合至搜尋引擎中處理。 3. 擷取搜尋引擎前面 30 個結果，保留文字部分，把標點符號與英文字母移除。 4. 將處理過後的結果取出一段含有答案與任一關鍵詞的答案段落。範例如表 1：表 1：問句與答案，輸入與輸出範例

(Q, A)

AP

這就是TOYOTA創始人豐田喜一郎在全力以赴開發日 本第一輛國產汽車時的思想 … 豐田汽車的創始人是誰? Answer:(喜一郎)

(k

1

, k

2

, …, k

n

, A)

利三郎同意豐田喜一郎於 1937 年 8 月 27 日另立門戶成 立“豐田汽車工業株式會社” … 豐田汽車, 創始人, 喜一郎 …豐田創始人:豐田喜一郎豐田汽車公司是世界 …

3-3 問句分析

在這一個章節中，我們主要是針對問句的問句類型與問句樣式做分析。 3-3-1 疑問詞分類 當建立一個新的問句時系統會分析問句，自動找出最合適的疑問詞並且依據這一個疑問詞的類別來決定問句真正的問句類型，疑問詞分類如表 2。

(18)

表 2：疑問詞分類 疑問詞分類 疑問詞 人誰、那位、什麼人、何人事物哪些、那些、那樣、何許、何種、哪種、那種、何謂、什麼是、甚麼是時間多久、何時、幾時、哪天、幾時、哪一天地哪兒、哪裡、何在、那裡、何處、何地數量值若干、多少、幾道、幾個、幾人、幾年、幾邊形、幾歲、幾種、幾座、幾條、第幾、幾位模糊疑問詞幾、什麼、甚麼、何、多、哪、那如果疑問詞是模糊疑問詞，系統會依據疑問詞後面所連接的詞來決定問句的類型。範例如下： 例一： 如果模糊疑問詞後面連接的是一個數量如：一、二…等，系統會把再根據下一個名詞來決定問句類型。疑問詞 = 模糊疑問詞 + 數量 + 名詞母親節是哪一天？->母親節(N) 是(Vt) 哪(DET) 一(DET) 天(N) 疑問詞 = 哪一天問句類型 = 時間系統會自動的將 ”哪一天” 組合起來，作為這一個問句的問句類型。 例二： 如果模糊疑問詞後面連接的是一個名詞，系統就會依據名詞來決定問句類型。疑問詞 = 模糊疑問詞 + 名詞什麼人將中國造紙術傳入歐洲？->什麼(DET) 人(N) 將(P) 中國(N) 造紙術(N) 傳入(Vt) 歐洲(N) 疑問詞 = 什麼人問句類型 = 人系統會自動的將 “什麼人” 組合起來，作為這一個問句的問句類型。 3-3-2 萃取問句樣式 我們建立一些問句的法則分析問句萃取問句樣式。問句樣式格式設定如下：問句樣式 = 疑問詞 + 主要詞

(19)

查詢詞定義： 1.問句樣式 = 疑問詞 + 主要詞，查詢詞 = 主要詞。 2.問句樣式 = 模糊疑問詞 + 跟隨的名詞，查詢詞 = 跟隨的名詞。 3.問句樣式 = 疑問詞，查詢詞 = 疑問詞。 問句樣式分為 4 類 23 條法則，問句法則是依據疑問詞鄰近的詞分析產生，問句範例見附註二，法則列表如表 3：表 3：問句法則法則 疑問詞位置 問句樣式 問句結構 法則 1 句首疑問詞 + 名詞 + 動詞，當有數個連續名詞出現時以最後的名詞為主要詞。法則 2 句尾 語助詞 + 名詞 + ”是”或”在”或”是在” + 疑問詞，當有數個連續名詞出現時以最後的名詞為主要詞。法則 3 句首疑問詞 +”是”+ 名詞 + … + 問句最後的名詞，疑問詞後沒有任何的動詞法則 4 句首疑問詞 + 語助詞 + 名詞法則 5 名詞 + 副詞 + 停詞 + 疑問詞 法則 6 名詞 + 疑問詞 + 名詞 名詞 + “的” 停詞 +名詞 + “的” 法則 7 名詞 + 停詞 + 疑問詞 + “的” + 名詞法則 8 句尾名詞 + 停詞 + 疑問詞名詞 + 停詞介詞法則 9 動詞 + 疑問詞 + 名詞 法則 10 停詞 + 名詞 + 疑問詞名詞法則 11 第一類疑問詞 + 名詞 + 疑問詞是數量定詞 + 量詞 + 名詞名詞法則 12 句首 疑問詞 + 動詞 + 停詞 + 名詞停詞 + 名詞副詞法則 13 句首 疑問詞 + 介詞 + 動詞 動詞 + 語助詞 + 名詞法則 14 第二類疑問詞 + 動詞動詞 + 語助詞 + 停詞 + 疑問詞

(20)

動詞 + 名詞 法則 15 動詞 + 停詞 + 疑問詞法則 16 句尾動詞 + 介詞 + …. +疑問詞法則 17 句尾動詞 + 疑問詞，動詞前不可以為停詞法則 18 動詞 + 名詞 + 疑問詞 名詞 + 停詞法則 19 名詞 + 動詞 + 疑問詞 動詞法則 20 名詞 + 介詞 + 疑問詞 + 停詞 + 動詞 法則 21 名詞 + ”是”或“在”或”是在” + 疑問詞 + 動詞名詞法則 22 停詞 + 疑問詞 + 動詞 + 名詞 法則 23 第三類疑問詞 + 量詞疑問詞是數量定詞 + 量詞，相連前後無名詞法則 24 第四類疑問詞特殊問句如：誰「挾天子以令諸侯」？

3-4 分析答案段落與非名詞關鍵詞和查詢詞轉換擴充

訓練系統找出最好的非名詞關鍵詞與查詢詞轉換擴充詞。主要的處理步驟如下： 1. 應用配對演算法去處理問句與答案段落，取得根據問句樣式與關鍵詞所得配對組合 (Alignment)的統計。 2. 尋找在答案附近出現頻率最高的詞，並計算出統計與排序。 3. 將 1 與 2 的結果加總平均並做排序。找出最佳的轉換擴充詞。 3-4-1 使用文字組合的技術去學習非名詞關鍵詞與查詢詞的轉換 在這一個章節中，我們使用將使用 3-2 所取得的答案段落根據(問句, 答案段落)根據下面的步驟過濾成有用的資料，並且使用 Competitive Linking Algorithm (Melamed, 1997) 做(問句, 答案段落)選對。 1. 將答案段落中的答案以<ANS>標記答案，並且取出其左右鄰近的六個中文字，移除非中文字。 2. 以在 3-3 取得的問句樣式並且以

k

₁代替，並且分析問句取得關鍵詞，並且移除掉名詞，剩下來的關鍵詞以

k

2

,k

3

,k

4

,…,k

_n來表示。 3. 將中文字串重新組合成 2 個中文字(2grams)與 3 個中文字(3grams)的組合詞，用

(21)

a

1

,a

2

,a

3

,…,a

m來表示。

4. 使用 Competitive Linking Algorithm(CLA)處理所得到的關鍵詞與組合詞。

1.將所有(問句, 答案)的組合中，所有的非名詞關鍵詞、查詢詞與組合詞，計算出LLR(

k

_i,

a

j )，使用統計學中Logarithmic Likelihood Ratio(LLR)計算出

k

i 與

a

j反應出來的相互關

係。

Log-likelihood ratio：LLR(x,y)

k1 = number of pairs that contain x and y simultaneously。

k2 = number of pairs that contain x but do not contain y。

n1 = number of pairs that contain y

n2 = number of pairs that does not contain y

p1 = k1/n1 p2 = k2/n2 p = (k1+k2)/(n1+n2)

LLR(x；y) = -2log

2 2.當(k, a)的 LLR 值小於 7.88 時系統就會丟棄 3.其餘的(k, a)繼續做下面的流程 4 至流程 7。 4.完成LLR的計算後將(問句；答案)的(

k

_i,

a

_j)對做排序列表。 5.如果與先前選擇不衝突時可以選擇未計算的(k, a)及將計算好的(k, a)列表是由上到下 遞減的。 6.停止執行當(k, a)對計算完畢。 7.產出所有的問句與答案段落的 aligned pairs 列表。 8.紀錄每一個 aligning 組合(k, a)的總數。 9.選取每一個k擇前n名的組合詞，

t

1,

t

2,

t

3 … ,

t

n，k為問句樣式或非名詞關鍵詞。 LLR 統計方式是一個廣泛有效被利用來確認兩個詞的相關性，如果兩個詞在統一個問句發生的頻率高，它們的 Alignment counterparts 的頻率也會高。範例結果如表 4。

(22)

表 4：候選擴充詞與關鍵詞的配對等級範例 疑問詞與關鍵詞 擴充統計 K 生長生長 27 K 生長長在 13 K 生長生長在 12 K 生長的生 8 K 生長生長於 8 … … … Q 發明發明 103 Q 發明明的 23 Q 發明電話 20 Q 發明的發 20 … … … Q 出生斯坦 22 Q 出生出生於 10 Q 出生生在 10 Q 出生出生在 10 Q 出生生於 10 K=關鍵詞, Q=問句樣式 3-4-2 鄰近等級 鄰近等級是計算每一對(問句, 答案段落)，答案段落中在答案附近出現的組合詞數目(Proximity Count)，並且把這些做排序如表 5，由這一個方式可以得知那些詞在答案的附近是最容易出現的，通常這些詞的出現頻率跟答案的相關性也成正比。

(23)

表 5：問句答案類型是”什麼地方生長”的鄰近詞加總 組合詞 出現次數 鄰近等級 生長 16 1 長在 10 2 生長在 9 3 長於 7 4 生長於 7 4 間帶 5 5 海岸 5 5 沼澤 5 5 潮間 5 5 潮間帶 5 5 3-4-3 結合鄰近等級與配對等級 把所求出的結果鄰近等級與配對等級結合並求出最後等級，並把結果依大小排列如表 6。擴充詞等級 = ( X * 配對等級+ Y * 鄰近等級 ) / Z 系統中 X 與 Y 我們是設定 X = 4 Y = 6 Z = X + Y 表 6：將表 4 與 5 結合取得加權平均值的最後等級 組合詞 配對等級 鄰近等級 平均 最後等級 生長 1 1 1 1 長在 2 2 2 2 生長在 3 3 3 3 長於 4 6 4.8 5 生長於 4 4 4 4 間帶 5 7 5.8 7 海岸 5 7 5.8 7 沼澤 5 7 5.8 7 系統會自動將所擷取的詞做整合，整合的方式有下列幾項： 1. 把最後等級中含有關鍵詞與問句樣式的組合詞移除。 2. 相同最後等級的擴充詞如果有相似保留主要的詞，其餘移除。

(24)

相同最後等級的擴充詞(間帶、潮間、潮間帶)只會取[潮間帶] 3. 如果配對等級是空值，當鄰近等級是前兩名一樣並入計算，計算方式如下： Topn = 名次 -> Top1 = 1 擴充詞等級=( Y * 鄰近等級+ 30 + ( Topn * 10 ) ) / Z 如此當配對等級是空值時，系統會自動加上 30 + (Topn * 10)去作加權平均 4. 兩個停詞的組合可能會轉變成有效詞，所以系統在停詞或組合詞是使用加權平均的方式來計算，只會使等級下降，增加積分是由系統管理者根據實驗結果判斷並給積分。例如：”的”是一個停詞，他出現在兩個字的組合詞與三個字的組合詞可以有不一樣的設定。如：你的、我的…等”的”出現在兩個字組合詞的後面，百分之九十是無效詞，我們就可以設定積分等於 45 分。但是如果出現在三個字組合詞時又有不一樣結果，只有當”的”出現在三個字組合詞的中間時百分之三十是無效詞，所以就可以設定積分為 15 分。計算方式如下：無效詞積分 (無效百分比 / 10) * 5 = SW 當出現無效詞時產生積分後的平均等級計算方式：擴充詞等級=( X * 配對等級 + Y * 鄰近等級) + (SW ) / Z 無效詞積分是可以累加的SWall = SW1 + SW2 +….+ SWn 擴充詞等級=( X *配對等級 + Y * 鄰近等級) + (SWall ) / Z 我們使用這一個方法可以把一些無效或無用詞的 Rankavg積分增加使最後等級下降，讓系統能夠真正擷取到有用的詞，增加系統的精確度。

3-5 產生查詢句

我們先將問句分析擷取出問句樣式與關鍵詞，並且將問句樣式與非名詞的關鍵詞做擴充，擴充出 2 個擴充詞，使用布林邏輯與 Google 的可以判讀的格式轉換成查詢句。範例如表 7：

(25)

表 7：非名詞關鍵詞與查詢詞轉換擴充問句人類在什麼出現後進入歷史時代？類型詞 擴充詞(一) 擴充詞(二) 問句樣式 什麼出現發明紀錄 名詞關鍵詞 人類 名詞關鍵詞 歷史時代非名詞關鍵詞進入記載紀錄 布林邏輯 (出現 OR 發明 OR 紀錄)AND”人類”AND”歷史時代”AND(進入 OR 發明 OR 紀錄) Google (出現||發明||紀錄) ”人類” ”歷史時代” (進入||發明||紀錄) 有些問句並沒有適當可擴充的關鍵詞，所以在非名詞關鍵詞與查詢詞全擴充的查詢句中，只有查詢詞的擴充。在做完上面的步驟後最後系統就會將這些結果送至搜尋引擎。為了使搜尋結果減少誤差，系統還有一個相關答案的功能，因為有些答案是翻譯字，而因為翻譯的不同會有不同的答案，如: “凱薩大帝” 與 “凱撒大帝” ， “阿爾卑斯山”與 “ㄚ爾卑斯山” 但是這些答案也並非是錯誤或不正確，為了使系統不會遺漏掉這些答案，系統管理者可以將相關的答案新增至資料庫中，搜尋答案時系統就會自動進行比對。

(26)

第四章實驗與分析

4-1 研究步驟

在系統剛建立完成時，必須建立訓練資料，所以必須去搜集相關的問句與答案(Q, A)，這些問句可以涵蓋地理、歷史、地球科學、音樂、國文、數學…等領域。我們在網路上如：奇摩知識家1_{、蕃薯藤的小蕃薯問號小博士}2_{等網站與一些書本} 如：高中歷史與地理參考書、一般考試用書等書籍上找尋到 383 個符合的中文問句與答案，分為五種類別，如表 8：表 8：訓練資料與測試資料問句類型統計 問句類型 訓練資料 測試資料 人 97 18 事物 96 17 時間 61 15 地 64 16 數量 65 14 總數 383 80 將這些問句輸入到系統中，根據問句分析取得問句的問句樣式，並且從 Google 取回 30 個搜尋結果，總共取回 10,805 個答案段落。如表 9：表 9：訓練資料問句數量、問句樣式及從搜尋引擎擷取的答案段落統計 訓練資料 問句與答案 問句樣式 答案段落 統計數量 383 289 10,805 我們也找了 80 個問句與答案來做系統測試，類型統計如表 8：

4-2 擷取問句樣式的成效

我們將討論系統擷取問句樣式，並且分析錯誤。一位主要研究語言學的研究所同學，一位是我數位圖書資訊組的同學，一位是沒有語言學基礎的公司同事，完全是用他對語言的感覺去評斷。這裡我們所要評論是問句的問句樣式，我把測試資料所擷取出的問句樣式列表給她們評分，如果覺得是正確的就給”Good”，如果不正確就給”Bad”，實驗結果如表 10。實驗結果中如果三個人都給”Good”就給”Very Good”，如果三個人都 1_{奇摩知識家}_{http://tw.knowledge.yahoo.com/}_。 2_{小蕃薯的問號小博士}_{http://kids.yam.com/why/}_。

(27)

給”Bad”就給”Very Bad”，只有一個人給”Bad”就給”Good”，只有一個人給”Good”就給”Bad”，實驗結果如表 11。表 10：問句樣式評論結果 (一) 測試資料 測試者(一) 測試者(二) 測試者(三) “Good”總計 73 76 77 “Good”百分比 91.25% 95% 96.25% 表 11：問句樣式評論結果 (二)

測試資料 Very Bad Bad Good Very Good

統計數量 3 3 1 73 百分比 3.75 % 3.75 % 1.25% 91.25% 擷取問句樣式錯誤分析，表 12 是系統對測試資料中前五題所擷取出的問句樣式。表 12：前五個問句和問句樣式與評論問句 問句樣式 評論紅樹林生長在什麼地方？什麼地方生長 Very Good 美國獨立戰爭是發生在何時？何時發生 Very Good 法拉利的標誌上是哪一種動物？哪一種動物 Very Good 戰國末期那一國滅六國統一中國？那一國滅六國 Very Bad [居禮夫人]發現了什麼元素？什麼元素 Very Good 問句樣式經過評分後，我們分析系統錯誤的原因，並且把原因歸類如下： 1.CKIP 中文斷詞發生錯誤。例如：問句：戰國末期那一國滅六國統一中國？中文斷詞：戰國(N) 末(N) 期(N) 那(DET) 一(DET) 國滅六國(N) 統一(Vt) 中國(N) 問句樣式：那一國滅六國 “國滅六國”斷詞錯誤，應該為”國(N) 滅(Vt) 六(DET) 國(N)” ，問句樣式=那一國。 2. 特例問句，中文斷詞的標記所給的詞類出現兩個相同動詞，系統取第一個出現的動詞，但是主要的動詞應該是第二個動詞。例如：問句：蘇聯在何時正式瓦解？中文斷詞：蘇聯(N) 在(Vt) 何時(N) 正式(Vi) 瓦解(Vi)

(28)

應該取”瓦解”為主要詞，但是系統卻取”正式”，問句樣式=何時瓦解。 3.系統在分析問句錯誤，沒有把”出”設定為停詞，或沒有將詞做正確組合產生新詞。例如：問句：英國黛安娜王妃是在哪裡出車禍死亡的？中文斷詞：英國(N) 黛安娜(N) 王妃(N) 是(Vt) 在(Vt) 哪裡(N) 出(Vt) 車禍(N) 死亡(Vi) 的(T) 問句樣式：哪裡出應該取” 出車禍”為主要詞，但是系統卻只取”出”，未建立新詞，問句樣式=哪裡出車禍或哪裡車禍。

4-3 實驗結果與評論非名詞關鍵詞與查詢詞擴充

在這一個章節中我們將評論非名詞關鍵詞與查詢詞擴充的效果。將測試資料中的 80 個問句實際至 Google 搜尋檢索前 10 筆回傳結果作分析。

我們以 Mean Reciprocal Rank(MRR)做評量依據。MMR 計算結果表 13，顯示使用查詢詞擴充搜尋可以得到很明顯的進步。表 13：各類查詢句的 MRR 值與改進程度查詢 關鍵詞搜尋 查詢詞擴充 非名詞關鍵詞與查詢詞擴充 MRR 0.716 0.757 0.765 改進 4.1% 4.9% 依類別來分析如表 14，問句類型 = “地”與”事物”時有最好的效果，問句類型 = “時間”時效果最差。當非名詞關鍵詞與查詢詞一起擴充時問句類型 = “地”與”事物”還是有很好的效果，但是在問句類型 = “人”時效果是最佳 100%，分析其原因是因為”人”類別中需要做非名詞關鍵詞擴充的問句不多，並且正好她們都是在第一個搜尋結果就找到答案，所以其 MMR 值才會為”1” 表 14：各類查詢句的 MMR 值依問句的類別分類人事物地時間數量關鍵詞搜尋 0.668 0.803 0.802 0.529 0.773 查詢詞擴充 0.752 0.823 0.770 0.647 0.785 非名詞關鍵詞與查詢詞擴充 1 0.875 0.9 0.504 0.444

我們也檢驗查詢詞有效回收的 R 值(Recall at R)與 HE(Human Effort)。其中 HE 定義 為搜尋結果中答案的位置，計算結果如表 13。表 13 顯示查詢詞擴充當答案在等級 1 至

(29)

等級 3 時有最好的效果，回收率為 90%，所以我們 R 取 3。查詢詞與非名詞關鍵詞擴充 當答案在等級 1 至等級 3 時有最好的效果，有回收率有 88.46%所以我們 R 取 3。 表 15 顯示，在查問詞擴充時 HE per = 1.9，查詢詞與非名詞關鍵詞擴充時 HE per = 2.03，都小於關鍵詞搜尋的 HE per = 2.187，証明使用查問詞擴充或查詢詞與非名詞關鍵 詞擴充能改進搜尋的效能。在查詢詞與非名詞關鍵詞擴充中，因為有些問句中並沒有非名詞關鍵詞，所以測試的資料只有 26 筆資料。

表 15：查詢詞擴充在 Recall at R 與 Human Effort 的結果

Rank count Recall at R (%)

等級關鍵詞搜尋 查詢詞擴充 非名詞關鍵詞與查詢詞擴充關鍵詞搜尋 查詢詞擴充非名詞關鍵詞 與查詢詞擴充 1 46 50 17 57.5 62.5 65.38 2 12 11 3 72.5 76.25 76.92 3 11 11 3 86.25 90 88.46 4 3 3 1 90 93.75 92.30 5 3 1 0 93.75 95 92.30 6 1 2 0 95 97.5 92.30 7 0 0 1 95 97.5 96.15 8 0 1 0 95 98.75 96.15 9 1 0 0 96.25 98.75 96.15 10 0 0 0 96.25 98.75 96.15 No answers 3 1 1 Human Effort 175 152 53 # of questions 80 80 26 HE per question 2.187 1.9 2.03 在表 16 我們依據問句類別來劃分，找出各類別的變化，查詢詞與非名詞關鍵詞擴充在類別”地”與”人” 時對搜尋的幫助就比較大。查詢詞擴充在類別”地”與”數量”時對搜尋的幫助就比較大。在大部分的實驗結果中”時間”類別的效果都是最差的，在訓練資料中類別”時間”的問句也是最少的，所以可得知當訓練資料越少時系統的準確度就會越低。

(30)

表 16：評論非名詞關鍵詞與查詢詞擴充 HE per question 的結果，依問句的類別分類 人事物時間地數量 關鍵詞 2.27 2.41 2.8 1.43 2 查詢詞擴充 1.94 2 2.26 1.62 1.64 非名詞關鍵詞與查詢詞擴充 1 2.12 3.5 1.2 2.33

(31)

第五章未來工作

未來的工作針對非名詞關鍵詞與查詢詞的擴充上，希望能夠建立一個相關詞的資料庫，結合問答系統資料庫計算出與查詢詞或非名詞關鍵詞相關度最高的擴充詞。增加中文問答系統的效能上，希望能在中文問答系統前設置一個基於常問問題集的問答系統，過濾已處理過的問題，提升系統效能。在回覆給使用者的答案上，希望能使用關鍵詞與問句樣式分析搜尋引擎所回傳資料，抽取出問句中最可能的答案，提供給使用者。

(32)

參考文獻

Huang , Gai-Tai and Yao, Hsiu-Hsen. “Chinese Question-Answering System”, 計算機科學技術學報, 2004 年第 4 期, pp. 479-488, 2004.

Lee, Cheng-Wei et al., ASQA: A Hybrid Architecture for Answering Chinese Factoid Questions, Hsinchu.Taiwan, 2005.

Melamed, I. Dan. “A Word-to-Word Model of Translational Equivalence”, In Proceedings of the 35st Annual Meeting of the Association for Computational Linguistics, pp. 490-497, 1997.

Moldovan, D., Pasca, M., Harabagiu, S., and Surdeanu M. “Performance Issues and error Analysis in an Open-Domain Question Answering System”, In Proceedings of the 40st

Annual Meeting of the Association for Computational Linguistic, pp. 33-40, Philadelphia, PA, USA, July 2002.

Yu, Zheng-Tao et al., “Query Expansion For Answer Document Retrieval in Chinese Question Answering System”, Proceedings of the Fourth International Conference on Machine

Learning and Cybernetics,Guangzhou, pp. 18-21, August 2005.

鄭實福、劉廷、秦冰、李生，”自動問答總述”，中文信息學報，16 卷 6 期，46-52 頁， 2002。王亭雅，網頁搜尋引擎問答，中正大學資工所，碩士，民國九十二年七月。王怡嘉，問答系統之查詢擴充－以網路資源為本的非監督式學習策略，交通大學資訊科學所，碩士，民國九十三年十二月。曾元顯，資訊檢索與知識探勘，台北，民國九十三年七月十五日。沈天佐、林川傑、陳信希，”以網際網路內容為基礎之問答系統“Why”問句之研究”，第十五屆計算語言學研討會論文集，211-229 頁，2003。 李季，”淺談中文問答系統”，計算機科學技術學報, 2004 年第 1 期，71-72 頁，2004。 林川傑，中文開放領域自動問答系統之研究，國立臺灣大學資訊工程學研究所，博士， 2004。秦冰、劉廷、王洋、鄭實福、李生，基於常問問題的中文問答系統研究，哈爾濱．大陸，

(33)

2003。

(34)

附錄一測試的問句與答案

No. 問句 Rule 問句類型問句樣式 1 紅樹林生長在什麼地方？法則 15 地什麼地方生長 2 美國獨立戰爭是發生在何時？法則 15 時間何時發生 3 法拉利的標誌上是哪一種動物法則 7 事物哪一種動物 4 茶神是指誰法則 19 人誰指 5 鄭和總共下西洋幾次法則 11 數量幾次下西洋 6 [西遊記]的作者是誰法則 2 人誰作者 7 那一位美國總統解放黑奴法則 1 人那一位總統 8 [都江堰]是誰修建的法則 22 人誰修建 9 中國國民黨的黨徽是何人設計的法則 7 人何人設計 10 誰建立了羅馬帝國法則 12 人誰建立 11 岳飛被誰陷害法則 20 人誰陷害 12 誰第一個踏上月球法則 1 人誰第一個 13 汽車是誰發明的法則 22 人誰發明 14 [古巴危機]是發生在哪一位總統時法則 9 人哪一位總統 15 [雅虎]的創辦人是哪位法則 8 人哪位創辦人 16 南非的立法首都是哪裡法則 2 地哪裡首都 17 [居禮夫人]出生於哪裡法則 16 地哪裡出生 18 [都江堰]位於哪一省法則 17 地哪一省位於 19 美國的大峽谷位於那一州法則 17 地那一州位於 20 [出埃及記]中的應許之地是指何處法則 19 地何處指 21 哪裡被喻為[北方威尼斯] 法則 13 地哪裡喻為 22 [世界法庭]位在何處法則 19 地何處位在 23 [阿茲特克人]原居住在哪裡法則 15 地哪裡居住 24 阿根廷首都是哪裡法則 8 地哪裡首都 25 [九一八事變]發生在民國幾年法則 10 時間幾年民國 26 韓戰發生在什麼時候法則 15 時間什麼時候發生

(35)

27 [美國獨立宣言]是在何時通過法則 21 時間何時通過 28 [西羅馬帝國]何時滅亡法則 22 時間何時滅亡 29 蘇聯在何時正式瓦解法則 21 時間何時正式 30 [六四天安門]發生在哪一年法則 15 時間哪一年發生 31 [北大西洋公約組織]何時成立法則 22 時間何時成立 32 兒童節是每年的哪一天法則 8 時間哪一天每年 33 [居禮夫人]發現了什麼元素法則 15 事物什麼元素發現 34 [高速公路電子收費系統]感應器是使用什麼系統法則 17 事物什麼系統使用 35 硬度最高的礦物是什麼法則 2 事物什麼礦物 36 戰國末期那一國滅六國統一中國法則 6 事物那一國滅六國 37 世界上最長海底隧道是哪一個法則 8 事物哪一個隧道 38 世界最長的吊橋是哪一座橋法則 7 事物哪一座橋 39 人類在什麼出現後進入[歷史時代] 法則 21 事物什麼出現 40 [歐洲屋脊]是指哪一座山法則 9 事物哪一座山 41 [以色列人]信奉什麼宗教法則 17 事物什麼宗教信奉 42 歐亞的界山是哪一座山法則 7 事物哪一座山 43 阿里山海拔高度幾公尺法則 11 數量幾公尺高度 44 宋美齡逝世時享年幾歲法則 17 數量幾歲享年 45 一副象棋有多少棋子法則 7 數量多少棋子 46 [中山高速公路]全長幾公里法則 11 數量幾公里全長 47 [雪山隧道]全長多少公里法則 11 數量多少公里全長 48 [十字軍]共東征幾次法則 17 數量幾次東征 49 [豐田汽車]的創始人是誰法則 2 人誰創始人 50 誰有[台灣第一名模]之稱法則 13 人誰之稱 51 電影[黃金眼]的男主角是誰法則 2 人誰男主角 52 霹靂布袋戲中[刀狂劍癡]是指誰法則 19 人誰指 53 江戶幕府是由誰建立的法則 20 人誰建立

(36)

54 誰是世界上第一個太空旅遊者法則 3 人誰旅遊者 55 誰代表清政府與日本簽訂馬關條約法則 12 人誰代表 56 中央山脈北起哪裡法則 19 地哪裡北起 57 英國黛安娜王妃是在哪裡出車禍死亡的法則 21 地哪裡出 58 萊茵河起源於哪裡法則 19 地哪裡起源於 59 熊貓產於中國的何處法則 16 地何處產 60 元宵節蜂炮是在哪裡施放法則 21 地哪裡施放 61 西楚霸王項羽在哪裡兵敗自刎法則 9 地哪裡兵敗 62 [拜占庭帝國]亡於哪一個帝國法則 6 事物哪一個帝國 63 那一個山脈有[台灣屋脊]之稱法則 1 事物那一個山脈 64 那一個島是世界上面積最大的法則 1 事物那一個島 65 [台灣意象]票選活動第一名是什麼法則 8 事物什麼第一名 66 三國鼎立局面形成的關鍵是什麼法則 2 事物什麼關鍵 67 青蛙的幼蟲是什麼法則 2 事物什麼幼蟲 68 [拜占庭帝國]在何時滅亡法則 21 時間何時滅亡 69 美國的越戰自何時開始法則 20 時間何時開始 70 美國總統甘迺迪在何時遇刺身亡法則 21 時間何時遇刺 71 希特勒在什麼時候自殺身亡法則 21 時間什麼時候自殺 72 [友訊科技]成立於何時法則 16 時間何時成立 73 夏威夷在何時成為美國第五十洲法則 21 時間何時成為 74 [台北市立動物園]的門票全票多少錢法則 6 數量多少錢 75 南北韓的軍事分界線是北緯幾度法則 10 數量幾度北緯 76 2004 年台灣男性的平均壽命是幾歲法則 8 數量幾歲平均壽命 77 萊茵河全長多少公里法則 11 數量多少公里全長 78 奧運會多久舉行一次法則 22 數量多久舉行 79 古代中國人將一天分為幾個時辰法則 9 數量幾個時辰 80 [排雲山莊]有多少床位法則 7 數量多少床位

(37)

附錄二問句法則例句

No. 問句中文斷詞法則問句類型問句樣式 1 哪一個宗教的教徒不吃猪肉？哪(DET) 一(DET) 個(M) 宗教(N) 的 (T) 教徒(N) 不(ADV) 吃(Vt) 猪肉(N) 法則 1 事物哪一個宗教 2 請問埃及的首都是哪裡？埃及(N) 的(T) 首都(N) 是(Vt) 哪裡(N) 法則 2 地哪裡首都 3 誰是中國歷史上唯一的女皇帝誰(N) 是(Vt) 中國(N) 歷史(N) 上(N) 唯一(A) 的(T) 女(N) 皇帝(N) 法則 3 人誰女皇帝 4 什麼類型的動物最常被用於癌症研究什麼(DET) 類型(N) 的(T) 動物(N) 最(ADV) 常(ADV) 被(P) 用於(Vt) 癌症(N) 研究(N) 法則 4 事物什麼類型動物 5 員工配股不得轉讓之期限最長是幾年員工(N) 配股(Vi) 不得(ADV) 轉讓 (Vt) 之(T) 期限(N) 最(ADV) 長(Vi) 是(Vt) 幾年(N) 法則 5 數量幾年期限 6 宋代那一位皇帝寫的書法有[瘦金體] 宋代(N) 那(DET) 一(DET) 位(M) 皇帝(N) 寫(Vt) 的(T) 書法(N) 有(Vt) 瘦金體(Nb) 法則 6 人那一位皇帝 7 矮靈祭是哪個民族的傳統祭典？矮靈(N) 祭(Vt) 是(Vt) 哪(DET) 個 (M) 民族(N) 的(T) 傳統(N) 祭典(N) 法則 7 事物哪個民族 8 [台灣意象]票選活動第一名是什麼台灣意象(Nb) 票選(Vt) 活動(Vt) 第一 (DET) 名(M) 是(Vt) 什麼(DET) 法則 8 事物什麼第一名 9 李安以哪一部電影獲得奧斯卡最佳導演李安(N) 以(P) 哪(DET) 一部(N) 電影(N) 獲得(Vt) 奧斯卡(N) 最佳(A) 導演(N) 法則 9 事物哪一部電影 10 美國南北戰爭發生在西元幾年美國(N) 南北戰爭(N) 發生(Vt) 在(Vt) 西元(N) 幾年(N) 法則 10 時間幾年西元

11 萊茵河全長多少公里萊茵河(N) 全(DET) 長(Vi) 多少(DET)

公里法則 11 數量多少公里全長 12 誰發明了電燈泡？誰(N) 發明(Vt) 了(ASP) 電燈泡(N) 法則 12 人誰發明

(38)

13 哪裡被喻為[北方威尼斯] 哪裡(ADV) 被(P) 喻為(Vt) 北方威尼斯(Nb) 法則 13 地哪裡喻為 14 全球紅樹林分佈的北界是哪裡？全球(N) 紅樹林(N) 分佈(Vi) 的(T) 北界(N) 是(Vt) 哪裡(N) 法則 14 地哪裡分佈 15 美國獨立戰爭是發生在何時？美國獨立戰爭(N) 是(Vt) 發生(Vt) 在 (Vt) 何時(N) 法則 15 時間何時發生 16 台灣的沙岸主要分布於哪裡台灣(N) 的(T) 沙岸(N) 主要(A) 分布(Vi) 於(P) 哪裡(N) 法則 16 地哪裡分布 17 [高速公路電子收費系統]感應器是使用什麼系統高速公路電子收費系統(Nb) 感應器(N) 是(Vt) 使用(Vt) 什麼(DET) 系統(N) 法則 17 事物什麼系統使用 18 [金屋藏嬌]成語的典故出自中國哪一朝金屋藏嬌(N) 成語(N) 的(T) 典故(N) 出自(Vt) 中國(N) 哪(DET) 一朝(ADV) 法則 18 時間哪一朝出自 19 中國歷史中的「成吉思汗」是指誰？中國(N) 歷史(N) 中(POST) 的(T) 成吉思汗(N) 是(Vt) 指(Vt) 誰(N) 法則 19 人誰指 20 唐朝至何時才完成統一大業？唐朝(N) 至(P) 何時(N) 才(ADV) 完成(Vt) 統一(Vt) 大業(N) 法則 20 時間何時完成 21 鄧麗君在何時逝世？鄧(N) 麗(Vi) 君(N) 在(Vt) 何時(N) 逝世(Vi) 法則 21 時間何時逝世 22 自由女神是哪一國送美國？自由(Vi) 女神(N) 是(Vt) 哪(DET) 一(DET) 國(N) 送(Vt) 美國(N) 法則 22 人哪一國送 23 [1 英吋]是多少公分？１英吋(Nb) 是(Vt) 多少(DET) 公分(M) 法則 23 數量多少公分 24 誰「挾天子以令諸侯」？誰(N) 挾天子以令諸侯(N) 法則 24 人誰

中文問答系統－以網路為基礎之查詢詞擴充策略

國立交通大學

電機資訊學院在職專班數位圖書資訊組

碩士論文

中文問答系統－以網路為基礎之查詢詞擴充策

略

Web-Based Learning to Query Expansion for Chinese

Question Answering System

研 究 生：許長進

指導教授：梁 婷

中文問答系統－以網路為基礎之查詢詞擴充策略

Web-Based Learning to Query Expansion for Chinese Question

Answering System

研 究 生：許長進 Student：Chang-Chin Hsu

指導教授：梁 婷 Advisor：Tyne Liang

國 立 交 通 大 學

電機學院與資訊學院專班 數位圖書資訊學程

碩 士 論 文

中文問答系統－以網路為基礎之查詢詞擴充策略

研究生：許長進 指導教授：梁 婷

國立交通大學 電機學院與資訊學院 數位圖書資訊學程﹙研究所﹚碩士班

摘 要

網路有如資訊的海洋。然而遺憾的是，人們在網路中尋找自己感興趣的

答案常如大海撈針。傳統的關鍵詞檢索方式多無法解決使用者的查詢意圖。

本論文提出一個應用網路資料和查詢詞擴充技術的中文問答系統。我們提

出法則式的問句樣式機制以分析問句的意圖。另一方面，有別於一般中文

問答系統擴充詞多來自事先所設定的相關詞資料庫，本論文所提的查詢詞

擴充技術乃是應用現成的網路語料，進行相關詞探勘。我們利用對應演算

法將訓練問句和搜尋結果進行非名詞關鍵詞與查詢詞擴充。

爲了檢驗所提的方法，我們以 383 個問句做為訓練資料，進行查詢詞擴

充探勘，並另以 80 個問句作測試，所得到的搜尋結果比一般關鍵詞搜尋在

使用者所需要閱讀的篇數明顯減少，實驗結果顯示系統效能為每個問題所

花的 human effort 2.03 和 MMR 0.765。

關鍵詞：中文問答系統、問句類型分析、查詢詞擴充、關鍵詞擴充

Web-Based Learning of Query Expansion for Chinese Question Answering

System

Student：Chang-Chin Hsu Advisor：Dr. Tyne Liang

Degree Program of Electrical Engineering and Computer Science

National Chiao Tung University

ABSTRACT

誌

謝

首先要感謝我的指導教授—梁婷老師，身為一個在職專班的學生，工作

與學業要兼顧是一件很困難的事，並且我的工作與經驗也都非相關領域，

因此對自然語言與資料擷取的技術並不熟悉，但是老師確不厭其煩的指導

我，並帶我進入這一個領域，學習到更有效的方法去執行論文研究，因此

我真的很感謝指導教授—梁婷老師

其次要感謝資料擷取研究室中每一位學長姐與同學的幫助，幫我找出論

文中不夠完善之處，並且給予建議。更要感謝黃立泓同學的幫助，適時的

伸出援手，幫我解決許多相關的問題。

還有感謝大學同學杜宗原，幫助我修飾我的論文。還有每一位數圖組老

師的教導與同學的幫助，讓我完成我的論文。最後感謝中央研究院詞庫小

組所提供的中文斷詞系統。

目錄

表目錄

圖目錄

第一章 緒論

1-1. 背景

1-2. 中文問答系統組成要素

1-3. 動機

第二章 相關研究

第三章 系統學習問句中查詢詞的轉換

3-1 系統架構

3-2 問句斷詞與擷取答案段落

(Q, A)

AP

(k

, k

, …, k

, A)

3-3 問句分析

3-4 分析答案段落與非名詞關鍵詞和查詢詞轉換擴充

k

k

,k

,k

,…,k

a

,a

,a

研究生：許長進

指導教授：梁婷

研究生：許長進 Student：Chang-Chin Hsu

指導教授：梁婷 Advisor：Tyne Liang

國立交通大學

電機學院與資訊學院專班數位圖書資訊學程

碩士論文

研究生：許長進指導教授：梁婷

國立交通大學電機學院與資訊學院數位圖書資訊學程﹙研究所﹚碩士班

摘要

第一章緒論

第二章相關研究

第三章系統學習問句中查詢詞的轉換

第四章實驗與分析

附錄一測試的問句與答案

附錄二問句法則例句