應用問答技術於電腦領域論壇檢索之研究
Applying Question and Answering Technique to Computer
Hardware Forum Practice
黃純敏
國立雲林科技大學資訊管理 系
Department of Information Management
National Yunlin University of Science and Technology
[email protected] 江志銘 國立雲林科技大學資訊管理 系 Department of Information Management
National Yunlin University of Science and Technology
[email protected] 呂盛興 國立雲林科技大學資訊管理 系 Department of Information Management
National Yunlin University of Science and Technology
摘要
線上論壇(BBS)已成為人與人之間資訊交 流與分享的重要管道,如何搜尋出較符合 使用者預期的成果是目前檢索系統探討 的重要議題之一。本研究針對電腦領域專 有名詞設計問答檢索系統,本系統包括: 詞性合併、答案類型偵測、候選答案評分 機制三個子系統。本機制可依據使用者所 提出的問題,快速回覆可能的候選答案組 合,最後透過評分的機制挑選出最佳的答 案。實驗結果發現,整體系統的精確率為 40.48%,召回率為 42.93%,與採用相似度 查詢方式比較,精確率與召回率分別提升 9-22%以及 19-34%。此外,在專有名詞的 辦識率則達七成七。 關鍵詞:問答技術,詞性合併,答案類型 偵測,候選答案評分Abstract
The On-Line Forum becomes an important channel of communication for general publics. To search a variety of articles from the forum, the most straightforward way is to use keyword
matching. Traditional search engine accepts keyword input, and then replies a list of ranked results. From those ranked results, users still need to examine each article to find out the answer. The computer forum differs from traditional Q&A news reports in writing, many specific terms like ASUS P5GD1 Pro or ASUS EN6600GT/TD/128M are frequently used in the articles. In order to recognize these terms correctly, we employ a merging method to join each possible word together with a phase using the CKIP’s tags. In this study, we propose a Q&A system that users can ask a question about computer hardware, and have possible answers in return. The system was evaluated by using a QA set about computer hardware. Compared to TFIDF, the performance of precision and recall increases 9-22%, 19-34% respectively. Besides, the average accuracy of the POS merging subsystem reaches 77%.
Keyword: Question Answering, Part of
Speech Merging, Answer Type Detection, Candidate Answers Scoring
一、前言
線上論壇中專業領域內的問題解答 一直是使用者頻繁搜尋的目標,舉凡:硬 體技術文件、使用手冊、安裝方法…等。 這些文件集所蘊含的專業術語與專有名 詞的比例相當高,例如:「Kinston DDR 533 RAM」、「GA-8SR 533」、「Geforce 4 MX 440」等,此類詞彙通常在文件集中具有 一定的識別特徵(Features),若能辦識這類 型的專有名詞將有助於提升問答系統內 資訊檢索模組的效能。 本研究以 Google 線上論壇[9]內的問 答集做為研究對象,經由觀察發現,我們 發現在電腦硬體論壇內的文章具有下列 幾點特性: 1. 電腦專有名詞的詞彙十分普遍,如: Intel P4 3.0CG、P4P800SE。 2. 文章重點都環繞在專有名詞之前後文 資訊。 3. 討論區內的文章篇幅不長,文章的品 質無法根據詞彙數來決定。 4. 討論區的文章用語與寫作風格迥異、 不同文章討論的主題不同。 本研究提出一電腦專有名詞問答檢 索 系 統 (Computer Domain Proper-Nouns Answer Finding System)其所要實現的系 統結合資訊檢索與資訊擷取的技術,希望 能幫助使用者更快速、有效率的從非結構 化的文件中搜尋符合使用者需求的答案。 首先,使用者可以輸入問句「那塊主 機板可以支援 Intel P4 CPU 處理器?」,藉 由問句剖析(Parsing)將問句拆解成關鍵詞 組(Keywords)和問句意圖(Intending)。即: <意圖詞:那些主機板>、<關鍵詞組:支 援、Intel、P4、CPU、處理器>。接著,將 剖析的問句意圖進行答案類型偵測找出 所對應的答案類型,樣版:<那塊主機板 Æ主機板類型>。將答案類型(Answer Type) 與關鍵詞組,進行資訊檢索模組搜尋,找 出所有相關的文件集合,並對所有候選答 案評分與排序(Ranking)取出前五名回傳 給使用者。回傳的答案會依分數高低傳回 一文章段落、句子或特定的專有名詞。例 如:答案:「文章:865PE 支援 p4 CPU , 而且最快速的速率可達…」、「句子:p4 CPU 支援 P4P800-X 主機板」、「特定專有 名詞:8IPE1000G 主機板」。二、文獻探討
問答系統有別於一般的資料搜尋,一 般的搜尋只是針對使用者輸入的關鍵字 詞加以搜尋,從大量資料中比對出內含該 關鍵字的資訊呈現給使用者,但是使用者 還是必須自行過濾判斷其中真正有用的 資訊。問答系統可以根據使用者的問題找 出確切的答案[4],也就是說問答系統能夠 根據使用者的意圖來正確的回答使用者 想要的答案。 目 前 問 答 系 統 的 研 究 可 分 為 三 大 類:基於常問問題集的問答系統,基於百 科知識的問答系統,開放領域的問答系統 [5]。中文問答系統的實作也由其困難之 處,而主要的困難點也都源自於中文字詞 處理的原罪﹝例如:斷詞的困難、詞性的 判斷等﹞,另外中英文夾雜的情形也使得 中文檢索技術更為困難[10]。基於常問問 題集以及百科知識所架構而成的問答系 統大多的目的都是回答一般性的問題,但 是要將回答一般性問題的問答系統應用 在特定領域,例如本研究中的電腦硬體領 域,也很難見其成效,因為要回答特定領 域的問題所使用的資料應該與該領域高 度相關,如此才能有較高的回答正確率。 在前言中本研究歸納了幾項關於電 腦硬體論壇中的文章特色,而受限於現有 的搜尋引擎或是資訊檢索技術的能力,使 用者在查詢有關電腦硬體的資料時,往往 無法根據自己本身的問題來得到精確的 解答。在問答系統的研究中,使用網際網 路的資源來輔助問答系統的效能已經被 證實是有效的方式[6],因此本研究所提出的電腦專有名詞問答檢索系統將透過納 入此方法,彌足現有檢索技術對電腦硬體 資料查詢的不足之處,希望能幫助使用者 更快速、有效率的從非結構化的文件中搜 尋符合使用者需求的答案。
三、研究架構
本研究提出一套電腦專有名詞問答 檢索系統,其所要實現的系統結合資訊檢 索與資訊擷取的技術,輔以答案類型偵測 的方式找出所需要的答案。主要的目的是 希望幫助使用者更快速、有效率的找出電 腦硬體類型的專有名詞,系統可分為二大 部分:(1)前置處理:討論區的文章進行剖 析、斷詞與詞性標記、詞性合併與答案類 型偵測;(2)後端處理:將剖析的問句資訊 進行資訊檢索,找出符合問句意圖的候選 段落或句子,最後,對文章進行評分與排 序。 圖 1 為本研究系統架構,共分成四個 部分:分別為「詞性合併」、「答案類型偵 測」、「資訊檢索」、「候選答案評分」。以 下針對各部分研究步驟進行說明。 網頁剖析 資訊檢索模組 答案類型偵測 詞性合併 線上論壇 問答集 候選答案評分 回名剖析 問句 斷詞/詞性標記 圖 1、系統架構圖 1. 首先由使用者提出查詢問句,透過問 句剖析器取得問句中的關鍵詞與疑問 詞(Question Word)。前者將進行資訊檢 索模組,後者則進行問句/答案類型配 對 模 組 (Question/Answer Type Matching)。 2. 資訊檢索模組會找出同時出現關鍵詞 組的文件集。 3. 另一方面,透過問句/答案類型配對模 組可以取得疑問詞與其對應之答案類 型(Answer Type)。 4. 完成 2,3 步驟後,系統將從回傳的文件 集中偵測可能的候選答案,隨後進行 候選答案評分機制(Candidate Answers Scoring),最後將其結果排序取出前五 名(Top 5 Rank)答案回傳給使用者。 (一)斷句與斷詞處理 由於線上論壇內的文章寫作風格不 盡相同,為避免造成段落句子不易分辨的 情況發生,因此,在進行斷詞之前,必須 先將論壇內的文章給予適當的處理,在 此,我們藉由標點符號用法[8],將文章重 新斷句,並排除其他過於頻繁的標點符號 以及停用詞。 根據中研院詞性標記表[1]將詞性分 為四十七種詞類,其中以名詞及動詞所代 表的訊息最具意義且比例最高,另外,由 於電腦硬體論壇內的單位詞相當頻繁,因 此,英文及數量詞亦在我們分析的範圍 內。至於其他的詞類如語助詞與感嘆詞, 如:哦、啊…等,在文件中大致上都只負 責修飾、連接、表達語氣或態度的功能, 我們將予以排除。值得注意的是,副詞(D) 中包含疑問性副詞,如:為什麼、何時、 如何..等,對文件內容有決定性的影響, 故不可輕易忽略之。 在斷詞方面,本系統採用中研院詞庫 小 組 開 發 的 中 文 斷 詞 與 詞 性 標 註 系 統 [2],CKIP 系統在未知詞的偵測上具有相 當的成效,諸如:技嘉、金士頓、華碩、 微 星 … 等 專 有 名 詞 皆 能 有 效 的 斷 出 詞 彙,但對於電腦專有名詞的辦識上效果不佳,以 P4P800SE 為例:CKIP 系統會將其 斷 成 P 4 P(FW) 8 0 0 (Neu) SE(FW),主要的原因在於 CKIP 系統對於 英文字皆給予外文詞性標記(FW),對數字 則給予數量詞性標記(Neu),一旦遇上英文 與數字同時出現時,這樣的斷詞結果將影 響後續在資訊檢索模組中計算詞彙權重 的誤差(表 1)。 表 1、詞性分類(本研究整理) 分類 詞性 個數 名詞 Na Nb Nc Ncd Nd 5 動詞 VA VAC VB VC VCL VD VE VF VG VH V VL HC VI VJ VK 16 量詞 Neu Nes Nep Neqa Neqb Nf Ng 7
副詞 Da Dfa Dfb Di Dk D 6
停用詞 DE SHI V_2 A Nh I P T Caa Cab Cba Cbb 12
英文標記 FW 1 (二)詞性合併 為了加強電腦詞彙的鑑別力,本研究 歸納出相關的詞性規則,針對硬體領域的 專有名詞進行詞性合併,以詞性構成要素 為原則,輔以經驗法則得知在某些情況下 某些詞性共同出現的頻率相當高,並以 「長詞優先合併」以及「單位詞優先合併」 二大原則,歸納出下列近 18 條合併規則 (表 3),並自定四個詞性(表 2)做為合併完 成後的詞性,詳細說明如下: 1. 長詞優先 在專有名詞中通常其資訊具有不可 分割的特性,例如:「中央研究院」與「中 央」、「研究院」其資訊量較高且較具代表 性。 2. 單位詞優先 為了從合併的詞彙組合中正確判斷 量詞及單位詞的型態,我們蒐集國語教育 委員會「國語辭典第三版之量詞表」[7], 這也是為了彌補 CKIP 系統不足的地方, CKIP 系統針對數量詞或是單位詞並沒有 特別的處理,而本研究將數量與單位的量 特地擷取出來對於之後的詞彙解析有正 面的效果,詳述於系統實作與評估一節。 找出與價格單位有關的詞彙,如:元、個、 顆、條、塊…等,並作為量詞類型判斷的 依據。常見電腦量詞如:數量詞:一個、 二顆、三條…、價格:$1,400, 三千元、 六百八十塊…、單位詞:32 位元、65 度、 12 公分…。 表 2、自定詞性類型 Proper Noun(PN): 專有名詞 Number Unit(NU): 數量單位 Question Word(QW): 疑問詞 Modify(MF): 修飾詞
表 3、詞性合併結果(部分) CKIP 詞類標記 構成詞彙 詞性 (FW) (Neu) (FW) Sp2600+,V9999GT (PN) (FW) (FW) (Neu) Pioneer-A09,BenQ-FP791 (PN) (Nes) (Neu) (Nf) 每一個、另一種 (QW) (Nep) (Neu) (Nf) 這兩塊、哪一張 (QW) (Neu) (FW) 264 MB、333 MHz (PN) (FW) (Neu) AMD 64、NVIDIA 5200 (PN) (FW) (FW) INTEL-M-P4CPU,K8N4-E-Deluxe (PN)
(Na) (Na) 記憶體插槽、液晶顯示器 (PN)
(Dfa) (VH) 非常高、最快 (MF)
(Da) (Neu) 約 100、最多 4096、、總計三萬 (NU) (Neu) (Nf) 一千多塊、100 元、五萬元 (NU)
(Nep) (Nf) 這顆、這張、那個、那塊 (NU)
(Neu) (Neqa) 一部份、兩部份 (NU)
(三)答案類型偵測 答案類型偵測的目的在判斷合併後 的詞彙其所屬的類別,例如:P4P800SE 屬於「主機板類」、DDR 400 512 MB 屬於 「記憶體類」等,這些詞彙在電腦領域出 現的次數非當頻繁,為了正確的辨識出各 詞彙所屬的類型,我們提出一答案類型偵 測 技 術 , 即 透 過 線 上 搜 尋 引 擎 (Yahoo Kimo Search) 擷取網頁中重要的關鍵詞 彙。我們觀察目前檢索技術,如:page Ranking,發現詞彙間共同出現的機率可作 為答案類型判斷的依據。偵測流程如圖 2 所示。 結束 回傳網 推薦詞? 有 單字詞? 是 無 無 有 否 合併後詞彙 更新合併詞彙 截去最後一個字詞 前後文資訊 更新合併詞彙 unKnownType 詞頻與距離 圖 2、答案類型偵測模組流程圖 處理流程解說如下: 1. 我們將合併後的詞彙進行搜尋引擎的 檢索,並剖析回傳網頁的前十筆文件。 2. 以合併的詞彙為中心點(focus),找出中
心點前後各取五個出現的詞彙集合, 並 且 優 先 擷 取 出 名 詞 (Na) 的 詞 彙 組 合,若擷取出的詞組中出現我們定義 的類別相關詞組時,即予以計算權重。 3. 查詢的詞彙若無回傳網頁代表合併的 詞彙不具代表性或合併過多資訊,因 此 , 我 們 截 去 詞 彙 的 最 後 一 個 單 字 詞,並重新檢索該詞彙。直到截取至 最後一個字詞為止,若最後一個字詞 仍無回傳網頁則系統會給予未知類別 (unKnownType)。此外,若回傳網頁內 包含 Yahoo Kimo 提供的推薦詞彙,則 以推薦詞優先並更新合併詞彙,重新 進行檢索。 4. 從檢索後的網頁文件中,找出詞彙的 前後文資訊,接著,開始計算各查詢 詞 彙 與 類 別 詞 彙 間 共 同 出 現 的 頻 率 (Co-Occurrence)以及彼此詞彙間的距 離(Distance),最後附以權重,取出權 重值最高者視為該關鍵詞之類別關鍵 詞(Category)。 5. 電腦硬體的分類本研究蒐集名人三 C 電 腦 賣 場 所 提 供 的 電 腦 硬 體 報 價 單 [3],將報價單上的硬體分類作為研究 中的分類關鍵詞(表 4)。 表 4、電腦硬體分類與相關特徵詞彙 類別詞及相關詞組 <主機板&Motherboard &Mainboard>
<硬碟&HD&Hard Disk> <螢幕&Monitor&LCD> <記憶體&RAM& Memory> <音效卡&Audio&Sound> <掃瞄器&Scanner>
<顯示卡&VGA&AGP> <燒錄機&DVD RW&CD RW> <印表機&Printer> <處理器&CPU> <光碟機&CDROM> 在此我們以關鍵字:"P4P800SE"為 例: 1. 以詞彙"P4P800"為中心點(focus), 找出中心點前後各取五個出現的詞彙 集 合 ( 主 機 板 、 華 碩 、 規 格 說 明 、 SOCKET478、支援…),並且優先擷取 出名詞(Na)的詞彙組合:主機板(Na)、 華碩(Na)、規格說明(Na)。分別計算詞 彙與類別相關詞組的權重。 2. 在 此 我 們 假 設 兩 詞 彙 出 現 的 次 數 愈 多、距離愈近,表示兩者關係愈緊密。 i term 為合併後的詞組,termj為類別 詞組。Category 為我們所定義的類別關 鍵詞,以Ci表示termi的所屬類別,C 代表類別詞組的個數。fij代表termi與 j term 之間共同出現的次數,共同出現 的次數愈多其權重愈高;dij代表termi 與termj間的距離位置,兩詞彙的距離 愈近其權重愈高。如公式(1)所示:
∑
− = = 1 1 ) 2 (max
arg
dij ij C j i f C (1) 3. 如表 5 所示,查詢詞彙(P4P800)與類別 詞組(主機板)在共同出現 3 次,各別距 離(不包含標點符號)為 2,0,4。另一類別 詞組為(顯示卡),共同出現 2 次,各別 距離為 4,4。其權重分別為: 9375 . 3 ) 2 / 1 2 / 1 2 / 1 ( * 4 2+ 0+ 4 = = 主機板 C 25 . 0 ) 2 / 1 2 / 1 ( * 2 4 + 4 = = 顯示 卡 C4. 計算出各類別詞組與查詢詞彙的權重 後,取其權重最高即查詢詞彙(P4P800) 予以歸類到「主機板類別」。 表 5、Yahoo Search 查詢”P4P800”網頁結果 標題 檢索結果 產品詳細資訊 >> 主機板 \ 華碩 - P4P800 規格說明: Socket478, ... 我的主機板 P4P800 有支援 on board LAN 但是我想用 我的 BOOT ROM 開機 所以插入另... Download 支援與服務 技術資料 主機板支援 ... P4P800 Deluxe 及 P4P800 BIOS 1018 更新 BIOS 之前務必詳閱詳細 ... P4P800 Deluxe 及 P4P800 BIOS 1017 更新 BIOS 之前 務必詳閱 ... (四)候選答案評分 一旦偵測出電腦專有名詞及其所屬 類別後,透過資訊檢索找出相似度最高的 文件,再從這些文件中尋找定義的樣版特 徵,這樣作法可以召回較廣泛範圍的文件 集合,並進行縮小範圍的比對查詢,以找 出可能的候選答案並加以評分。 首先,我們將問句分解成二個部份: 疑問詞及關鍵詞組。問句:那些主機板支 援 K8 CPU?疑問詞:那些主機板(which type)。關鍵詞組:支援、K8、CPU。藉由 答案類型偵測出該疑問詞所對應的答案 類型樣版<那些主機板Æ主機板型號>,搭 配關鍵詞進行文件檢索,找出相似度最高 的文章,並從中擷取出相對應的解答。 對文件中某一個潛在可能的答案而 言,在距離查詢詞彙的範圍內,問句中的 詞組(支援、K8、CPU)與答案類型詞彙共 同出現的組合,愈靠近答案類型者貢獻的 分數愈高。排序加權後的分數,取出前 5 個做為候選答案(candidate answers)。在此 我們共分為三個層面予以加權: 1. Match Degree(MD) : 代 表 查 詢 詞 彙 (query i)間共同出現在同一篇文章的 次數。 2. Pattern Degree(PD):代表查詢詞彙與可 能的答案類型(answer j)共同出現的頻 率。 3. Distance Degree(DD):代表查詢詞彙與 可能的答案類型間的距離。 計算公式如下: ) 2 / 1 ( 1 1 ij DD ij ij m i n j ij MD PD Score =
∑ ∑
= = ⋅ ⋅ (2) 舉例說明計算過程如下: z 問句:那些主機板支援 K8 CPU? z 查詢問句的關鍵詞組(支援、k8、CPU)同共 出現在同一篇文章,Match degree=3 z 藉由樣版得知:答案類型為<那些主機板-> 主機板類型> z 文章內共同出現關鍵詞組與答案類型的詞彙 組合為:<主機板&支援>、 <主機板&k8 > <主機板&CPU> <k8&CPU>,包含答 案類型的組合共有三組,故 Pattern degree=3 z 關鍵詞組與答案類型詞組間的距離為:< P4P800( 主 機 板 )& 支 援 =3 > 、 < GA-7VTXE(主機板)&k8=5> <MSI 694D PRO(主機板)&CPU=1> ,Distance degree 分別為 1 5 3 2 / 1 , 2 / 1 , 2 / 15 . 4 ) 2 / 1 * 3 * 3 ( 28125 . 0 ) 2 / 1 * 3 * 3 ( 125 . 1 ) 2 / 1 * 3 * 3 ( 1 & 694 5 8 & 7 3 , 800 4 = = = = = = − CPU DPRO MSI kk VTXE GA 支援 p p Score Score Score
z Score Ranking=< 第 一 組 答 案 : MSI 694D PRO>, <第二組答案:P4P800 >,<第三組答 案:MSI GA-7VTXE> (五)資訊檢索系統 透過中研院未知詞詞性標註系統將 文章進行斷詞處理與詞性合併後,配合模 版比對擷取出電腦領域的專有名詞,接 著,建立各詞彙的文件之特徵向量,向量 索引值的建立方式即將文件內容轉化為 個別的文件特徵向量,這些文件向量再存 入向量索引檔中以提供後續的文件相關 度比對使用。如公式(3)所示:
∑
∑
∑
= = ⋅ = = n i i n i i n i qidi q d d q, ) 1 1 2 1 2 cos( (3) qi: 問 句 (query) 內 出 現 的 詞 彙 之 TF*IDF,di:文件(document)內出現的詞彙 之 TF*IDF , qidi 共 同 出 現 的 詞 彙 其 TF*IDF。四、系統實作與評估
(一)系統實作 本研究的資源來源以 Google 線上論 壇與華碩網站的問答集為主要蒐集的對 象,我們總共下載了 3,000 篇問答集,必 須注意的是,每個問題都必須對應到回覆 的文章,換句話說,沒有人回覆的文章將 被排除在外,因此,去除無人回應的文章 204 篇、重覆的文章 236 篇以及廣告信 495 篇,真正有效的問答集共 2,065 篇。其中 google 論壇有 1,545 篇,華碩網站問答集 占 520 篇。 透過中研究未知詞與詞性標記系統 進行斷詞處理,總共斷出 23,588 個詞彙, 平均每一個問題中含有 17.784 個字(不含 標點符號)、7.235 個詞彙;平均每一篇文 章有 38.015 個詞彙、5.483 個句子。整體 來看,問答集內所討論的文章篇幅稍短且 字數偏少。 在問答系統中剖析問句的意圖以及 對應的答案類型將攸關整體系統的精確 率與召回率,若能正確的判斷一個問句的 答案類型將有助於資訊檢索在搜尋上的 效能。因此,本實驗的目的在瞭解答案類 型的辦識對系統檢索的影響程度。 首先,我們針對詞性合併的效果進行 統計,數據如表 6。從統計數據可以看出, 詞性合併後的詞彙在討論區中占有一定 的比例 23,588 / 4,207=17.84%,如果能夠 正確的辦識出合併的詞彙將有助於資訊 檢索上的搜尋。 表 6、詞性合併個數 詞類 個數 占總合併詞數比例% 專有名詞 2,284 9.68% 量詞 1021 4.33% 疑問詞 178 0.75% 修飾詞 724 3.07% 總共合併詞彙 4,207 17.84%我們觀察發現電腦專有名詞的組成 大 多 以 英 文 及 數 字 的 組 合 為 主 , 如 : GA-8SR533、Kinston DDR 400,因此,我 們以此規則進行專有名詞的的答案類型 偵測,嘗試辦識出各專有名詞所屬的類 別。 我們總共訓練 2,284 個專有名詞,並 依據詞組共同出現的頻率與最小距離位 置,計算其權重值,在訓練的過程中,可 能因為專有名詞合併過多資訊而形成未 知詞彙,若系統無法辦識該未知詞將會給 予一個"未知類型(UnKnownType)"。此 外,我們發現 Yahoo Kimo 搜尋引擎會提 供這類的推薦詞大多是在拼錯字的情況 時被辦識出來。例如:查詢關鍵字"AUSU P5G1" , Yahoo 的 推 薦 詞 為 "ASUS P5G1",AUSU 己被更正為 ASUS。表示 這個詞彙通常較廣泛被使用且網頁數量 較多。若遇到這類的情況,系統將會優先 擷取以確保該詞彙的完整性,除了可以過 濾因過度合併所造成的未知詞彙之外,亦 有更正系統辨識錯誤的效果。 在辦識錯誤率方面,我們蒐集名人三 C 電 腦 賣 場 所 提 供 的 電 腦 硬 體 報 價 單 [3],其內含電腦硬體名詞共 11,233 個,並 與 本 系 統 所 辦 識 出 的 專 有 名 詞 進 行 比 對,若詞彙出現在報價表內且屬於同一類 別則視為正確的詞彙,反之則視為錯誤。 其計算方式如下: 辦識正確的個數=總合併的個數 - 辦 識錯誤的個數 - UnknownType 的個數。 推薦詞的部分,僅做為輔助合併詞彙 在進行搜尋時取得較佳的網頁結果,故推 薦詞不納入辨識正確個數的計算中。實驗 結果如表 7 所示。 表 7、答案類型偵測實驗數據 我們觀察實驗結果發現以下幾點特 性: 1. UnknownType 的詞彙 合併的規則並無法適用於所有的專 有名詞組合,造成部分詞彙合併過多或太 少的資訊,影響系統辦識的正確率,例 如 : 合 併 過 多 資 訊 " KM 18G PROVER2",正確應為:青雲主機板型 號" KM 18G "、合併太少資訊"Radeon 9600"、正確應為:青雲顯示卡"Radeon 9600 Pro"。 2. 辨識錯誤的詞彙 在辨識錯誤的情況中,合併的字詞會 受到標點符號的影響而造成誤判,例如: Plextor 716>a? 。 在 系 統 將 會 被 合 併 成"Plextor 716"以及單字詞"a",正確 應為燒錄機:"Plextor 716a"。 3. 推薦詞的詞彙 我們透過 Yahoo Kimo 所提供的推薦 詞彙的確具有修正詞彙的效果,例如:合 併詞彙「AUSU P4S 533 MS」,推薦詞為 「" ASUS P4S533"」,AUSU 已被更正為 ASUS,這類的詞彙大部分為拼錯字的情 況。至於對於合併過多資訊的部分,藉由 截去最後一個單字詞的策略,可以將多餘 的雜訊排除,承如上例:" AUSU P4S 533 MS",因為最後一個單字詞"MS"不具 代表性,加以排除後,成功的取得詞彙" ASUS P4S533"。 4. 辦識正確的詞彙 長詞優先合併的詞彙確實具有代表 性的意義,例如:合併後詞彙 Ti 4200 AGP 8X 與 Ti 4200,前者的資訊較後者完整且 詞類 總合併個數 錯誤個數 UnKnownType 個數 推薦詞個數 正確個數 專有名詞 2284 362 354 201 1568
較具資訊含量較高,因此,在剖析網頁時 將 Ti 4200 AGP 8X 辦識為「顯示卡」類別 時權重較高。此外,"單位詞優先合併" 亦有增加正確詞彙的效果,例如:文章內 容:「硬體報價:華碩主機板 P5GD1 3399 元,有議者請洽…..」,斷詞與詞性標記「硬 體(Na)報價(Na):(COLONCATEGORY)華 碩 (Nb) 主 機 板 (Na)P5GD1(FW)Pro(FW)3400(Neu) 元 (Nf) … 」, 合 併 規 則 分 別 為 : { " (Neu),(Nf) " , " (FW},(FW) " , “(FW),(Neu)"}先合併單位詞組:3400 元,再合併 P5GD1 Pro,則可避免合併出 Pro 3399 的錯誤詞彙。 我們分別統計各類別正確與錯誤的 辨識率,如表 8 所示。從實驗結果我們得 知:「主機板」、「顯示卡」、「硬碟」類別 的辦識率較其他類別高,觀察其文章內容 發現,這三類中的文章內容在描述專有名 詞時都相常詳細且正確,例如:文章:「我 有 一 顆 硬 碟 是 WD 120G SATA 7200rpm…」、「…ASUS A7N8X-X 主機板 支 援 … 」、「 目 前 評 價 較 高 的 顯 示 卡 像 FX5700XP-TD128、…」。透過詞性合併規 則,這些文章內的詞彙都被系統正確的辨 識成功並且各自歸類到所屬的類別。 表 8、各類別答案類型辦識率 類別 錯誤率 正確率 主機板 14.16% 85.84% 處理器 42.86% 57.14% 硬碟 17.47% 82.53% 記憶體 34.03% 65.97% 顯示卡 10.28% 89.72% 光碟機 22.63% 77.37% 燒錄機 19.91% 80.09% 音效卡 21.05% 78.95% 營幕 24.05% 75.95% 掃瞄器 20.59% 79.41% 印表機 23.08% 76.92% 然而,「處理器」與「記憶體」類別 的錯誤率偏高,歸結其原因在於這兩類的 專 有 名 詞 大 多 包 含 某 些 特 定 的 標 點 符 號 , 例 如 : P4 CPU 2.5G 與 DDR400 512MB*2,標點符號造成此兩個類別無法 正確的合併,進而影響到後續的答案類型 偵測上。 整體來看,合併的專有名詞平均正確 辨識率為 77.26%,錯誤率為 22.74%,若 能改善上述的例外情況,應該可以有更佳 的辦識效果,將於未來研究中再以說明。 (二)系統評估 為 了 有 效 評 估 系 統 精 確 率 與 召 回 率,我們將文件集內的問答集整理與分 類,從本研究所定義的十一的類別中分別 中抽出 20 篇問答集,再加上有關詢問價 格、單位名詞以及網址的問答集各 20 篇, 共計十四類,合計 280 篇,並且針對各類 別設計出三個問題,共 42 個測試問題(附 錄三),每個問題以前 5 個答案分別計算其 系統的精確率與召回率,計算方式如下: 1. 精確度(Precision)=正確答案的筆數 / 回傳答案的篇數 2. 召回率(Recall)=正確答案的筆數 / 文 件集內可回答問題的篇數 此外,我們採用 TREC QA 中用來衡 量 問 答 系 統 的 RAR(Reciprocal Answer Rank))指標,RAR 的值愈高,代表系統能 夠更快速、有效率的提供使用者確切的答 案。如公式(4)、公式(5)所示: i
Rank
RAR
=
1
/
i=1,2,3,4,5 (4) i n i RAR N MRAR= ⋅∑
= 1 ) / 1 ( N=42 (5) 以本實驗為例:本實驗共有 42 個問 句 N=42,每個問句會回傳前 5 筆答案 n=5 , 若 答 案 出 現 在 第 一 筆 則 i=1, RAR=1/1=1 分,另一答案出現在第二、三、四、五筆,其 RAR 分別為 1/2=0.5 分, 1/3≒0.3 分, 1/4=0.25 分, 1/5=0.2 分。 MRAR(Mean Reciprocal Answer Rank)為 RAR 之加總平均。 從實驗結果(表 9)發現,有部分問題在 文件集找到答案的比例偏低,尤其以「音 效卡」類別僅找到三個答案。可能的原因 是 抽 取 的 文 件 內 討 論 音 效 卡 的 文 章 不 多,導致系統在答案評分階段無法給予適 當的加權值,影響了系統的精確度。此 外,我們分析錯誤答案與找不到的文章, 發現查詢關鍵字與類別詞組間的距離太 遠,造成雜訊過多,影響候選答案在評分 上的精確性。 表 9、採用答案類型輔助資訊檢索之效能 答案在第一筆 答案在第二筆之後 ΣRAR MRAR 價格 3 2 3.6416 0.728 數量 2 2 2.6416 0.660 網址 2 4 3.2832 0.547 主機板 5 5 6.604 0.660 處理器 3 3 3.9624 0.660 記憶體 2 5 3.604 0.515 硬碟 3 6 4.9248 0.547 顯示卡 2 7 4.2456 0.472 音效卡 2 1 2.3208 0.774 燒錄機 2 6 3.9248 0.491 光碟機 1 4 2.2832 0.457 營幕 1 3 1.9624 0.491 掃描器 2 3 2.9624 0.592 印表機 2 2 2.6416 0.660 相較之下,「主機板」與「顯示卡」 與「硬碟」以及「燒錄機」這四類的 RAR 值較其他類別高,代表這四類能較快速、 有效的找到正確的答案,探討其原因可能 是: 1. 抽出的文件集中討論這四類的問題居 多,通常回覆的文章很明確的回答到 問題的本質,例如:選那一塊主機板 比 較 不 容 易 爆 漿 ? 答 案 : 建 議 你 買 K8N NEO2 比較不容易爆漿….。 2. 這 四 類 的 答 案 類 型 偵 測 的 辨 識 率 較 高,在召回的文件數相對增加。 3. 有關價格與網址方面的問題,這類的 問題回覆多半較制式,幾乎都能夠正 確的找出答案,例如:Lite-on 燒錄機 多少錢?答案:光碟商場報價 lite-on $1900 是目前館內最價宜的燒錄機…。 4. 除此之外,本系統能夠正確辨識出「否 定問句」的問題類型,如問句為:不 容易過熱 CPU 的有那些?答案:p4 3.0 以下的 cpu 一般來說比較不容易有過 熱的情況,但是要看…..。 為了有效評估系統的精確度與查全 率,我們另外設立一組採用相似度計算
(TFIDF)的方式進行比較,查詢問句與回 覆 答 案 間 的 相 似 度 門 檻 值 分 別 以 0.8, 0.6,分別計算其精確率與召回率,其實驗 結果如表 10 所示。 表 10、本系統與採用相似度計算的 精確率與召回率 系統 精確率 召回率 本系統 0.40476 0.42929 TFIDF(0.6) 0.30519 0.23737 TFIDF(0.8) 0.19355 0.09091 整體來看,採用答案類型偵測輔助的 精確率與召回率都較未採用的系統其效 能有明顯提升,與門檻值為 0.6 做相似度 比 較 , 在 精 確 率 與 召 回 率 上 分 別 提 升 9.95%與 19.19%;與另一組門檻值為 0.8 比 較 , 其 精 確 率 與 召 回 率 大 幅 提 升 到 21.12%以及 33.83%,我們觀察發現:回傳 答案的文章絕大多數皆在討論與主題相 關的議題,以致於進行候選答案評分加權 時,分數較高的段落或句子皆能有效的回 答使用者的問題。
五、結論與未來研究方向
(一)結論 傳統的問答系統在專業領域的檢索 上,會以分類階層架構輔助查詢,目的在 縮小文件檢索的範圍,再從中找出與問句 相似度最高的文章,但對於電腦類的專有 名詞,例如:文章內提及:P4P800SE 支 援 DDR 533 雙通道…,其辨識上明顯不 足,以致於在計算段落或句子時,無法適 當的賦予權重而影響系統的精確度。 本研究發現電腦類別的專有名詞構 成要素以英文(FW)與數字(Neu)二種詞性 居多,我們總共歸納出二十條的經驗法則 進行詞性合併,從實驗結果得知:詞性合 併可以有效的擷取大部分的特徵值,辨識 率在七八成之間。 除此之外,本研究提出一個以搜尋引 擎為基礎的答案類型偵測機制,藉由偵測 問句的答案類型,輔助資訊檢索搜尋並且 從回傳的文件中找出候選答案,實驗結果 顯示採用答案類型偵測輔助資訊檢索的 方式其精確率在四成左右,相較於相似度 計算的方式其精確率提升了 9-21%,而召 回率提升了 19-27%,在評估系統的效能 上,RAR 值最裔的四類「主機板」、「硬 碟」、「顯示卡」、「燒錄機」分別為 6.604、 4.9248、4.2456、3.9248,代表系統在回答 這四類的問題時的其效能較其他類別佳。 (二)未來研究 1. 語意分析處理 由於本研究僅處理針對定義的問句 類型進行詞彙處理,造成無法對答案文件 做更深一層的語意解析,建議在未來研究 中可結合專業領域的 Ontology 架構,透 過領域內定義的從屬關係,輔助字詞上的 語意判斷事必可提升答案的精確度。 2. 詞性的文法結構 在本論文針對答案類型擷取的判斷 機制上,考量僅查詢詞彙與和答案詞彙間 共同出現的頻率關係與距離,未來,在擷 取文章或句子的過程中可考量兩者出現 的先後順序,以排除詞彙之間的重疊性, 避免過度的加權。 3. 相關回饋 由於答案構成因素可能是一個專有 名詞、段落、句子或文章,本論文僅儲存 使用者查詢的問句與回傳的答案,並未對 其內容進行分析,未來可考慮從系統回傳 的結果進行剖析,藉由使用者對答案的評 分來提升系統的精確度。 4. 答案偵測辨識率 在訓練答案類型的過程中所定義的 十一組類別關鍵詞,若能增加特徵值的詞 組 , 如 : < 主 機 板 & 晶 片 組 & 南 北 橋 晶 片…>,將有助於判斷詞彙所屬的類別, 因為特徵值共同出現的頻率愈高,代表該 詞組具有一定相關性與鑑別性。然而,電腦產業的快速發展也令類別關鍵詞將會 隨時更新,因此如何使系統能夠不至於延 遲於電腦產業的發展之外,也是未來的研 究課題。
六、參考文獻
[1] 中文詞知識庫小組, 中文詞類分 析, [2] 中研院 CKIP 詞庫小組, Team of Chinese Knowledge Information Processing(CKIP), http://godel.iis.sinica.edu.tw/CKIP [3] 名人3c電腦量販, http://www.mren.com.tw/ [4] 李季 and 孫冀俠, "一個簡單的中 文問答系統." vol. 6: 維普資訊, pp. 64-66, 2004. [5] 秦兵, 劉挺, 王洋, 鄭實福, and 李 生, "基於常問問題集的中文問答系 統研究." vol. 35: 維普資訊, pp. 1179-1182, 2003. [6] 崔桓, 蔡東風, and 苗雪雷, "基於 網路的中文問答系統及資訊抽取 演算法研究." vol. 18: 維普資訊, pp. 24-31, 2004. [7] 重編國語辭典修訂本, http://www.sinica.edu.tw/~tdbproj/di ct/ [8] 劉玉琛, 標點符號用法, http://myweb.hinet.net/home11/kuan gten/wskill/ch10.htm [9] Google, http://groups.google.com.tw/group/c n.bbs.comp.hardware[10] G. T. Huang and H. H. Yao, "Chinese Question-Answering System." vol. 19: 萬方資料資源系統, 2004.