本章描述本研究的動機與目的,以及希望解決的問題。1.1 節說明研究動機與本 研究希望達成的目的;1.2 節為研究內容,以資訊檢索為基礎,進一步拓展應用到 成語檢索,需要解決的幾個關鍵點;1.3 節為研究的範圍與限制;1.4 節則說明本論 文各章節的內容架構。
1.1.
研究動機與目的
隨著全球資訊網路(World Wide Web, WWW)的興起,已有不少電腦輔助學習系 統出現在網際網路中,例如,教育部成語典1、漢典2,這些系統提供成語學習者方 便且快速的查詢功能。
目前成語檢索系統功能主要分為兩種模式,第一種是關鍵字比對,將使用者所 輸入的關鍵字與成語字詞、釋義進行比對,例如教育部成語典,如圖 1-1 所示,包 含成語字詞檢索;第二種是以分類為基礎的查詢方式,常見有類別檢索、首字筆劃 查詢、首字部首查詢及首字拼音查詢等,例如漢典,如圖 1-2 所示。但使用者查詢 成語時,往往僅知其「成語涵義」,不知成語的字詞,目前的系統查詢功能較無法 讓使用者清楚描述其資訊需求,也就無法快速地查到所需成語。如何符合“僅知「成 語涵義」,不知成語字詞,而可找尋適當成語"之使用者需求,及提供友善的查詢 介面以協助使用者找到所需成語,是一個值得深究的課題,亦是本研究主要的動機 所在。
1 教育部成語典 http://dict.idioms.moe.edu.tw/
2 漢典http://www.zdic.net/
圖 1-1 教育部成語典查詢功能
圖 1-2 漢典查詢功能
本研究目的將建置提供一個僅知成語意涵的檢索系統,使用者只須輸入簡單的 口語化問句或關鍵字來描述想要查詢的成語,即可精準地查得所需成語,除此之 外,本研究目的包括:
1. 深入探討資訊檢索相關研究,以及整合現有技術建置一套以成語涵義為基礎的成語 檢索系統。
2. 提出「成語涵義」中文成語檢索系統之模組架構,使系統效能最佳。
3. 結合中研院CKIP之中文斷詞系統,提出一套適合中文成語檢索之查詢擴展模式, 識庫小組(Chinese Knowledge Information Processing Group, CKIP)3所研發之中文斷 詞系統(包含未知詞擷取與標記)4斷詞,將關鍵詞進行同義詞查詢擴展(Query Extension),依照詞性給與權重,便可和索引資料進行比對計算文件得分供排序使 用,接著將查詢結果進行關鍵詞統計與分類,讓使用者可以透過層面分類查詢(Facet Query)與修訂查詢(Revised Query)快速找出所需成語資料,達成資訊檢索的目的。
1.2.
研究內容
3 中文詞知識庫小組(CKIP) http://rocling.iis.sinica.edu.tw/CKIP/
4 中文斷詞系統http://ckipsvr.iis.sinica.edu.tw/
圖 1-3 資訊檢索一般化模型
1.2.2. 文件組織
如何將資訊以適當的形式表示,以利資訊檢索的應用,是所有資訊檢索系統都 必須面對的問題。以本研究主題成語檢索系統為例,如何將成語資訊轉化為適當的 代表形式,是一個重要的研究課題,其中一個被廣泛應用的方法就是所謂的索引 (Indexing),將資訊以適當的形式表示與組織,其所含的意義為「分析資訊內容、決 定資訊特徵、並以特徵形式代表資訊的整個過程」[2]。
影響索引效果的主要因素,包話索引的詳盡性(Indexing Exhaustiveness)與索引 詞的明確性(Term Specificity)。所謂的索引的詳盡性是指索引能夠反應某一文件內容 主題的詳盡程度,索引愈詳盡則使用愈多的索引詞彙,以描述文件內容主要及次要 主題;索引詞的明確性則是反應索引詞的廣義及狹義程度,當我們使用較廣義的索 引詞,就比較不易辨識相關與不相關的文件差異[3]。隨著索引技術的進步,相關領 域的革新除了由人工索引改變為自動索引外,另一個重要的突破是所使用的特徵不
再侷限於詞彙。例如可代表文件資訊特徵的 Signature files[4]。
後,擬定系統功能需求。然後開始進行系統系統分析與設計,建置一資訊系統解決 該問題,並與目前成語檢索系統功能進行比較,最後撰寫研究報告提出結論與貢 獻。研究流程如圖 1-4 所示。
圖 1-4 研究流程圖
1.5.
論文大綱
本論文主要分為五個章節,整理架構流程如下詳述:
1. 第一章為緖論,透過研究背景與目的,說明目前成語檢索系統所遭遇的問題,
並訂定研究限制以及研究流程。
2. 第二章為文獻探討與系統功能描述,首先介紹資訊檢索模式、資訊檢索系統的 詞彙擴展,並描述系統功能需求和所使用的程式工具。
3. 第三章為系統架構分析與設計,詳細描述本系統架構、資料處理方法、檢索功 能設計、以及如何解決所遭遇的問題。
4. 第四章為系統展示與評估,展示系統的功能,說明是否符合系統功能需求,並 與目前最常使用的成語檢索系統功能進行比較,提出本系統優點。
5. 第五章為結論與未來研究方向,為本研究之總結,說明本研究之貢獻,並提出 未來可繼續研究之議題。