簡介 - 中文結構化文件之語意索引

第一節資訊擷取與索引

隨著電腦科技與數位化技術的迅速發展，網際網路已經成為全球新一代的主角，大量的數位化文件透過網際網路快速而廣泛地傳遞，使得網際網路無形中成為一個儲存各種資源的龐大文件庫及資料庫；在此資訊爆炸的網路時代裡，人們面對的不再是訊息的匱乏，而是過度發展之後，資訊過於龐大、複雜的問題。在這種情形下，為了讓使用者能夠在龐大的資料中找到感興趣的資訊，資訊擷取的相關研究因而蓬勃發展。

自動化資訊擷取系統的發展主要是為了幫助檢索龐大的資料量，資料可能是純文字、影片或是音樂。一般而言，傳統的索引只能提供一些事先建置好的索引詞彙供檢索且必須經由學科專家來編排索引；而資訊擷取的目的則希望能透過自動化的處理過程，幫助人們定位出有用的資訊，提供使用者感興趣的資料。然而，

資訊並不是知識，如何將網際網路上龐大的資訊經過綜合、整理及分析之後，推演出有價值的知識，乃是在此知識經濟時代非常重要的研究課題。

有鑑於此，本論文擬運用資訊科技來發展知識擷取相關技術與系統。本論文所討論的重點著重在利用可擴展標示語言(XML)製作之中文文件，利用資訊擷取的技術，抽取出文件的關鍵詞做為索引，並提供給使用者檢索之用。檢索機制會分析使用者所輸入的關鍵詞，與已建置好的索引作相似性比對，最後按照相似程度加以排列並選出符合使用者興趣的文件資訊。在檢索運作的流程中，索引扮演著引導者的角色，它可以提供系統快速找到每一個關鍵語的能力，而不需與文件本身的文字內容作逐字比對，讓系統可以對使用者的要求作最快速的回應。

由於索引的重要性及必要性，其相關研究已成為近年來資訊擷取處理中極重要的課題。在傳統的索引技術中，通常都是針對文件本身的文字內容做前置處理

以建立索引。文件中所有的文字內容先經過斷詞切字，找出可能代表該文件的詞鍵(Term)，並計算各個詞鍵的出現頻率以找出真正能代表該文件的詞鍵；接著再經過索引演算法將這些詞鍵建置成索引；最後，這些處理後的索引詞鍵(Index Term)即代表著該文件的內容，並可提供給使用者作檢索之用。

上述一連串的步驟主要在說明傳統資訊擷取中處理純文字文件的流程。隨著資訊技術的發展，傳統的純文字文件格式已經無法達到大量管理以及資料交換的要求，故 World Wide Web Consortium(W3C)在 1998 年提出了可擴展標記語言 (eXtensible Markup Language, XML)以便於網際網路上文件的交換與管理。XML 文件主要的特色就在於包含了文件中的結構化資訊，一個 XML 文件可以轉換成一個文件樹狀結構(Document Tree Structure)，在文件樹狀結構中的每一個節點代表著一個 XML 標籤，而標籤(Tag)與標籤之間存在階層式的關係。結構化的資訊提供了比傳統的文件內容更詳細的資料，善加利用結構化資訊將使得檢索機制更為強大，故將傳統的索引技術應用在結構化文件中已在近年來吸引相當多的研究工作 [Wolff00, Chow99, Han99, Kasukawa99, Dao98, Myaeng98, Shin98, Poullet97, Lee96, Wilkinson94]。

在語意索引(Semantic Indexing)的建立方面，由於傳統的索引技術僅提供文件內的單一關鍵字詞供檢索，無法讓使用者找到與關鍵字詞語意上相類似的文件，因此有了語意索引的方法產生。語意索引除了能找出文件內的關鍵字詞外，

並能夠找出所有語意概念上相近的關鍵字詞，這使得索引的技術更為強大，也提供給使用者更方便的檢索機制。在[Chung99]這篇論文中，將語意索引應用在一個龐大的文件資料庫中以驗證其可行性。

第二節研究動機

結構化文件索引的建立，會先分析該文件的階層式架構，並將階層式架構中每一節點上的內容存入索引之內以供檢索。基於這樣的設計，使用者得以針對結構化文件中的節點資訊作檢索，如使用者欲檢索的資訊為「我想找『摘要』中含

有『數位圖書館』的文件。」則系統會根據結構化文件索引找到所有摘要中包含有數位圖書館的文件，並回傳給使用者以供瀏覽。這種檢索方式的好處就是可以針對某些節點做檢索，而不僅僅針對整個文件做檢索，不但快速且更能提供較深層的檢索。

再者，由於目前結構化文件索引的建立僅是針對文字內容作處理，所能提供檢索的僅僅是按關鍵詞檢索，若將語意索引的建置方法融入其中，不僅能提供關鍵詞檢索，更可提供語意檢索的能力。比如說當使用者欲檢索「數位圖書館」，

其目的除了找出含有「數位圖書館」的文件，也可能希望能找到語意相近的資訊，

如「電子圖書館」、「內容管理」、「知識管理」、「網際網路」或「資料擷取」等。

綜合上述的概念，本篇論文中擬加入文件的階層式結構資訊在索引裡面，並在建立索引的過程中應用語意索引的方法，建立起文件中關鍵詞鍵之概念空間，

所謂關鍵詞鍵的概念空間乃是知識的一種表現形式，且能以語意網路的方式來描述。透過概念空間以及語意網路，我們期能將傳統的資訊擷取提升至知識擷取的層次。

第三節研究目的

本論文主要目的是針對結構化文件提出一套語意索引的演算法，此演算法將 XML 文件結構化資訊與傳統索引技術加以整合，在不影響傳統檢索的效率下，

將文件的結構化資訊納入索引的建置中；並融合語意式索引的方法，分析所有索引過程中產生的詞鍵，建構出兩兩詞鍵的概念空間，以提供知識擷取的檢索能力，期許能將傳統的資訊擷取提升到知識擷取的層次。

第四節論文架構

本論文第二章介紹相關研究工作，第三章描述如何結合結構化文件索引與語意索引，第四章說明系統實作與結果分析，藉以驗證本論文的可行性，第五章是結論與未來研究的方向。

在文檔中中文結構化文件之語意索引 (頁 8-11)