語意索引的建置 (Semantic Indexing)

第二章相關研究工作

第二節語意索引的建置 (Semantic Indexing)

語意索引方法就是將兩兩詞鍵用語意相似性串連起來，進而建構成一個兩兩相連的網路脈絡，實際的呈現方法稱之為「語意矩陣(Semantic Matrix)」或「語意網路(Semantic Network)」。使用者可以藉由一個詞鍵來瀏覽網路脈絡中與之相似性高的其他詞鍵，比如說當使用者鍵入「數位圖書館」這個關鍵詞，系統也能檢索到「電子圖書館」、「內容管理」、「知識管理」、「網際網路」或是「資訊擷取」

等關鍵詞。由於每個關鍵詞間皆有語意的關連性而非獨立存在，故語意索引的建置會建立起一個「概念空間」，透過語意索引的檢索，使用者所下達的檢索關鍵詞不僅僅只針對文字上的相似性作檢索，而是針對該檢索關鍵詞整個語意上的概念來作檢索。語意索引的優點即在於能正確地找出使用者感興趣的資訊，並附帶找出可能為使用者感興趣的資訊。

[Chung99]中提出了一個完整的語意索引建立方法，為了要有效地找出含有語意的關鍵字，在[Chung99]中使用了兩個關鍵的步驟，其一為名詞片語抽取 (Noun Phrase Extraction)，主要目的為利用文字自動分析的技術將文件內含有語意的字詞分析出來；第二個步驟則為共同出現分析(Co-occurrence Analysis)，主要目的在於計算各詞鍵之間的關連性，有了共同出現分析的輔助，我們才能根據某一詞鍵的語意找出其他語意相近的詞鍵。

[Chung99]使用了 AZ Noun Phraser 來處理名詞片語抽取的步驟，整個流程分成下列三個階段：

1. 斷字(Tokenization)：這個階段主要的目的在於決定句子的分界，並將文句切分為個別分開的文字。在這個階段會將與語意無關的標點符號或是不具語意的文字消除，以增加名詞片語分析的正確性。

2. 詞類標記(Part-of-Speech Tagging) ：此一階段包含「語彙分析(Lexical Analysis)」與「上下文分析(Contextual Analysis)」。前者會根據辭典中

的語彙規則來為每一個斷字過的詞鍵作詞類標記；後者則是根據上下文的語意將意義含糊的詞類刪除掉，最後所留下的文字就可能成為一個有意義的名詞片語。

3. 名詞片語辨識 (Noun Phrase Identification)：這個階段根據名詞片語規則 (Noun Phrase Rules)，以判斷經由前述階段處理後所留下來的文字是否符合一個名詞片語的詞性文法規則。若符合詞性文法規則，則判定其為一個富有語意的名詞片語。

經過以上三個階段的處理，就能將一份文件內所有含有語意的名詞片語抽取出來以作為詞鍵。接下來必須針對這些詞鍵作語意上的索引，在名詞片語的抽取過程中，我們尚須將每個名詞片語出現頻率的相關資訊都記錄下來，以便在共同出現分析中使用。

共同出現分析的主要功能就是將所有的詞鍵按照其語意，用網路的概念組織 起來。共同出現分析利用 tfij(詞鍵 j 在文件 i 中出現的頻率)與 dfj(擁有詞鍵 j 的文 件數)來計算出詞鍵 j 在文件 i 中的權重，公式如下所示：

方程式 3：詞鍵 j 在文件 i 中的權重公式

其中 N 代表文件集中的文件總數，wj代表在詞鍵 j 中的文字個數，在這個公式中可以發現一個詞鍵所含的文字個數越多，所計算出的權重也會越高，這是因為[Chung99]認為名詞片語由較多的文字組成即代表著較強的權重。計算出每一 個詞鍵的權重之後，便可利用方程式 4 以計算出 Tj與 Tk之間的相似性。方程式 中 dijk表示詞鍵 j 與詞鍵 k 同時出現在文件 i 中的權重，dfjk表示詞鍵 j 與詞鍵 k 同時出現的文件數量，N 所表示的是文件總數，wj則表示詞鍵 j 的字元長度。

最後我們得到一個 T×T 的語意矩陣(Semantic Matrix)，T 為詞鍵總數，而此矩陣中的每一個元素(Element)就是運用方程式 4 計算而得的權重，亦即代表詞

) log( j

j ij

ij w

df tf N

d = ^× ×

鍵與詞鍵之間的相似性。這個方法的好處在於不僅僅能檢索到包含關鍵詞的文

WeightingF ^k ^k

log

j WeightingFactor T

在文檔中中文結構化文件之語意索引 (頁 17-20)

第二章 相關研究工作

第二節 語意索引的建置 (Semantic Indexing)

第二章相關研究工作

第二節語意索引的建置 (Semantic Indexing)