• 沒有找到結果。

語意索引的建置 (Semantic Indexing)

第二章 相關研究工作

第二節 語意索引的建置 (Semantic Indexing)

語意索引方法就是將兩兩詞鍵用語意相似性串連起來,進而建構成一個兩兩 相連的網路脈絡,實際的呈現方法稱之為「語意矩陣(Semantic Matrix)」或「語 意網路(Semantic Network)」。使用者可以藉由一個詞鍵來瀏覽網路脈絡中與之相 似性高的其他詞鍵,比如說當使用者鍵入「數位圖書館」這個關鍵詞,系統也能 檢索到「電子圖書館」、「內容管理」、「知識管理」、「網際網路」或是「資訊擷取」

等關鍵詞。由於每個關鍵詞間皆有語意的關連性而非獨立存在,故語意索引的建 置會建立起一個「概念空間」,透過語意索引的檢索,使用者所下達的檢索關鍵 詞不僅僅只針對文字上的相似性作檢索,而是針對該檢索關鍵詞整個語意上的概 念來作檢索。語意索引的優點即在於能正確地找出使用者感興趣的資訊,並附帶 找出可能為使用者感興趣的資訊。

[Chung99]中提出了一個完整的語意索引建立方法,為了要有效地找出含有 語意的關鍵字,在[Chung99]中使用了兩個關鍵的步驟,其一為名詞片語抽取 (Noun Phrase Extraction),主要目的為利用文字自動分析的技術將文件內含有語 意的字詞分析出來;第二個步驟則為共同出現分析(Co-occurrence Analysis),主 要目的在於計算各詞鍵之間的關連性,有了共同出現分析的輔助,我們才能根據 某一詞鍵的語意找出其他語意相近的詞鍵。

[Chung99]使用了 AZ Noun Phraser 來處理名詞片語抽取的步驟,整個流程分 成下列三個階段:

1. 斷字(Tokenization):這個階段主要的目的在於決定句子的分界,並將文 句切分為個別分開的文字。在這個階段會將與語意無關的標點符號或是 不具語意的文字消除,以增加名詞片語分析的正確性。

2. 詞類標記(Part-of-Speech Tagging) :此一階段包含「語彙分析(Lexical Analysis)」與「上下文分析(Contextual Analysis)」。前者會根據辭典中

的語彙規則來為每一個斷字過的詞鍵作詞類標記;後者則是根據上下文 的語意將意義含糊的詞類刪除掉,最後所留下的文字就可能成為一個有 意義的名詞片語。

3. 名詞片語辨識 (Noun Phrase Identification):這個階段根據名詞片語規則 (Noun Phrase Rules),以判斷經由前述階段處理後所留下來的文字是否 符合一個名詞片語的詞性文法規則。若符合詞性文法規則,則判定其為 一個富有語意的名詞片語。

經過以上三個階段的處理,就能將一份文件內所有含有語意的名詞片語抽取 出來以作為詞鍵。接下來必須針對這些詞鍵作語意上的索引,在名詞片語的抽取 過程中,我們尚須將每個名詞片語出現頻率的相關資訊都記錄下來,以便在共同 出現分析中使用。

共同出現分析的主要功能就是將所有的詞鍵按照其語意,用網路的概念組織 起來。共同出現分析利用 tfij(詞鍵 j 在文件 i 中出現的頻率)與 dfj(擁有詞鍵 j 的文 件數)來計算出詞鍵 j 在文件 i 中的權重,公式如下所示:

方程式 3:詞鍵 j 在文件 i 中的權重公式

其中 N 代表文件集中的文件總數,wj代表在詞鍵 j 中的文字個數,在這個公 式中可以發現一個詞鍵所含的文字個數越多,所計算出的權重也會越高,這是因 為[Chung99]認為名詞片語由較多的文字組成即代表著較強的權重。計算出每一 個詞鍵的權重之後,便可利用方程式 4 以計算出 Tj與 Tk之間的相似性。方程式 中 dijk表示詞鍵 j 與詞鍵 k 同時出現在文件 i 中的權重,dfjk表示詞鍵 j 與詞鍵 k 同時出現的文件數量,N 所表示的是文件總數,wj則表示詞鍵 j 的字元長度。

最後我們得到一個 T×T 的語意矩陣(Semantic Matrix),T 為詞鍵總數,而此 矩陣中的每一個元素(Element)就是運用方程式 4 計算而得的權重,亦即代表詞

) log( j

j ij

ij w

df tf N

d = × ×

鍵與詞鍵之間的相似性。這個方法的好處在於不僅僅能檢索到包含關鍵詞的文

WeightingF k k

log

j WeightingFactor T

d

相關文件