• 沒有找到結果。

第二章 文獻探討

2.3 向量空間法

2.3.1 向量空間法的文件表述

要達成對文件的表述,必須先將文件所具有的特徵 (feature) 擷取出來。就英語系 統而言,要表達一份文件最直接也最簡單的方法是從文件中的「文字」(word) 著手,因 為文字直接傳達了文件所欲表達的文意。在傳統 IR 中,便以文件所含有的文字作為文 件的特徵,而最常見的方法是 Salton 所提出的「向量空間」(vector space) 技術 [4, 5]。

在向量空間的方法中,文件的特徵是文件中所含有的關鍵字 (keyword),透過關鍵字可 以適度表達出文件所蘊含的意義與概念。在向量空間法中,將文件所包含的關鍵字以適 當的方式構成一向量,該向量即用於表述該文件。首先須將文件的關鍵字萃取出來,而 關鍵字的萃取當然是透過電腦自動化進行。此一技術已發展得相當成熟,Salton 便依據 此一技術,於康乃爾大學 (Cornell University) 開發出一套稱為 SMART 的系統 [4, 5],

作為文件檢索研究之用。

在向量空間的技術中,從文件中萃取出的關鍵字因為可用於對文件進行索引,因此 也稱為索引詞 (index term)。根據索引詞在各文件中分布的情況,可以計算各個索引詞 的權重值。

在實際的處裡中,首先得決定任一索引詞在一份文件中的重要度,一般以 rank order 表示,rank order 越小,表示重要度越高。由 Zipf 定律 (Zipf’s law) [17],任一索引詞 在一份文件中的重要度 (亦即 rank order) 與其在該文件中出現的頻率 (term frequency, tf) 有密切的關係,兩者的乘積約為一常數,以數學形式可以表達如下:

constant rank

frequency× ≅ (2-1)

也就是說,一索引詞在一份文件中出現的頻率越高,其 rank order 越小,重要度便 越高;而出現頻率越低,重要度則越低。但有些在文件中出現頻率很高的字 (如介係詞、

冠詞、副詞等) 對文件所蘊含的意義並沒有特別的貢獻,並不適合作為索引詞,一般稱 為虛字 (stop word) 或非索引詞。

依 rank order 排列的索引詞 對字詞出現的頻率,設定高低門檻 (upper cut-off and lower cut-off),只保留出現頻率位 於此高低門檻之間的字詞,也就是索引詞。而索引詞對文件所含意義具有的決定能力 (resolving power) 如同一個左右對稱的波形,波峰的位置即為高低頻率門檻的中間。

除了考慮索引詞在一份文件中的重要度外,還要考慮索引詞在所有文件中的重要 度。在大量的文件中,如果一個索引詞同時出現在大部分的文件中,則該索引詞用以區 分文件意義的功能不大,其重要度也就不高。因此一個索引詞的重要度還需要考慮如下 所示的反向文件頻率 (inverse document frequency, idf) [19]:

( )

1

率出發,一個索引詞在一份文件中出現的頻率越高,其重要性越高;但一個索引詞若出

2.3.2 文件的比較

表述形式,也就是與文件向量相同的數學形式。其方法是將查詢條件表述成以索引詞作 為建構元素的向量,該向量的維度是索引詞的數量,與文件向量相同,因此也稱為虛擬 文件 (pseudo-document)。

將查詢條件表述成虛擬文件後,可將虛擬文件的文件向量與真正的文件向量進行相

為了解決此一問題,Dumais 等人提出了潛在語意索引 (latent semantic indexing, LSI) 的方法 [20]。LSI 可說是向量空間法的擴展 [20–27],其假設文件的關鍵詞之間潛 藏著某種結構,可以反映出文件中的語意概念。只要找出這種潛藏的結構,即使文件中 並不含有特定的索引詞,還是可以對文件進行概念化的檢索。

2.4.1 LSI 運用的 SVD 技術

LSI 從向量空間法出發,先利用文件中的索引詞建構文件向量,然後運用 singular value decomposition (SVD) 方法 [28] 將文件向量轉換成另一種等價的形式。此種等價 的形式與原來構成文件向量的索引詞已無明顯的關聯性,但在數學運算上卻與原來的文

相關文件