向量空間法

第二章文獻探討

2.3 向量空間法

2.3.1 向量空間法的文件表述

要達成對文件的表述，必須先將文件所具有的特徵 (feature) 擷取出來。就英語系統而言，要表達一份文件最直接也最簡單的方法是從文件中的「文字」(word) 著手，因為文字直接傳達了文件所欲表達的文意。在傳統 IR 中，便以文件所含有的文字作為文件的特徵，而最常見的方法是 Salton 所提出的「向量空間」(vector space) 技術 [4, 5]。

在向量空間的方法中，文件的特徵是文件中所含有的關鍵字 (keyword)，透過關鍵字可以適度表達出文件所蘊含的意義與概念。在向量空間法中，將文件所包含的關鍵字以適當的方式構成一向量，該向量即用於表述該文件。首先須將文件的關鍵字萃取出來，而關鍵字的萃取當然是透過電腦自動化進行。此一技術已發展得相當成熟，Salton 便依據此一技術，於康乃爾大學 (Cornell University) 開發出一套稱為 SMART 的系統 [4, 5]，

作為文件檢索研究之用。

在向量空間的技術中，從文件中萃取出的關鍵字因為可用於對文件進行索引，因此也稱為索引詞 (index term)。根據索引詞在各文件中分布的情況，可以計算各個索引詞的權重值。

在實際的處裡中，首先得決定任一索引詞在一份文件中的重要度，一般以 rank order 表示，rank order 越小，表示重要度越高。由 Zipf 定律 (Zipf’s law) [17]，任一索引詞在一份文件中的重要度 (亦即 rank order) 與其在該文件中出現的頻率 (term frequency, tf) 有密切的關係，兩者的乘積約為一常數，以數學形式可以表達如下：

constant rank

frequency× ≅ (2-1)

也就是說，一索引詞在一份文件中出現的頻率越高，其 rank order 越小，重要度便越高；而出現頻率越低，重要度則越低。但有些在文件中出現頻率很高的字 (如介係詞、

冠詞、副詞等) 對文件所蘊含的意義並沒有特別的貢獻，並不適合作為索引詞，一般稱為虛字 (stop word) 或非索引詞。

依 rank order 排列的索引詞對字詞出現的頻率，設定高低門檻 (upper cut-off and lower cut-off)，只保留出現頻率位於此高低門檻之間的字詞，也就是索引詞。而索引詞對文件所含意義具有的決定能力 (resolving power) 如同一個左右對稱的波形，波峰的位置即為高低頻率門檻的中間。

除了考慮索引詞在一份文件中的重要度外，還要考慮索引詞在所有文件中的重要度。在大量的文件中，如果一個索引詞同時出現在大部分的文件中，則該索引詞用以區分文件意義的功能不大，其重要度也就不高。因此一個索引詞的重要度還需要考慮如下所示的反向文件頻率 (inverse document frequency, idf) [19]：

( )

率出發，一個索引詞在一份文件中出現的頻率越高，其重要性越高；但一個索引詞若出

2.3.2 文件的比較

表述形式，也就是與文件向量相同的數學形式。其方法是將查詢條件表述成以索引詞作為建構元素的向量，該向量的維度是索引詞的數量，與文件向量相同，因此也稱為虛擬文件 (pseudo-document)。

將查詢條件表述成虛擬文件後，可將虛擬文件的文件向量與真正的文件向量進行相

為了解決此一問題，Dumais 等人提出了潛在語意索引 (latent semantic indexing, LSI) 的方法 [20]。LSI 可說是向量空間法的擴展 [20–27]，其假設文件的關鍵詞之間潛藏著某種結構，可以反映出文件中的語意概念。只要找出這種潛藏的結構，即使文件中並不含有特定的索引詞，還是可以對文件進行概念化的檢索。

2.4.1 LSI 運用的 SVD 技術

LSI 從向量空間法出發，先利用文件中的索引詞建構文件向量，然後運用 singular value decomposition (SVD) 方法 [28] 將文件向量轉換成另一種等價的形式。此種等價的形式與原來構成文件向量的索引詞已無明顯的關聯性，但在數學運算上卻與原來的文

在文檔中運用潛在語意索引的自動化文件分類 (頁 17-21)

第二章 文獻探討

2.3 向量空間法

2.3.1 向量空間法的文件表述

( )

2.3.2 文件的比較

2.4.1 LSI 運用的 SVD 技術

第二章文獻探討