向量正規化與 S 矩陣的探討

第三章研究方法

3.4 向量正規化與 S 矩陣的探討

3.4.1 文件向量的正規化

以傳統向量空間法建構文件向量時，文件向量各維度的值是依對應的索引詞在該文件中出現的頻率，加上適當的權重處理而成。因為各文件的長度 (所含字詞數量) 不同，

有些差距很大，使得各文件向量的長度也就不盡相同。

如果要比較文件與文件之間的相似度，或是比較查詢條件 (虛擬文件) 與各文件之間的相似度，所需計算的是向量與向量之間夾角的 cosine 值，此值與向量間的夾角有關，而與向量的長度無關。參見公式 2-5，不論兩向量的長度為何，在計算兩向量間夾角的 cosine 值時，都會除以兩向量的長度，因此為了計算與處理方便，通常都會對文件向量進行正規化 (normalization) 的處理，也就是將每個文件向量的長度都調整為單位長度。

但在中心向量法的分類處理中，各類別的中心向量係將該類別中全部的文件向量加總而成，而向量相加的結果不僅與向量間的夾角有關，也與向量的長度有關。如圖 3-2 所示，兩向量未經正規化處理與經正規化處理後，其相加的結果是不相同的。左圖所示為兩個經過正規化的向量，皆為單位長度；右圖則是兩向量未經正規化的狀態，一個大於單位長度，另一個小於單位長度。由圖中可看出，兩組向量加總之後所得的向量並不相同。

圖 3-2 向量正規化與否對於向量加總的影響。

因為中心向量法為本研究使用的分類法之一，因此本研究也探討文件向量正規化與否對於文件分類的影響。

對於傳統向量空間法，會先產生文件向量，然後依不同類別求出其中心向量，也就是計算該類別中全部文件向量的總和。在計算中心向量之前，各文件向量是否進行正規化的處理，對於所得的中心向量將有直接的影響。本研究將針對此兩種情況分別加以探討。

至於 LSI 所面臨的情況就更複雜了。因為 LSI 會對原始的文件向量進行 SVD 降階處理，進行 SVD 降階處理前的文件向量是否需要正規化，對後續的分類結果可能產 生影響。文件向量經過 SVD 降階處理後，LSI 所運用的文件向量是 DS 矩陣中的列向 量，因此計算中心向量時，係取 DS 矩陣中的列向量加以計算。因此是否先將 DS 矩 陣中的列向量正規化，也是需要探討的問題。

不論使用傳統向量空間法或 LSI 法，在訓練階段計算出來的類別中心向量，在測試階段只需要與測試文件進行相似度的比較，因此中心向量是否正規化並不會影響分類的結果。在本研究中，中心向量都會進行正規化的處理。

至於使用 k-NN 法時，因為測試文件必須與每一份訓練文件進行相似度的比較，其 中僅涉及文件向量間的夾角，與其長度無關。因此就傳統向量空間法而言，各文件向量是否正規化並不會影響分類的結果。在本研究中，各文件向量都會進行正規化的處理。

但對於 LSI 而言，測試文件進行 SVD 降階處理前是否先進行正規化的處理，似乎可能影響後續分類的結果，因此本研究將分別探討。至於 SVD 降階處理後實際用於分類

演算法的文件向量，本研究都會進行正規化的處理。

在文檔中運用潛在語意索引的自動化文件分類 (頁 38-41)

第三章 研究方法

3.4 向量正規化與 S 矩陣的探討

3.4.1 文件向量的正規化

第三章研究方法