• 沒有找到結果。

向量正規化與 S 矩陣的探討

第三章 研究方法

3.4 向量正規化與 S 矩陣的探討

3.4.1 文件向量的正規化

以傳統向量空間法建構文件向量時,文件向量各維度的值是依對應的索引詞在該文 件中出現的頻率,加上適當的權重處理而成。因為各文件的長度 (所含字詞數量) 不同,

有些差距很大,使得各文件向量的長度也就不盡相同。

如果要比較文件與文件之間的相似度,或是比較查詢條件 (虛擬文件) 與各文件之 間的相似度,所需計算的是向量與向量之間夾角的 cosine 值,此值與向量間的夾角有 關,而與向量的長度無關。參見公式 2-5,不論兩向量的長度為何,在計算兩向量間夾 角的 cosine 值時,都會除以兩向量的長度,因此為了計算與處理方便,通常都會對文 件向量進行正規化 (normalization) 的處理,也就是將每個文件向量的長度都調整為單位 長度。

但在中心向量法的分類處理中,各類別的中心向量係將該類別中全部的文件向量加 總而成,而向量相加的結果不僅與向量間的夾角有關,也與向量的長度有關。如圖 3-2 所示,兩向量未經正規化處理與經正規化處理後,其相加的結果是不相同的。左圖所示 為兩個經過正規化的向量,皆為單位長度;右圖則是兩向量未經正規化的狀態,一個大 於單位長度,另一個小於單位長度。由圖中可看出,兩組向量加總之後所得的向量並不 相同。

圖 3-2 向量正規化與否對於向量加總的影響。

因為中心向量法為本研究使用的分類法之一,因此本研究也探討文件向量正規化與 否對於文件分類的影響。

對於傳統向量空間法,會先產生文件向量,然後依不同類別求出其中心向量,也就 是計算該類別中全部文件向量的總和。在計算中心向量之前,各文件向量是否進行正規 化的處理,對於所得的中心向量將有直接的影響。本研究將針對此兩種情況分別加以探 討。

至於 LSI 所面臨的情況就更複雜了。因為 LSI 會對原始的文件向量進行 SVD 降 階處理,進行 SVD 降階處理前的文件向量是否需要正規化,對後續的分類結果可能產 生影響。文件向量經過 SVD 降階處理後,LSI 所運用的文件向量是 DS 矩陣中的列向 量,因此計算中心向量時,係取 DS 矩陣中的列向量加以計算。因此是否先將 DS 矩 陣中的列向量正規化,也是需要探討的問題。

不論使用傳統向量空間法或 LSI 法,在訓練階段計算出來的類別中心向量,在測 試階段只需要與測試文件進行相似度的比較,因此中心向量是否正規化並不會影響分類 的結果。在本研究中,中心向量都會進行正規化的處理。

至於使用 k-NN 法時,因為測試文件必須與每一份訓練文件進行相似度的比較,其 中僅涉及文件向量間的夾角,與其長度無關。因此就傳統向量空間法而言,各文件向量 是否正規化並不會影響分類的結果。在本研究中,各文件向量都會進行正規化的處理。

但對於 LSI 而言,測試文件進行 SVD 降階處理前是否先進行正規化的處理,似乎可 能影響後續分類的結果,因此本研究將分別探討。至於 SVD 降階處理後實際用於分類

演算法的文件向量,本研究都會進行正規化的處理。

相關文件