分類正確率

第四章研究結果與討論

4.1 分類正確率

4.1.1 利用中心向量法的分類正確率

表 4-1 列出了運用 LSI 結合中心向量法所進行之分類實驗的結果，表中除了顯示 3.5.7 節所述各種實驗變因組合所的結果外，也同時列出了 A 與 B 兩組文件分割的結果。表中所示的分類結果都是如 3.5.9 節所述的分類正確率。

從 LSI 結合中心向量法的結果中可看出，實驗變因組合 5、7、9、11 所得的分類正確率較其他變因組合明顯較佳，約高出 8% 至 9%。配合表 3-3 所示的變因組合，

可以觀察到以 D 矩陣的列向量作為訓練文件的文件向量，計算各類別的中心向量，並 以 X^T_testT 矩陣的列向量作為測試文件的文件向量，所得的分類結果較佳。

至於在實驗變因組合 5、7、9、11 中，7 與 11 兩組的結果又較 5 與 9 兩組為 佳，約高 1%，也就是說，對 D 矩陣的列向量不進行正規化的處理比進行正規化處理 可得到較佳的結果，但差異相當小。至於 5 與 9 兩組以及 7 與 11 兩組，在 A、B

表 4-1 LSI 搭配中心向量法所進行之分類實驗的結果。

變因組合 1 2 3 4 5 6 7 8 9 10 11 12 文件分割 A (%) 51.4 50.3 50.7 49.7 58.1 50.0 58.9 49.4 57.9 49.0 58.8 48.6 文件分割 B (%) 52.4 51.5 51.8 50.9 57.5 49.5 58.3 49.6 57.5 49.4 58.9 49.9

表 4-2 傳統向量空間法搭配中心向量法所進行之分類實驗的結果。

變因組合 1 2

文件分割 A (%) 63.4 63.5 文件分割 B (%) 60.6 60.2

兩組文件分割中各有優劣，且差異都非常小，約 1%。由此可知，在執行 GTP 時，是否對原始的文件向量進行正規化的處理，對於分類的結果並沒有明顯的影響。

就各種實驗的變因組合而言，文件分割 A 與文件分割 B 所得的結果都非常接近，似乎意味著不同的訓練文件與測試文件的選取，對於 LSI 與中心向量法的組合不會造成太大的影響。

表 4-2 則列出了運用傳統向量空間法結合中心向量法所進行之分類實驗的結果。

在此部分，實驗變因組合 1 所得的分類結果較變因組合 2 為佳，但差距不到 1%，因此是否對訓練文件的文件向量進行正規化處理，似乎對分類的結果影響不大。

但不論是在變因組合 1 或變因組合 2 中，文件分割 A 與文件分割 B 所得的結果卻有約 3% 的差異，似乎意味著不同的訓練文件與測試文件的選取，對於傳統向量空間法與中心向量法的組合可能造成較大的影響。

比較表 4-1 與表 4-2 的實驗結果，可以發現使用中心向量法進行文件分類時，運用 LSI 技術所得的結果並不會比運用傳統向量空間法來得好。若以兩者所得的最佳結果來看，在文件分割 A 中，使用傳統向量空間法所得的分類正確率較使用 LSI 高約 5%，在文件分割 B 中，則傳統向量空間法所得的分類正確率較使用 LSI 高約 2%。

4.1.2 利用 k-NN 法的分類正確率

表 4-3 列出了運用 LSI 結合 k-NN 法所進行之分類實驗的結果，表中除了顯示 3.5.7 節所述各種實驗變因組合所的結果外，也同時列出了 A 與 B 兩組文件分割，以 及 k = 30 與 k = 10 的結果。表中所示的分類結果都是如 3.5.9 節所述的正確率。

從 LSI 結合 k-NN 法的結果中可看出，不論是在文件分割 A 或文件分割 B 中，

且不論 k 值為 30 或 10 時，實驗變因組合 1 所得的結果都是最佳的。此組實驗變因 是使用 DS 矩陣的列向量作為訓練文件的文件向量，而使用 X^T_testT 作為測試文件的文

表 4-3 LSI 搭配 k-NN 法所進行之分類實驗的結果。

k 值 變因組合 1 2 3 4 5 6 7 8 9 10 11 12

文件分割 A (%) 68.8 – 68.8 – 67.9 67.9 – – 67.2 67.2 – – 30 文件分割 B (%) 67.7 – 67.4 – 67.4 67.4 – – 63.2 63.2 – – 文件分割 A (%) 69.3 – 68.5 – 68.8 68.8 – – 67.6 67.6 – – 10 文件分割 B (%) 68.0 – 67.6 – 67.4 67.4 – – 66.6 66.6 – –

表 4-4 傳統向量空間法搭配 k-NN 法所進行之分類實驗的結果。

k 值 變因組合 1 2

文件分割 A (%) 76.1 – 30 文件分割 B (%) 75.8 – 文件分割 A (%) 78.1 – 10 文件分割 B (%) 77.0 –

件向量，這與 LSI 的原始概念完全吻合。而此兩組實驗變因組合所得結果的相近，意味著執行 GTP 時是否對原始的文件向量進行正規化處理，對分類結果並不會造成明顯 的影響。比較 k 值為 30 或 10 的結果，當 k 為 10 時，分類正確率較高，但與 k 為 30 時的差異並不大。

另外，實驗變因組合 5 與 6 的結果相同，實驗變因組合 9 與 10 的結果也相同，

顯示不論是以或作為測試文件的文件向量，對分類的結果都不會造成影響。

X^T_test X_test^T TS⁻¹

在文件分割 A 中，各種實驗變因組合所得的結果差異不大，最好的與最壞的差距 約為 1.6%。而在文件分割 B 中，當 k 取 30 時，最好的結果與最壞的差距 4.5%，但 k 取 10 時，差距僅有 1.4%，似乎 k 為 10 時有較穩定的結果。

表 4-4 則列出了運用傳統向量空間法結合 k-NN 法所進行之分類實驗的結果。在 此部分，實際上只有一組變因組合，因為在執行 GTP 時，是否對原始的文件向量進行 正規化處理，對分類的結果並沒有影響。而觀察不同 k 值所得的結果，k 取 10 時的

分類正確率較 k 取 30 時約高 2%。

比較表 4-3 與表 4-4 的實驗結果，可以發現使用 k-NN 法進行文件分類時，運用 LSI 技術所得的結果也不會比運用傳統向量空間法來得好。若以兩者所得的最佳結果來看，在文件分割 A 與文件分割 B 中的差距分別約為 7% 與 9%。

在文檔中運用潛在語意索引的自動化文件分類 (頁 49-52)

第四章 研究結果與討論

4.1 分類正確率

4.1.1 利用中心向量法的分類正確率

4.1.2 利用 k-NN 法的分類正確率

第四章研究結果與討論