• 沒有找到結果。

測試結果

在文檔中 XML 文件分類方法之研究 (頁 52-56)

第四章 實例驗證

第五節 測試結果

在本研究中,只討論一份文件只屬於一個分類的情況,因此所有比較 皆建立在此基礎上,至於一份文件可能屬於多種分類的情形,於附錄 C 將 有另外的說明,請參考之。以下將就本研究方法與改良後的 VSM 方法進 行比較,而後者之程式執行畫面,如下圖 4-6 所示。

圖 4-6 VSM 方法之程式執行畫面

在所有收集到的 276 份文件中,本實驗使用了其中的 221 份文件作為 訓練之用,其餘的則作為測試之用,訓練方式則根據本研究第三章所提及 的方法及架構來進行,直到為每一個分類項目各自產生三組不同的特徵項 目陣列之後,便可進行測試。在此部份的比較,會先排除最後加入的知識 特徵項目部分,而純粹只以訓練 XML 文件本身所得到的,一般及階層特 徵項目陣列來進行測試,以便在稍後可以比較加入知識特徵項目之後的效 果;而改良的 VSM 分類方法則如上一節所示,先使用 tf-idf 方法找出特徵 字彙,再將其給予權重值並轉換成向量,如圖 4-7 所示,並使用此向量來 進行測試的動作。兩種方法的測試畫面如下圖 4-8 及 4-9 所示。

圖 4-7 VSM 各分類權重值之文字檔

圖 4-8 VSM 方法分類未知文件畫面

圖 4-9 本方法分類未知文件畫面

以同樣的測試資料(共 55 份文件)針對這兩個方法進行比較,便可得到 下表 4-3 的結果:

表 4-3 本方法與改良之 VSM 方法測試結果之比較 本研究分類方法(不含知識) 改良之 VSM 分類方法 分類項目 正確筆數 正確率 正確筆數 正確率

1 3/3 100% 3/3 100%

2 4/4 100% 1/4 25%

3 9/10 90% 8/10 80%

4 5/5 100% 5/5 100%

5 12/12 100% 12/12 100%

6 7/8 87.5% 6/8 75%

7 11/13 84.6% 11/13 84.6%

51/55 92.7% 46/55 83.6%

由上表的比較中,可以知道,本方法比傳統文件分類方法,在針對 XML 文件的分類上,單就最後正確率來說,有著很明顯的改善效果。此外,由 於本研究方法除了利用 XML 文件本身的結構之外,也導入了外部的知識 字彙部分,因此在本實驗中加入了 metadata 作為第三組特徵項目陣列的內 容,而為了比較加入此部份是否對於整體分類效果有所幫助,本實驗也嘗 試將此部份抽離獨立另外測試,測試結果如下表 4-4 所示:

表 4-4 本研究方法加入與未加入知識特徵項目之分類結果比較 未加入知識特徵項目 已加入知識特徵項目 分類項目 正確筆數 正確率 正確筆數 正確率

1 3/3 100% 3/3 100%

2 4/4 100% 4/4 100%

3 9/10 90% 9/10 90%

4 5/5 100% 5/5 100%

5 12/12 100% 12/12 100%

6 7/8 87.5% 7/8 87.5%

7 11/13 84.6% 12/13 92.3%

51/55 92.7% 52/55 94.5%

在測試過程中,可以發現加入知識部分藉此幫助分類的方式是有用 的,也證明了第三章的假設並沒有錯誤,在實際分類過程中,如果一份未 知的文件可以比對到該領域特有的字彙,便讓其得分越偏向該分類,這樣 的做法將有助於提升分類的正確性。而在本實驗中,可以觀察到在加入 metadata 之後,整體分類的正確率的確有些微的上升,因此把知識特徵項 目部分,整合至本研究所提出的分類程序之中,是可行的。

在文檔中 XML 文件分類方法之研究 (頁 52-56)

相關文件