第四章 系統實作與分析
4.2 實驗結果與討論
4.2.5 與現有擷取方法比較(實驗二)
第二個實驗要驗證 GRAB 演算法與現有三種網頁區塊擷取方法的效能比較。資料集 是採用 Jobs&Careers、News、與 Politics 這 3 個領域的網頁,接著逐一實作這三類方法,
計算每個方法在 3 個領域的 Precision、Recall、F-Measure 平均值。此外,並各別針對結 構化網頁、非結構化網頁來做比較,驗證 GRAB 在處理結構化/非結構化網頁的效能。
實驗結果分析:
首先,在準確率(Precision)方面,如圖 52 與表 14 所示,GRAB 演算法在這三個領 域的表現都遠比現有的三類擷取方法優秀,也就是說,GRAB 所有挑選出來的區塊裡 面,有 90%以上都是正確的。而其中又以新聞網頁(News)與現有方法的效能差距最大,
主要的原因是本演算法的第二步驟,有運用到「第三次眼球追蹤」的新聞網頁眼球移動 模式,因此對於新聞網頁的效果特別好。
GRAB 有較好準確率的第二個原因,是因為有經由賽局做進一步分析,挑選出最適 策略,其中大部份的均衡點是落在(獨立,不獨立)的位置。因此一些資訊含量較小的區 塊就會被併掉,最後產生的主題區塊樹也更精簡準確,也能減少最後產生出來的主題區 塊數量。
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000
Jobs&Careers News Politics
GRAB Machine Learning Automatic Rule-based
圖 52、與現有三類方法 Precision 比較圖(實驗二) 表 14、與現有三類方法 Precision 比較(實驗二)
方法 Jobs&Careers News Politics GRAB 0.897 0.907 0.886 Machine Learning 0.780 0.734 0.883 Automatic 0.797 0.728 0.681 Rule-based 0.699 0.737 0.825
在召回率(Recall)方面,如圖 53 與表 15 所示,GRAB 演算法在這三個領域的表現,
除了在 Jobs&Careers 領域效能較低之外,其他兩個領域的效能也都優於其他三類擷取方 法。這樣的結果可以說明,在所有應該要被挑選出來的區塊中,GRAB 演算法能挑出 70%~80%的正確區塊。這樣的效果跟現有三類方法差不多,且在 News 及 Politics 領域 的效果比其他三類都要好。
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900
Jobs&Careers News Politics
GRAB Machine Learning Automatic Rule-based
圖 53、與現有三類方法 Recall 比較圖(實驗二)
表 15、與現有三類方法 Recall 比較(實驗二)
方法 Jobs&Careers News Politics GRAB 0.740 0.724 0.820 Machine Learning 0.713 0.676 0.723 Automatic 0.760 0.702 0.734 Rule-based 0.807 0.657 0.801
在效能品質(F-Measure)方面,如圖 54 與表 16 所示,GRAB 演算法在這三個領域皆 在 80%以上,且都高於其他三類的擷取方法,證明 GRAB 演算法的效能方面的品質,
是優於其他三者。
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900
Jobs&Careers News Politics
GRAB Machine Learning Automatic Rule-based
圖 54、與現有三類方法 F-Measure 比較圖(實驗二) 表 16、與現有三類方法 F-Measure 比較(實驗二)
方法 Jobs&Careers News Politics
GRAB 0.811 0.796 0.851
Machine Learning 0.743 0.703 0.794 Automatic 0.777 0.714 0.706 Rule-based 0.747 0.691 0.812
在處理結構化網頁方面,如圖 55 與表 17 所示,GRAB 演算法在處理這三個領域的 結構化網頁的效果中, News 領域的效果勝過其他三類方法,而且在其他兩個領域上的 效能也有不錯的表現(75%以上)
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000
Jobs&Careers News Politics
GRAB Machine Learning Automatic Rule-based
圖 55、處理結構化網頁的 F-Measure 比較圖(實驗二) 表 17、處理結構化網頁的 F-Measure 比較(實驗二)
方法 Jobs&Careers News Politics GRAB 0.774 0.655 0.800 Machine
Learning
0.848 0.523 0.857 Automatic 0.875 0.545 0.824 Rule-based 0.765 0.594 0.875
在處理非結構化網頁方面,如圖 56 與表 18 所示,GRAB 演算法在處理這三個領域 的效果都遠勝過其他三類方法,擁有 90%到 95%的效能品質。
0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000
Jobs&Careers News Politics
GRAB Machine Learning Automatic Rule-based
圖 56、處理非結構化網頁的 F-Measure 比較圖(實驗二)
表 18、處理非結構化網頁的 F-Measure 比較(實驗二) 方法 Jobs&Careers News Politics GRAB 0.889 0.872 0.952 Machine
Learning
0.667 0.821 0.857 Automatic 0.600 0.829 0.696 Rule-based 0.727 0.714 0.762