與現有擷取方法比較(實驗二)

第四章系統實作與分析

4.2 實驗結果與討論

4.2.5 與現有擷取方法比較(實驗二)

第二個實驗要驗證 GRAB 演算法與現有三種網頁區塊擷取方法的效能比較。資料集是採用 Jobs&Careers、News、與 Politics 這 3 個領域的網頁，接著逐一實作這三類方法，

計算每個方法在 3 個領域的 Precision、Recall、F-Measure 平均值。此外，並各別針對結構化網頁、非結構化網頁來做比較，驗證 GRAB 在處理結構化/非結構化網頁的效能。

實驗結果分析：

首先，在準確率(Precision)方面，如圖 52 與表 14 所示，GRAB 演算法在這三個領域的表現都遠比現有的三類擷取方法優秀，也就是說，GRAB 所有挑選出來的區塊裡面，有 90%以上都是正確的。而其中又以新聞網頁(News)與現有方法的效能差距最大，

主要的原因是本演算法的第二步驟，有運用到「第三次眼球追蹤」的新聞網頁眼球移動模式，因此對於新聞網頁的效果特別好。

GRAB 有較好準確率的第二個原因，是因為有經由賽局做進一步分析，挑選出最適策略，其中大部份的均衡點是落在(獨立，不獨立)的位置。因此一些資訊含量較小的區塊就會被併掉，最後產生的主題區塊樹也更精簡準確，也能減少最後產生出來的主題區塊數量。

0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000

Jobs&Careers News Politics

GRAB Machine Learning Automatic Rule-based

圖 52、與現有三類方法 Precision 比較圖(實驗二) 表 14、與現有三類方法 Precision 比較(實驗二)

方法 Jobs&Careers News Politics GRAB 0.897 0.907 0.886 Machine Learning 0.780 0.734 0.883 Automatic 0.797 0.728 0.681 Rule-based 0.699 0.737 0.825

在召回率(Recall)方面，如圖 53 與表 15 所示，GRAB 演算法在這三個領域的表現，

除了在 Jobs&Careers 領域效能較低之外，其他兩個領域的效能也都優於其他三類擷取方法。這樣的結果可以說明，在所有應該要被挑選出來的區塊中，GRAB 演算法能挑出 70%~80%的正確區塊。這樣的效果跟現有三類方法差不多，且在 News 及 Politics 領域的效果比其他三類都要好。

0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900

Jobs&Careers News Politics

GRAB Machine Learning Automatic Rule-based

圖 53、與現有三類方法 Recall 比較圖(實驗二)

表 15、與現有三類方法 Recall 比較(實驗二)

方法 Jobs&Careers News Politics GRAB 0.740 0.724 0.820 Machine Learning 0.713 0.676 0.723 Automatic 0.760 0.702 0.734 Rule-based 0.807 0.657 0.801

在效能品質(F-Measure)方面，如圖 54 與表 16 所示，GRAB 演算法在這三個領域皆在 80%以上，且都高於其他三類的擷取方法，證明 GRAB 演算法的效能方面的品質，

是優於其他三者。

0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900

Jobs&Careers News Politics

GRAB Machine Learning Automatic Rule-based

圖 54、與現有三類方法 F-Measure 比較圖(實驗二) 表 16、與現有三類方法 F-Measure 比較(實驗二)

方法 Jobs&Careers News Politics

GRAB 0.811 0.796 0.851

Machine Learning 0.743 0.703 0.794 Automatic 0.777 0.714 0.706 Rule-based 0.747 0.691 0.812

在處理結構化網頁方面，如圖 55 與表 17 所示，GRAB 演算法在處理這三個領域的結構化網頁的效果中， News 領域的效果勝過其他三類方法，而且在其他兩個領域上的效能也有不錯的表現(75%以上)

0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000

Jobs&Careers News Politics

GRAB Machine Learning Automatic Rule-based

圖 55、處理結構化網頁的 F-Measure 比較圖(實驗二) 表 17、處理結構化網頁的 F-Measure 比較(實驗二)

方法 Jobs&Careers News Politics GRAB 0.774 0.655 0.800 Machine

Learning

0.848 0.523 0.857 Automatic 0.875 0.545 0.824 Rule-based 0.765 0.594 0.875

在處理非結構化網頁方面，如圖 56 與表 18 所示，GRAB 演算法在處理這三個領域的效果都遠勝過其他三類方法，擁有 90%到 95%的效能品質。

0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000

Jobs&Careers News Politics

GRAB Machine Learning Automatic Rule-based

圖 56、處理非結構化網頁的 F-Measure 比較圖(實驗二)

表 18、處理非結構化網頁的 F-Measure 比較(實驗二) 方法 Jobs&Careers News Politics GRAB 0.889 0.872 0.952 Machine

Learning

0.667 0.821 0.857 Automatic 0.600 0.829 0.696 Rule-based 0.727 0.714 0.762

在文檔中一個以賽局理論為基礎的網頁主題區塊擷取演算法 (頁 69-73)

第四章 系統實作與分析

4.2 實驗結果與討論

4.2.5 與現有擷取方法比較(實驗二)

第四章系統實作與分析