第四章 系統實作與實驗
4.2 實驗
4.2.2 實驗結果
我們以系統所計算出來的前100名的Hub與Authority區塊來做為評估的基準,分別由 人工判斷各網站的前100名Hub與Authority區塊是否合適,分成三種等級,如表4.1所示。
表4.1 Authority與Hub評估等級表 等級 Authority Hub
Good 與網站或網頁主題相關的內容區 塊
直接導向與網站或網頁主題相關內容的 導覽區塊
Normal 不與網站或網頁主題直接相關,
但仍為有用的內容區塊。
最上層的導覽列,不直接連向資料區塊
Bad 無用或導覽性質的區塊 無用的導覽列(如回首頁、版權宣告…等) 廣告及內容區塊
我們依表4.1所定義的內容來統計各實驗網站的四種計算方式的前100名Authority與 Hub區塊,所得的圖表如下:
圖4.2 阿扁總統電子報 Authority區塊結果
圖4.3 阿扁總統電子報 Hub區塊結果
圖4.4 國家太空中心 Authority區塊結果
圖4.5 國家太空中心 Hub區塊結果
圖4.6 儀器科技研究中心 Authority區塊結果
圖4.7 儀器科技研究中心 Hub區塊結果
圖4.8 國家地震工程研究中心 Authority區塊結果
圖4.9 國家地震工程研究中心 Hub區塊結果
圖4.10 行政院 Authority區塊結果
圖4.11 行政院 Hub區塊結果
圖4.12 立法院-部份區域 Authority區塊結果
圖4.13 立法院-部份區域 Hub區塊結果
圖4.14 總統府Authority區塊結果
圖4.15 總統府Hub區塊結果
圖4.16 台南縣政府文化局Authority區塊結果
圖 4.17 台南縣政府文化局Hub區塊結果
圖4.18 苗栗縣政府Authority區塊結果
圖 4.19 苗栗縣政府Hub區塊結果
依據九個網站的Authority及Hub,我們整理出兩張比較的圖表,圖4-18與圖4-19。其 中Y軸為各網站系統計算的前100個區塊經人工判斷為確實為Authority或Hub;X軸為各 網站代號,其中A: 阿扁總統電子報、B: 國家太空中心、C: 儀器科技研究中心、D:國家 地震工程研究中心、E: 行政院、F: 立法院、G: 總統府、H:台南縣政府文化局、I:苗栗縣 政府。
圖4-18 九個實驗網站的四種計算方式的Authority值比較表
圖4-19 九個實驗網站的四種計算方式的Hub值比較表
在Authority部份,由圖4-18可以看出,區塊合併與權重設定對於Authority區塊的判 斷正確與否,佔了很重要的影響,明顯優於只做合併或只做權重設定,或是都不做的計 算結果。因此我們可以由這樣的結果得證明,在一個網站內部做區塊層級的鏈結分析,
區塊合併與區塊權重的設定,對於內容區塊的判斷有著決定性的影響,比不做區塊合併 與權重設定的準確度高出有三倍之多,詳細的數據可參考表4.2。
表4.2 9個實驗網站的前100名Authority區塊正確性比較表
頁用來做Layout的主要標籤是<TABLE>、<TR>與<TD>,但現在主流的Layout標籤是
<DIV>及<SPAN>配上CSS。在這部份,因為並沒有修正的論文出現,我們是以自訂的 規則處理,正確性當然還可以再進一步調整改善。
原因二則是因為網站中每一頁的Layout樣式不見得符合實驗所設定的Top-Left網頁 型態,通常網頁應該都是按照某幾個範本製作的,我們所選擇的Top-Left型態與大多數 網頁的範本的Layout相仿,但畢竟會有部份、甚至多數的頁面是與我們的假設不符的,
此時權重的設定就會有偏差,自然影響計算的結果。
第 五 章 結論
5.1 總結
我們在本篇論文中提出了適用於單一網站區塊內容重要性分析的鏈結分析演算 法,並藉由實作的系統來驗證理論是否正確。由實驗結果來看,我們確實可以辨識出單 一網站中重要的內容及導覽區塊,但是精確度仍可再做進一步提昇。
當初會做這方面研究的主要目的即是著眼於目前實驗室的網頁資料萃取系統 BODE,在萃取資料的過程中仍需大量的人力介入,方能撰寫系統萃取資料所需的BODE Script,因此希望能降低、甚至是不需要人力介入即可完成,因此我們需要一個可以自 動辨識網站重要內容區塊的演算法來輔助,故產生了本論文所提之演算法。
當然,此演算法的應用不單單僅限於網頁資料萃取的自動化而已,接下來,將說明 此演算法可應用的領域。
5.2 相關應用
網頁資料萃取自動化
前面有提到,本論文的主要目的即是在於輔助本實驗室的網頁資料萃取系統(BODE) 的自動化。因為本論文的目的即在找出單一網站內的重要內容區塊(Authority)與導覽區 塊(Hub)的排名,我們可以藉由找到的這些Authority與Hub區塊,建構出從首頁算起的資 料路徑,即區塊的XPath。BODE進行萃取所需要的BODE Script中指定資料位置的即是 XPath。
當然,我們所切割出來的區塊的細緻程度可能無法滿足BODE所需,因為BODE所
就拿現在最熱門的Search Engine Google來說好了,其搜尋結果中仍免不了夾雜著一 些導覽或是廣告連結等不適用的資訊,若能先行將每個網站中這些不重要的部份事先去 除,應該可儘量降低這種情況。但此種應用仍須考量計算成本,因為多了這層計算工作,
勢必對效能有所影響,而且要如何融入原先Search Engine的演算法中也是值得考慮的因 素。
5.3 未來工作
建立幾種典型的DOM Tree Pattern或是VIPS所建構出來的Semantic Content Structure Pattern,自動判斷該網頁應該套用何種權重的設定方式。資料路徑辨識
上面相關應用有提到,本論文的主要目的是在輔助本實驗室的網頁資料萃取系統 BODE的自動化,也就是要如何降低人力的介入、或甚至不需要人力介入來產生所需的 BODE Script,即資料XPath。所以資料路徑的辦識仍是一個重要的問題,否則空有資料 區塊,但沒有相對於首頁的路徑及區塊內容的資料項目化,對於網頁資料萃取系統的自 動化,仍無太大的助益。
參 考 文 獻
[1] I-Chen Wu, Jui-Yuan Su, Loon-Been Chen, "A Web Data Extraction Description Language and Its Implementation," compsac, pp. 293-298, 29th Annual International Computer Software and Applications Conference (COMPSAC'05) Volume 1, 2005 [2] http://www.worldwidewebsize.com
[3] http://www.google.com
[4] http://www.google.com/products [5] http://www.scholar.com
[6] Cai, D., Yu, S., Wen, JR, Ma, WY, 2003. “VIPS: A Vision-base Page Segmentation Algorithm.”, Technical Report, MSR-TR-2003-79, Microsoft Research Asia.
[7] J. Kleinberg, “Authoritative sources in a hyperlinked environment”, Journal of the ACM, Vol. 46, No. 5, pp. 604-622,1999.
[8] L. Page, S. Brin, R. Motwani, and T. Winograd, “The PageRank citation ranking:
Bringing order to the web”, Technical report, Stanford University, Stanford, CA, 1998.
[9] Deng Cai, Xiaofei He, Ji-Rong Wen and Wei-Ying Ma., “Block-level Link Analysis”, Microsoft Technical Report MSR-TR-2004-50, 2004.
[10] Deng Cai, Shipeng Yu, Ji-Rong Wen, Wei-Ying Ma., “Block-based Web Search.”, In Proc. of the SIGIR’04 Conf., pages 456-463, 2004.
[11] Z. Nie, Y. Zhang, JR Wen, and WY Ma., “Object- level ranking: Bringing order to web objects.”, In Proceedings of WWW Conference, 2005.
[12] Ruihua Song, Haifeng Liu, Ji-Rong Wen and Wei-Ying Ma, “Learning Block Importance Models for Web Pages[A].” In proceeding of the Thirteenth World Wide Web
conference[C], New York, NY: ACM Press, 2004, 203-211.
[13] Shian-Hua Lin,Jan-Ming Ho. “Discovering Informative Content Blocks from Web Documents”, KDD-02, 2002
[14] http://www.websiteoptimization.com/speed/tweak/clickstream/
[15] Chang, C.-H., and Shao-Chen, L. IEPAD: Information extraction based on pattern discovery. In Proceedings of the tenth international conference on World Wide Web(2001)
[16] Arasu, A., Garcia-Molina, H.: Extracting Structured Data from Web Pages. In: Proceedings of ACM SIGMOD International Conference on Management of Data (SIGMOD 2003), San Diego, California, USA, ACM Press (2003)
[17] Hung-Yu Kao, Shian-Hua Lin, Jan-Ming Ho, Ming-Syan Chen, Mining Web Information Structures and Contents based on Entropy Analysis, IEEE Transactions on Knowledge and Data Engineering , volume 16, issue 1, pages 41-55, Jan 2004.
[18] Hung-Yu Kao, Jan-Ming Ho, Ming-Syan Chen, WISDOM : Web Intra-page Informative Structure Mining based on Document Object Model, IEEE Transactions on Knowledge and Data Engineering, volume 17, issue 5, pages 614- 627, May 2005.
[19] Mendez-Torreblanca, A., Montes-y-Gomez, M., and Lopez-Lopez, A.: A Trend Discovery.
System for Dynamic Web Content Mining. Proceedings of the 11. th. International Confer-. ence on Computing, Mexico City, Mexico (2002)
[20] S. Debnath, P. Mitra, N. Pal, and C. L. Giles, “Automatic Identification of Informative Sections of Web Pages,” IEEE Transactions on Knowledge and Data Engineering 17, 9, Sep. 2005.
[21] Deng Cai, Xiaofei He, Zhiwei Li, Wei-Ying Ma and Ji-Rong Wen, “Hierarchical Clustering of WWW Image Search Results Using Visual, Textual and Link Analysis”,12th ACM International Conference on Multimedia, Oct. 2004 .
[22] Zaiqing Nie, Yunxiao Ma, Shuming Shi, Ji-Rong Wen and Wei-Ying Ma, Web Object Retrieval, The 16th international World Wide Web conference (WWW 2007)
[23] CHEN, Z, LI, T, WANG, J, LIU, W Y and MA, W Y, "A Unified Framework for Web Link Analysis", Proceedings of the 3rd International Conference on Web Information Systems Engineering (WISE 2002), Singapore, December 2002, pp 63-72.