• 沒有找到結果。

區塊層級的鏈結分析

第二章 相關研究

2.3 區塊層級的鏈結分析

由於網路資訊的爆炸性成長,網頁所呈現的資料越來越多樣化,因此除了量會是 搜尋引擎的效能主要影響外,準確性也成為另一個問題。例如我們在Google以”資料萃 取”為關鍵字查詢,符合的結果筆數約有426,000筆,而其中有部份是屬於不相關的資料 或是相關但與使用者的目的不相符的頁面資料。要使用者在這堆茫茫的資料海中逐筆尋 找所需要的資料,無疑是相當耗時且另人不悅的過程。

造成這結果的原因除了網頁資料量成長的速度太快之外,另一個主要的原因是目 前搜尋引擎無法有效地過濾非內容區塊中的雜訊。因此區塊層級的鏈結分析演算法也開 始被提出來試圖解決這樣的問題,如馬維英博士團隊的Block-level Link Analysis[9]。此 演算法可以有效的降低PageRank與HITS中會出現的Topic-Drift現象(指結果與搜尋的主 題產生偏差),原因如圖2.4中第一個頁面中兩個鏈結對意義可能不同。例如左邊的區塊

是廣告區塊,若沒有分開計算這兩個鏈結的重要性的話,會導致結果的準確度降低,上 面的頁面應該是不重要的,但卻被計算成跟下面的頁面一樣重要。

圖2.4 區塊對頁面的鏈結關係與頁面對頁面的鏈結關係

Block-level Link Analysis雖然已經把鏈結關係由頁面對頁面降階至區塊對頁面,但 由於主要是運用對象是搜尋引擎,因此其最終產出仍是頁面,相對於Web Information Retrieval及Data Extraction卻不適用。因為這兩種應用需要清楚標示出頁面中要擷取的區 塊位置,而不僅僅是重要的頁面而已,所以我們再將鏈結關係由區塊對頁面降階至區塊 對區塊。

第 三 章

演算法介紹

在這個章節中將介紹我們所提出的基於合併的區塊層級鏈結分析演算法,主要是 改良HITS演算法。為了符合我們的研究目的—辨識單一網站中重要區塊的位置,我們加 上了區塊分割、區塊合併、區塊權重調整及修改了原HITS演算法以符合區塊層級的計算 需求,我們的演算法流程如圖3.1所示。

圖3.1 本論文演算法流程

以下各節分別就這幾個項目來做介紹。

3.1 區塊合併及鄰接矩陣之建立

3.1.1 區塊合併

首先我們先解釋為什麼要進行區塊合併?主要原因有二,一是目前網站大多依固定 的範本建立而來,因此每頁都會有些特定的部份是相同的,例如頁首及頁尾等網站 Logo、登入資訊及版權、隱私權宣告等。再者用來導覽用的區塊,在同一層目錄中也應 是相同的,甚至在不同層也有可能相同。這些重複出現的區塊,不管是對網站的作者或 是使用者而言,在每一頁所代表的意義應是相同的,因此我們應該將之視為同一區塊來 做計算。

圖3.2 區塊合併與否的意義差別

原因二則是因為我們所採用的鏈結分析演算法,並不適用於單一網站內的鏈結分 析,因為網站內部的鏈結僅是導覽用途,不如跨網站的鏈結來得具有重要性認同的意 義。因此在不做合併的情況下直接套用該演算法,會因為幾乎每個頁面都有的導覽或回 首頁等的區塊,造成被這些鏈結所指向的區塊重要性被過份放大而影響整個演算法的準 確性。

在瞭解區塊合併的原因及意義後,我們接下來看如何進行區塊合併。

合併的原則是,屬於Hub型態的區塊能合併的儘量合併,屬於Authority的區塊則避 免合併。最簡單的做法即是將所有的區塊依序比對,若innerHtml相同,則將之合併。但

此法相當耗計算成本,因為就擁有1,000頁的網站來說,分割後的總區塊數可能高達

無疑地,區塊面積越大其權重就應越高,但不應取線性正比。經由實驗結果我們發 現取自然對數可以得到較為合理的結果。因此我們按照的公式2進行計算。

WH-Size=ln(區塊面積) / ln(區塊所屬頁面面積) (2) 位置,是作者區分該網頁內容重要性的一種方式,出現的位置,越容易被使用者注 意到,表示該區塊的內容就越重要。因此,我們將網頁依前一節用以做為判斷是否要計 算合併的距離邊界長度d以及一般視窗可視高度h將頁面分割成八個部份,如圖3.3。區塊 依其位於這八個份部的位置,分別給定不同的位置權重。我們依據常見的網站區分出三 類的網頁範本類型,如圖3.4所示,我們詳列了判斷的規則在表3.1~表3.3中分別對應網頁 範本類型1~3,依這些表,我們即可依設定的網頁類型查對應的表得出位置的權重。最 常見網頁範本類型為第一種,Hub區集中在左上角。依據WebSiteOptimimation.com的統 計,網頁中最常被點按的區域為靠近左上角像F型的區塊[14],此區塊可以被視為Hub區 所集中的位置。

圖3.3 頁面權重區域

(1) Top-Left (2) Top-Right (3) Center 圖3.4 網頁範本類型

表3.1 區塊於頁面區域的Hub與Authority權重 - 網頁範本類型1

組成內容

3.2.2 Authority權重

幾何屬性

合併次數

A是各區塊的鄰接矩陣、WH是區塊Hub權重的Diagonal矩陣,

Hi

H i i W

W (, )= ,其餘元素 為0、WA是區塊Authority權重的Diagonal矩陣,

Ai

第 四 章

系統實作與實驗

本章節描述所實作之系統的開發環境與各模組功能,並以此系統來實際分析國內幾 個政府單位及上市公司的網站,以評估此演算法的準確度。

4.1 系統實作概述

4.1.1 開發環境

本論文的系統以微軟的Visual Studio 2005做為開發工具,對於產出的資料,則存放 於微軟的SQL Server 2000上。當初會想以微軟的工具來開發,主要就是為了能相容於實 驗室蘇瑞元學長所開發的網頁資料萃取系統BODE,故選擇同一平台進行開發,希望能 以Plug-in的方式讓BODE使用本系統的功能為目標。

4.1.2 模組介紹

就功能面來說,系統可分為(1)介面、(2)網頁蒐集、(3)網頁區塊切割、(4)區塊合併 偵測、(5)區塊Hub及Authority權重設定及(6)區塊Hub及Authority值計算等六個模組。以 下分別就這幾個模組簡單介紹。

介面

負責與使用者互動,提供使用者各項操作、設定的圖形化介面。

網頁蒐集

類似Crawler,會從給定的網址所包含的超鏈結往下擷取網頁,但僅限於同一個 Domain Name或是在抓取清單內與排除清單外的頁面。擷取完畢後,會將頁面送給網頁 區塊切割模組進行區塊的切割。

網頁區塊切割

在每一個頁面擷取完畢後,會接手進行區塊的切割。本模組所使用的演算法為 VIPS[*],會將過程中所產生的各項資料,包含最終的區塊資料存至SQL Server中。

區塊合併偵測

得出網頁區塊後,會依據設定的條件,取出可能需要執行合併偵測的區塊進行計 算,原則上以第三章所提到的計算方式為主,將合併完的區塊資料存至SQL Server中。

區塊Hub及Authority權重設定

在此模組會針對進行合併後的區塊(不管有無合併),進行權重的設定,會分成Hub 與Authority兩種不同的權重,依第三章所提的三個衡量方式進行設定。

區塊Hub及Authority值計算

設定完權重後,則交由此模組進行鄰接矩陣的建立,並依第三章3.3所提出的修正 HITS公式進行計算。

4.1.3 系統流程

系統可分為兩大部份,如圖4.1中所示。圖中左半邊負責網頁蒐集及區塊切割每一個 頁面為一個循環;右半邊則是進行合併、Hub及Authority權重設定與最後Hub及Authority 值的計算,左半邊的網頁蒐集及區塊切割全部完成後,才會執行這部份的計算。

圖4.1 系統流程

4.2 實驗

為了驗證我們所提出演算法的正確性,我們實際以九個國內政府單位及財團法人的 網站來進行實驗。

每個網站我們以四種計算方式進行實驗,分別是:一、合併區塊加權重設定;二、

不合併區塊但加權重設定;三、合併區塊但不加權重設定;四、不合併區塊也不加權重 設定。藉由此四種計算方式來確認合併區塊及權重設定對於單一網站的鏈結分析確實有 其效果。

4.2.1 資料來源

網站A:

阿扁總統電子報(http://www.president.gov.tw/1_epaper/iod.html) 總頁數:50

總區塊數:386 合併後區塊數:177 網站B:

國家太空中心(http://www.nspo.org.tw/2005c/sitemap.htm)

總頁數:173

立法院-部份區域 (http://www.ly.gov.tw/ly/01_introduce/0101_int/) 總頁數:67

網站H:

台南縣政府文化局(http://cultrue.tncg.gov.tw/index2.php) 總頁數:119

總區塊數:3080 合併後區塊數:836 網站I:

苗栗縣政府(http://www.miaoli.gov.tw/index.asp) 總頁數:78

總區塊數:2525 合併後區塊數:591

共同設定:

網站擷取深度:3層

網頁權重型態:第一種 - 左上 平均視窗高度(h):800 pixels 平均頁面邊界大小(d):200 pixels 頁面切割的細緻度(PDoC):0.7

4.2.2 實驗結果

我們以系統所計算出來的前100名的Hub與Authority區塊來做為評估的基準,分別由 人工判斷各網站的前100名Hub與Authority區塊是否合適,分成三種等級,如表4.1所示。

表4.1 Authority與Hub評估等級表 等級 Authority Hub

Good 與網站或網頁主題相關的內容區 塊

直接導向與網站或網頁主題相關內容的 導覽區塊

Normal 不與網站或網頁主題直接相關,

但仍為有用的內容區塊。

最上層的導覽列,不直接連向資料區塊

Bad 無用或導覽性質的區塊 無用的導覽列(如回首頁、版權宣告…等) 廣告及內容區塊

我們依表4.1所定義的內容來統計各實驗網站的四種計算方式的前100名Authority與 Hub區塊,所得的圖表如下:

圖4.2 阿扁總統電子報 Authority區塊結果

圖4.3 阿扁總統電子報 Hub區塊結果

圖4.4 國家太空中心 Authority區塊結果

圖4.5 國家太空中心 Hub區塊結果

圖4.6 儀器科技研究中心 Authority區塊結果

圖4.7 儀器科技研究中心 Hub區塊結果

圖4.8 國家地震工程研究中心 Authority區塊結果

圖4.9 國家地震工程研究中心 Hub區塊結果

圖4.10 行政院 Authority區塊結果

圖4.11 行政院 Hub區塊結果

圖4.12 立法院-部份區域 Authority區塊結果

圖4.13 立法院-部份區域 Hub區塊結果

圖4.14 總統府Authority區塊結果

圖4.15 總統府Hub區塊結果

圖4.16 台南縣政府文化局Authority區塊結果

圖 4.17 台南縣政府文化局Hub區塊結果

圖4.18 苗栗縣政府Authority區塊結果

圖 4.19 苗栗縣政府Hub區塊結果

依據九個網站的Authority及Hub,我們整理出兩張比較的圖表,圖4-18與圖4-19。其 中Y軸為各網站系統計算的前100個區塊經人工判斷為確實為Authority或Hub;X軸為各 網站代號,其中A: 阿扁總統電子報、B: 國家太空中心、C: 儀器科技研究中心、D:國家

依據九個網站的Authority及Hub,我們整理出兩張比較的圖表,圖4-18與圖4-19。其 中Y軸為各網站系統計算的前100個區塊經人工判斷為確實為Authority或Hub;X軸為各 網站代號,其中A: 阿扁總統電子報、B: 國家太空中心、C: 儀器科技研究中心、D:國家

相關文件