緒論 - 一個以賽局理論為基礎的網頁主題區塊擷取演算法

1.1 研究背景與動機

網際網路是目前最龐大的資料環境，科技的進步加上使用者人數爆增，每天有數以萬計的網頁產生，而網際網路也成為使用者最大的資訊來源。資訊爆炸的現代，要在這麼龐大的資料當中找尋特定主題的相關資料，是相當不方便的。因此，近年來網頁資料擷取技術的研究變得相當熱門。

目前的網頁資料擷取技術主要有三種 [26]：

(1) Web Context Mining

從網路頁的內容中擷取出有用的資訊，然後將資料傳送給使用者，內容包含文字、

圖片、影音資訊等。

(2) Web Structure Mining

用來發現網頁間結構的資訊，或以超連結(Hyperlinks)的方式連結兩個相關的網頁之間的關係。

(3) Web Usage Mining

是以 Data Mining 的技術從網頁中去發現使用者對網頁的使用行為，進而了解與提升所需提供的網頁服務內容。

一般網頁資料探勘技術(Web Mining)，主要探勘的資料皆是以 HTML 的網頁內容為主。但是以 HTML 建構的網頁內容大多都是缺乏組織且結構鬆散，也因此提升了網頁資料擷取的難度。網頁資料擷取的相關研究包括資訊檢索、資料擷取、資料探勘、資訊整合等。這些技術皆是要從大量資料中，擷取出有用的資訊，並可進一步用來決策推論。

人類在閱讀網頁時，會透過許多視覺化線索(visual cues)，例如背景顏色、文字大小、

表格排版等線索，來辨認網頁中不同的區域[10]。而且網頁的設計者在建置網頁時，為了使版面更容易閱讀，通常會把一些相關的內容放在一起，形成一個區域，不同區域之

間就用視覺化分隔(visual separators)來區隔。例如用水平線、空白、框線、對比顏色來做區隔。這些區域就稱為網頁區塊(block)[9]。

網頁是由多個區塊所構成，一個網頁可以切割成許多個區塊。每個區塊是由特定主題以及內容所組合成[13, 14]，若該區塊可以提供使用者有用的資訊(useful)，且對讀者是有意義的(relevant)，那麼就稱之為資訊內容區塊(Informative Content Block)[21, 24]。

以圖 1 為例，方框中的區塊是主題是“頭條新聞＂，區塊中每一個元件都是在表達同一個新聞事件，包括新聞圖片、新聞標題、新聞摘要、新聞全文、相關新聞連結等。

從使用者的觀點來看，在瀏覽一個網站時，是以區塊為單位，先找到要閱讀的主要區塊後，再進一步進行詳讀。以圖 1 的頭條新聞區塊為例，使用者在閱讀時，心中想著要瀏覽『頭條新聞』的區域，因此網頁一呈現出來之後，目光會先掃描『頭條新聞』，然後在心中形成大致的範圍，如圖 1 框起來的部份[10]。接著使用者才認知到這個區塊，是由頭條新聞標題、新聞圖片、新聞標題、新聞摘要、及相關新聞等元件所組成的[9]。

由此可知，每個網頁是由多個不同主題的資訊內容區塊所組成，這些區塊所包含的元件皆有一定的相關性、都是在講同一件事、且具有較緊密的排版關係。綜合相關文獻，

本研究將這些具有特定主題的資訊內容區塊，定義為主題區塊(Theme Block)。

從網頁中擷取出主題區塊(Theme Block)，具有下列三個好處：

第一、解決資訊過載問題

網頁是由許多不同主題的區塊組成，若能夠自動地將這些區塊辨識出來，使用者就可以只閱讀感興趣的主題區塊。

第二，應用在各種平台

將主題區塊轉換成易於儲存、檢索與分析的結構化資料，例如 XHTML，就可以把各個區塊應用於手機或 PDA 等視窗較小的智慧型手持設備，只顯示出使用者需要的那一塊資訊。

第三，個人化網頁

應用於使用者個人化自訂網頁，即使用者可以從各個網頁中取出他需要的區塊，將所有區塊整合在一起，組成一個對使用者最有資訊價值的個人化網頁。

圖 1、由眾多主題區塊所組成的網頁來源：www.cnn.com

1.2 研究目的

本論文提出一個以賽局為基礎的網頁主題區塊擷取方法，以『主題區塊』為首要考量，來處理各種網頁，包括結構化與非結構化網頁，以及含有一筆到多筆記錄的單一網頁，使得擷取出來的每個『主題區塊』都在描述同一件事，並且是已經將同網頁中相同主題的區塊做過整合。

本論文之目的有三點：(1)處理結構化及非結構化網頁、(2)處理含有一到多筆記錄的單一網頁、以及(3)整合內容相似的區塊。這三個研究目的說明如下：

(1) 處理結構化及非結構化網頁

目前現有的網頁資料擷取方法，皆是針對結構化網頁[26]來做處理。所謂結構化網頁，是指網頁內容係由網頁伺服器在後端抓取資料庫的記錄之後，依照固定的樣板格式，再透過動態網頁技術顯示在頁面上，如圖 2 所示，網頁中每一筆書籍資料的記錄都是由程式動態產生，因此每筆記錄的樣版格式是相同的。而裡面的圖片與資料則是從後端資料庫抓取出來。

結構化網頁有兩個特性：(1)具有相同的樣式(pattern)、(2)區塊間彼此相鄰。目前的網頁區塊擷取技術，大多皆是針對結構化的網頁[26]。如圖 2 中每筆書籍記錄的部分，

就是網頁區塊。由此可知，結構化的網頁區塊具有固定的資料型態與架構，擷取結構化區塊的技術，是先把網頁轉成 DOM Tree 架構[33]，再從 DOM Tree 架構中找出多筆相似的子樹(sub-tree)，經由計算子樹間的相似度之後，就可以推斷出哪幾棵子樹是具有相同樣版格式(pattern)，而這些子樹就是網頁中重複出現的重要區塊了。因此現有方法對於結構化區塊的處理正確率都很高。

圖 2、結構化網頁來源：http：//www.amazon.com/

然而，只針對結構化網頁的擷取技術，並無法完全適用於真實情況。如圖 3 所示，

網頁工程師通常會為了排版好看、容易閱讀等理由，依照使用者的觀感，自行設計各種大小不一的樣版格式，而分成各種樣版格式不同的區塊，因此目前仍有許多網頁是非結構化，而現有的研究在處理非結構化網頁的效能並不高。

(2) 處理含有一到多筆記錄的單一網頁

現有網頁擷取方法，如[17,7]，是經由計算網頁裡每筆記錄的相似度，找出共同的樣式，再建構成要擷取的網頁區塊。這樣的方法在含有多筆記錄的單一網頁有顯著的效果，但是若遇到只含有一筆或極少記錄的網頁，由於無法跟其他記錄做比較，因此就很難準確的擷取出區塊。

(3) 整合內容相似的區塊

網頁的眾多主題區塊當中，可能有幾個包含相同主題，若使用者要瀏覽同主題的區塊，就會希望把同主題的區塊整合在一起。例如一個網站的上方有體育相關的主題區塊，在下方亦有一個體育相關的主題區塊，這兩個區塊具有相似的主題，但卻是位在相隔甚遠的兩個地方，可能造成瀏覽者在閱讀時的不方便。因此本論文透過計算區塊間的相似度，將在 HTML 上不連續、在視覺線索上不相鄰，但區塊內容相似的區塊整合在一起。

圖 3、非結構化網頁來源：www.cnn.com

1.3 章節規劃

本論文的章節規劃如下：第一章緒論闡述研究背景、動機、目的，並概括描述研究的整體架構。第二章文獻探討，概述 DOM Tree 及現有研究對於網頁處理的方法，包括網頁區塊化、網頁資料擷取，針對各方法之優劣進行比較。第三章為本論文所提出的 GRAB 演算法，可分成(1)建構 DOM Tree、(2)建構主題區塊樹(Theme-based Tree)、(3) 主題區塊樹之整併及分割等三大步驟。第四章為系統實作與分析，概述雛形系統之架構、程序運作流程、及實際畫面。接著設計了兩個實驗來驗證 GRAB 擷取主題區塊出來的效果，並說明實驗結果與討論。第五章為本論文做總結，進一步描述未來尚可研究的方向。

在文檔中一個以賽局理論為基礎的網頁主題區塊擷取演算法 (頁 10-15)