1.1 研究背景與動機
網際網路是目前最龐大的資料環境,科技的進步加上使用者人數爆增,每天有數以 萬計的網頁產生,而網際網路也成為使用者最大的資訊來源。資訊爆炸的現代,要在這 麼龐大的資料當中找尋特定主題的相關資料,是相當不方便的。因此,近年來網頁資料 擷取技術的研究變得相當熱門。
目前的網頁資料擷取技術主要有三種 [26]:
(1) Web Context Mining
從網路頁的內容中擷取出有用的資訊,然後將資料傳送給使用者,內容包含文字、
圖片、影音資訊等。
(2) Web Structure Mining
用來發現網頁間結構的資訊,或以超連結(Hyperlinks)的方式連結兩個相關的網頁之 間的關係。
(3) Web Usage Mining
是以 Data Mining 的技術從網頁中去發現使用者對網頁的使用行為,進而了解與提 升所需提供的網頁服務內容。
一般網頁資料探勘技術(Web Mining),主要探勘的資料皆是以 HTML 的網頁內容為 主。但是以 HTML 建構的網頁內容大多都是缺乏組織且結構鬆散,也因此提升了網頁 資料擷取的難度。網頁資料擷取的相關研究包括資訊檢索、資料擷取、資料探勘、資訊 整合等。這些技術皆是要從大量資料中,擷取出有用的資訊,並可進一步用來決策推論。
人類在閱讀網頁時,會透過許多視覺化線索(visual cues),例如背景顏色、文字大小、
表格排版等線索,來辨認網頁中不同的區域[10]。而且網頁的設計者在建置網頁時,為 了使版面更容易閱讀,通常會把一些相關的內容放在一起,形成一個區域,不同區域之
間就用視覺化分隔(visual separators)來區隔。例如用水平線、空白、框線、對比顏色來 做區隔。這些區域就稱為網頁區塊(block)[9]。
網頁是由多個區塊所構成,一個網頁可以切割成許多個區塊。每個區塊是由特定主 題以及內容所組合成[13, 14],若該區塊可以提供使用者有用的資訊(useful),且對讀者是 有意義的(relevant),那麼就稱之為資訊內容區塊(Informative Content Block)[21, 24]。
以圖 1 為例,方框中的區塊是主題是“頭條新聞",區塊中每一個元件都是在表達 同一個新聞事件,包括新聞圖片、新聞標題、新聞摘要、新聞全文、相關新聞連結等。
從使用者的觀點來看,在瀏覽一個網站時,是以區塊為單位,先找到要閱讀的主要區塊 後,再進一步進行詳讀。以圖 1 的頭條新聞區塊為例,使用者在閱讀時,心中想著要瀏 覽『頭條新聞』的區域,因此網頁一呈現出來之後,目光會先掃描『頭條新聞』,然後 在心中形成大致的範圍,如圖 1 框起來的部份[10]。接著使用者才認知到這個區塊,是 由頭條新聞標題、新聞圖片、新聞標題、新聞摘要、及相關新聞等元件所組成的[9]。
由此可知,每個網頁是由多個不同主題的資訊內容區塊所組成,這些區塊所包含的 元件皆有一定的相關性、都是在講同一件事、且具有較緊密的排版關係。綜合相關文獻,
本研究將這些具有特定主題的資訊內容區塊,定義為主題區塊(Theme Block)。
從網頁中擷取出主題區塊(Theme Block),具有下列三個好處:
第一、解決資訊過載問題
網頁是由許多不同主題的區塊組成,若能夠自動地將這些區塊辨識出來,使用者就 可以只閱讀感興趣的主題區塊。
第二,應用在各種平台
將主題區塊轉換成易於儲存、檢索與分析的結構化資料,例如 XHTML,就可以把 各個區塊應用於手機或 PDA 等視窗較小的智慧型手持設備,只顯示出使用者需要的那 一塊資訊。
第三,個人化網頁
應用於使用者個人化自訂網頁,即使用者可以從各個網頁中取出他需要的區塊,將 所有區塊整合在一起,組成一個對使用者最有資訊價值的個人化網頁。
圖 1、由眾多主題區塊所組成的網頁 來源:www.cnn.com
1.2 研究目的
本論文提出一個以賽局為基礎的網頁主題區塊擷取方法,以『主題區塊』為首要考 量,來處理各種網頁,包括結構化與非結構化網頁,以及含有一筆到多筆記錄的單一網 頁,使得擷取出來的每個『主題區塊』都在描述同一件事,並且是已經將同網頁中相同 主題的區塊做過整合。
本論文之目的有三點:(1)處理結構化及非結構化網頁、(2)處理含有一到多筆記錄 的單一網頁、以及(3)整合內容相似的區塊。這三個研究目的說明如下:
(1) 處理結構化及非結構化網頁
目前現有的網頁資料擷取方法,皆是針對結構化網頁[26]來做處理。所謂結構化網 頁,是指網頁內容係由網頁伺服器在後端抓取資料庫的記錄之後,依照固定的樣板格 式,再透過動態網頁技術顯示在頁面上,如圖 2 所示,網頁中每一筆書籍資料的記錄都 是由程式動態產生,因此每筆記錄的樣版格式是相同的。而裡面的圖片與資料則是從後 端資料庫抓取出來。
結構化網頁有兩個特性:(1)具有相同的樣式(pattern)、(2)區塊間彼此相鄰。目前的 網頁區塊擷取技術,大多皆是針對結構化的網頁[26]。如圖 2 中每筆書籍記錄的部分,
就是網頁區塊。由此可知,結構化的網頁區塊具有固定的資料型態與架構,擷取結構化 區塊的技術,是先把網頁轉成 DOM Tree 架構[33],再從 DOM Tree 架構中找出多筆相 似的子樹(sub-tree),經由計算子樹間的相似度之後,就可以推斷出哪幾棵子樹是具有相 同樣版格式(pattern),而這些子樹就是網頁中重複出現的重要區塊了。因此現有方法對 於結構化區塊的處理正確率都很高。
圖 2、結構化網頁 來源:http://www.amazon.com/
然而,只針對結構化網頁的擷取技術,並無法完全適用於真實情況。如圖 3 所示,
網頁工程師通常會為了排版好看、容易閱讀等理由,依照使用者的觀感,自行設計各種 大小不一的樣版格式,而分成各種樣版格式不同的區塊,因此目前仍有許多網頁是非結 構化,而現有的研究在處理非結構化網頁的效能並不高。
(2) 處理含有一到多筆記錄的單一網頁
現有網頁擷取方法,如[17,7],是經由計算網頁裡每筆記錄的相似度,找出共同的 樣式,再建構成要擷取的網頁區塊。這樣的方法在含有多筆記錄的單一網頁有顯著的效 果,但是若遇到只含有一筆或極少記錄的網頁,由於無法跟其他記錄做比較,因此就很 難準確的擷取出區塊。
(3) 整合內容相似的區塊
網頁的眾多主題區塊當中,可能有幾個包含相同主題,若使用者要瀏覽同主題的區 塊,就會希望把同主題的區塊整合在一起。例如一個網站的上方有體育相關的主題區 塊,在下方亦有一個體育相關的主題區塊,這兩個區塊具有相似的主題,但卻是位在相 隔甚遠的兩個地方,可能造成瀏覽者在閱讀時的不方便。因此本論文透過計算區塊間的 相似度,將在 HTML 上不連續、在視覺線索上不相鄰,但區塊內容相似的區塊整合在 一起。
圖 3、非結構化網頁 來源:www.cnn.com
1.3 章節規劃
本論文的章節規劃如下:第一章緒論闡述研究背景、動機、目的,並概括描述研究 的整體架構。第二章文獻探討,概述 DOM Tree 及現有研究對於網頁處理的方法,包括 網頁區塊化、網頁資料擷取,針對各方法之優劣進行比較。第三章為本論文所提出的 GRAB 演算法,可分成(1)建構 DOM Tree、(2)建構主題區塊樹(Theme-based Tree)、(3) 主題區塊樹之整併及分割等三大步驟。第四章為系統實作與分析,概述雛形系統之架 構、程序運作流程、及實際畫面。接著設計了兩個實驗來驗證 GRAB 擷取主題區塊出來 的效果,並說明實驗結果與討論。第五章為本論文做總結,進一步描述未來尚可研究的 方向。