Automatic Extraction 擷取方法

第二章文獻探討

2.2 現有網頁區塊擷取方法

2.2.2 Automatic Extraction 擷取方法

此方法則是屬於不須標註(Non-Labeling)的方法，藉由找尋相似或重複資料樣式，自動找出應該要擷取的部份。其中又可概分成兩類：(1)在同一個網頁內互相比較，比較同一個網頁內所有資料記錄是否具有相同樣式。(2)在新舊網頁之間比較，例如新網頁與三天前的舊網頁比較，若有某些記錄的資料有更新或異動，那麼這些記錄就可能是重要的資訊[30]。

IEPAD[6]、DeLa[15]、MDR[2]、DEPTA[3,4]等系統，皆是屬於 automatic extraction 第一類的方法。其做法是認為所謂重要的資料區塊，是指多筆重複相似的資料記錄(Data Records)，因此主要目標，就是設法找出這些重複資料記錄[32]。

IEPAD[6]是 2001 年由張嘉惠博士等人所開發的系統，係以自動化的方式產生 Wrapper 藉以擷取資料。IEPAD 認為每一個網頁中皆含有多筆重複出現的資料，具有相同的 pattern，若能找到網頁中重複出現的記錄中具有相同的 Prefix 的字串，即是所謂的 Repetitive Pattern。下一步再從這些 Repetitive Pattern 中找到一個滿足使用者所給的 Maximal Repeat 條件，接著計算每個 Pattern 的變異性與密度來決定此 Pattern 是否為真實的資料記錄，並從剩餘的 Pattern 推導出擷取規則。此方法對於多筆記錄的網頁擷取能力相當好，但對於網頁中只有單一筆記錄的網頁，則無法進行擷取。

DeLa[15]是在 2003 年由 Wang 等人所發表的系統，主要包含兩大功能：資料擷取與資料標識。Wang 認為網頁中的資料記錄大多是連續且重複的，若能將網頁中所有標籤建立出一棵 Suffix-tree 來找出連續重複的樣式(C-Repeated Patterns)。有了連續重複的樣式，就可以用來產生 Wrapper。圖 5 為 DeLa 系統的架構圖。

圖 5、DeLa 資訊擷取系統的架構圖

來源：Data Extraction and Label Assignment for Web Databases [15]

MDR[2]為 Liu 等人在 2003 年所發表的系統，Liu 提出兩個概念：一般化節點 (Generalized Nodes)和資料區域(Data Region)。一般化節點用來表示包含多個節點的集合，此集合裡所有的節點皆具有相同父節點，且所有節點皆左右相鄰；資料區域表示一個或多個一般化節點之集合，如圖 6 中，灰色網底的節點即為一般化節點，其中節點 5、

6 較相似，同屬於資料區域 1；節點 8、9、10 同屬於資料區域 2;節點 14、15 的一般化節點，跟節點 16、17 的一般化節點，同屬於資料區域 3。

DEPTA[3]是 Liu 等人在 2005 年所發表的系統，它改善了 MDR 的擷取功能，利用 MDR 所找出來的資料記錄中，透過 Tree Alignment 的方法，將資料轉換成結構化的格式，能夠存入資料庫中。為了更進一步改善計算 Tree node 相似度的 STM (Simple Tree Matching)演算法，Liu 等人在 2006 提出 ESTM (Enhanced Simple Tree Matching)演算法 [4]，在計算兩棵樹的最大符合(maximum matching)的時候，把節點的內容也一併加入考量。學者 Y.Kim 等人則是在 2007 年提出 HTML Tree Matching 演算法[27]，認為每個節

點的內容皆不同，其權重也應該有所不同。Y.Kim 等人藉由節點值(Node value)的計算，

改善原本的 STM 方法。圖 7 為整個 DEPTA 系統之架構與流程

圖 6、一般化節點與資料區域

來源：Mining Data Records in Web Pages [2]

圖 7、DEPTA 系統架構

來源：Web Data Extraction Based on Partial Tree Alignment [3]

S.J. Lim 與 Y.K. Ng 提出 CDA(Change Detection Algorithm)，是屬於 automatic extraction 第二類方法[20]，將新網頁與舊網頁的網頁結構轉換成分支(Branch)，每個分支分別給予權重值，接著針對分支兩兩進行比較，計算新舊分支的差異度。差異度最大的分支，就代表新網頁跟舊網頁不同之處。此方法的優點是能將網頁結構轉成易儲存的表格形式，能節省網頁儲存空間；而缺點是僅能比對出新舊網頁結構化表格的變動，對於非結構化的異動則無法處理。

在文檔中一個以賽局理論為基礎的網頁主題區塊擷取演算法 (頁 17-20)

第二章 文獻探討

2.2 現有網頁區塊擷取方法

2.2.2 Automatic Extraction 擷取方法

第二章文獻探討