• 沒有找到結果。

Automatic Extraction 擷取方法

第二章 文獻探討

2.2 現有網頁區塊擷取方法

2.2.2 Automatic Extraction 擷取方法

此方法則是屬於不須標註(Non-Labeling)的方法,藉由找尋相似或重複資料樣式,自 動找出應該要擷取的部份。其中又可概分成兩類:(1)在同一個網頁內互相比較,比較同 一個網頁內所有資料記錄是否具有相同樣式。(2)在新舊網頁之間比較,例如新網頁與三 天前的舊網頁比較,若有某些記錄的資料有更新或異動,那麼這些記錄就可能是重要的 資訊[30]。

IEPAD[6]、DeLa[15]、MDR[2]、DEPTA[3,4]等系統,皆是屬於 automatic extraction 第一類的方法。其做法是認為所謂重要的資料區塊,是指多筆重複相似的資料記錄(Data Records),因此主要目標,就是設法找出這些重複資料記錄[32]。

IEPAD[6]是 2001 年由張嘉惠博士等人所開發的系統,係以自動化的方式產生 Wrapper 藉以擷取資料。IEPAD 認為每一個網頁中皆含有多筆重複出現的資料,具有相 同的 pattern,若能找到網頁中重複出現的記錄中具有相同的 Prefix 的字串,即是所謂的 Repetitive Pattern。下一步再從這些 Repetitive Pattern 中找到一個滿足使用者所給的 Maximal Repeat 條件,接著計算每個 Pattern 的變異性與密度來決定此 Pattern 是否為真 實的資料記錄,並從剩餘的 Pattern 推導出擷取規則。此方法對於多筆記錄的網頁擷取 能力相當好,但對於網頁中只有單一筆記錄的網頁,則無法進行擷取。

DeLa[15]是在 2003 年由 Wang 等人所發表的系統,主要包含兩大功能:資料擷取與 資料標識。Wang 認為網頁中的資料記錄大多是連續且重複的,若能將網頁中所有標籤 建立出一棵 Suffix-tree 來找出連續重複的樣式(C-Repeated Patterns)。有了連續重複的樣 式,就可以用來產生 Wrapper。圖 5 為 DeLa 系統的架構圖。

圖 5、DeLa 資訊擷取系統的架構圖

來源:Data Extraction and Label Assignment for Web Databases [15]

MDR[2]為 Liu 等人在 2003 年所發表的系統,Liu 提出兩個概念:一般化節點 (Generalized Nodes)和資料區域(Data Region)。一般化節點用來表示包含多個節點的集 合,此集合裡所有的節點皆具有相同父節點,且所有節點皆左右相鄰;資料區域表示一 個或多個一般化節點之集合,如圖 6 中,灰色網底的節點即為一般化節點,其中節點 5、

6 較相似,同屬於資料區域 1;節點 8、9、10 同屬於資料區域 2;節點 14、15 的一般化 節點,跟節點 16、17 的一般化節點,同屬於資料區域 3。

DEPTA[3]是 Liu 等人在 2005 年所發表的系統,它改善了 MDR 的擷取功能,利用 MDR 所找出來的資料記錄中,透過 Tree Alignment 的方法,將資料轉換成結構化的格 式,能夠存入資料庫中。為了更進一步改善計算 Tree node 相似度的 STM (Simple Tree Matching)演算法,Liu 等人在 2006 提出 ESTM (Enhanced Simple Tree Matching)演算法 [4],在計算兩棵樹的最大符合(maximum matching)的時候,把節點的內容也一併加入考 量。學者 Y.Kim 等人則是在 2007 年提出 HTML Tree Matching 演算法[27],認為每個節

點的內容皆不同,其權重也應該有所不同。Y.Kim 等人藉由節點值(Node value)的計算,

改善原本的 STM 方法。圖 7 為整個 DEPTA 系統之架構與流程

圖 6、一般化節點與資料區域

來源:Mining Data Records in Web Pages [2]

圖 7、DEPTA 系統架構

來源:Web Data Extraction Based on Partial Tree Alignment [3]

S.J. Lim 與 Y.K. Ng 提出 CDA(Change Detection Algorithm),是屬於 automatic extraction 第二類方法[20],將新網頁與舊網頁的網頁結構轉換成分支(Branch),每個分 支分別給予權重值,接著針對分支兩兩進行比較,計算新舊分支的差異度。差異度最大 的分支,就代表新網頁跟舊網頁不同之處。此方法的優點是能將網頁結構轉成易儲存的 表格形式,能節省網頁儲存空間;而缺點是僅能比對出新舊網頁結構化表格的變動,對 於非結構化的異動則無法處理。

相關文件