應用 MMB 演算法清理網頁雜訊和擷取網頁 Metadata
駱思安 徐俊傑
國立台灣科技大學資訊管理所
[email protected]、[email protected]
摘要
傳 統 擷 取 網 頁 重 要 詞 彙 的 方 式 大 都 是 以 TF/IDF 和 Entropy 方式為主流,但在我們的實驗下 卻赫然發現 TF 值較高的詞彙並不等同於這個詞彙 是重要的;而 Entropy 的方式雖然擁有不錯的辨別 能力,但由於其計算過程過於繁瑣,故本研究提出 MMB 演算法以期能夠取代這兩個方法,而實驗證 明 MMB 演算法確實能有效地提昇辨識重要詞彙的 機率值和網頁自動分類的準確率。 每一個網站中包含著許許多多的文字,分散 在網站內的每一個網頁中,而這些文字一部分是 描述網頁隸屬於何種類別,另一部分則是與隸屬 類別毫無關係的雜質。因此,如能有效地去除網 頁中的雜質文字,即能成功地提昇中文網頁自動 分類的效能。 關鍵詞:多重關係貝氏演算法、網頁探勘、網頁清 理、資訊擷取、Metadata、TF/IDF、EntropyAbstract
The traditional methods of acquiring important terms of the Web page are TF/IDF and Entropy, but we find the higher TF value is not stand for the more important term is. Although Entropy has good ability of differing, the processes of calculating are too much. So, in the research, we propose MMB algorithm to replace these two methods, and we verify MMB algorithm can actually improve the probabilities of differing important terms and the performances of classifying the Chinese Web page.
A Web site contains a lot of terms which are distributed in each Web page of the Web site. Some of these terms describe the characteristics of the Web page and can used to classify the Web page to a specific category. The others have no relationship to the Web page are ignored while performing the classification task. So, if we can eliminate the noisy terms, we can successfully improve the performance of Web page automatically classified system
Keywords: Multimembership Bayesian Algorithm、
Web Mining 、 Web Page Cleaning 、 Information Extraction、Metadata、TF/IDF、Entropy
1. 前言
現今,網際網路上以HTML格式為主的文件資 訊可視為最大的資料庫,許多知識工程相關的研究 都想要自動由大量HTML 文件中,自動擷取隱含於 網頁當中的資訊。然而,HTML 文件所呈現的是非 結構化或部分結構化的資訊,因此,資訊擷取的研 究方法在於研究如何有效地自動擷取出特定領域 網頁內容所隱含的metadata [5,8]。 在網路的各式服務中,全球資訊網的應用可以 說是影響最大的一種方式,在這其中,除了使用者 所需要的之外,當然也包含了大量不必要或不適合 的內容,在推展網路相關應用的同時,許多教育單 位或是公司行號都面臨了無法管制網路資源的難 題。而現今的社會,Internet 的使用,己經成為人 類 生 活 的 一部 份 。 無 論何 時 何 地 ,只 要 連 接 上 Internet,世界上的每一個人都能享受到 Internet 上 豐富的資源以及與別人交流通訊。而 Internet 除了 可看成是一個全世界性的資料寶庫之外,也可以看 作是一個嶄新的通訊媒介。有別於傳統的通訊媒 介,Internet 這一個通訊媒介,它打破了時間跟空 間的限制,訊息在網路上傳播迅速,不分世域國 界。越來越多的資訊都透過網路來發佈。也由於 Internet 的普及,資訊提供者透過網路,可以很快 速、即時地發佈他們的訊息給資訊消費者。但長久 以來,資訊提供者與資訊消費者之間的通訊模式是 很被動的,是以「瀏覽」為主要的運作模型。以 Web 系統來講,資訊提供者把資訊以 Web page 的方式 放在 Web server 上,資訊消費者必須連上 web server 查看。以後是否有新的資訊被發佈,資訊是 否有所更新改變,資訊消費者無從得知,詳細流程 如圖 1 所示[2,3]。 圖 1 資訊提供者與資訊消費者之間的通訊模式 舉例來說,一個新聞發佈的網站,讀者要定時 的連上網站,才能看到是否有新的消息。很多網站 會將自己認為對讀者有用的「資料」整合起來,甚 至再加上廣告。但是對讀者來說,真正有用的「資 訊」卻是極少,反倒是充斥許多的雜訊。讀者若想 要看自己感興趣的新聞,則必須要靠自己去搜尋。 搜尋時,只能按照新聞的分類(Channel)和標題(Subject)來尋找或透過站內全文搜尋引擎來作全 文檢索(Full-text searching)[4,7]。這種資訊提供者 與資訊消費者的通訊方式有三個缺點: 資訊消費者若想獲得第一手的資訊,必須 經常的檢查是否有新的訊息被發佈,浪費 讀者的時間。 網站上可能充斥許多雜訊,是讀者沒有興 趣的,讀者必須花時間跟精神過濾。 資訊消費者每次都得重復相同的動作,去 尋找他感興趣的訊息。 根據以上的分析,資訊提供者與資訊消費者之 間需要有一種更好的通訊模式,使得資訊的傳遞更 有效率及自動化。另一方面,XML 是近年被受重 視和愈來愈被廣泛應用的新技術。XML 能讓開發 人員定義標籤語言(Markup Language)來描述資料 本身的意涵和結構,資料有了這個自我表述性質, 無論是人或程式可以輕易解讀出資料的意義,有利 於自動化的資訊處理跟資料的搜尋比對。加上 XML 的開放性與標準性,使之成為 Internet 這個異質性 環境電子資料發佈、交換的新技術。在 Web 上更是 被廣泛採用,取代過去以 HTML 為主的 Web 系統。 本篇論文的架構大致上如下所示,第一部分為前 言,我們會陳述問題的現況;第二部分為文獻探 討 , 我 們 會介 紹 與 主 題相 關 的 論 文並 介 紹 何 謂 MMB(Multimembership Bayesian Algorithm,多重關 係貝是演算法);第三部分為 WPACS、TF/IDF、pij /  ̄p ij、詞彙清理、詞彙擷取的介紹;第四部份為實證 結果和系統實作畫面;第五部分為未來展望,我們 會大致說明未來我們的研究方向;第六部分為結 論,我們會為這個主題作一個總結。
2. 相關文獻
傳 統 擷 取 網 頁 重 要 詞 彙 的 方 式 大 都 是 以 TF/IDF 和 Entropy 方式為主流,但在我們長時間觀 察和閱讀相關 paper 下,我們赫然發現 TF 值較高的 詞彙並不等同於這個詞彙重要;而 Entropy 的方式 雖然擁有不錯的判別能力,但由於其計算過程過於 繁瑣,故本研究提出 MMB 演算法來取代這兩個方 法,實驗證明 MMB 演算法確實有效地提昇了辨識 重要詞彙的機率值和網頁自動分類的準確率。 其次,由於傳統的網頁自動分類方式 Bayesian 方法[11]僅能推論目標網頁的單一類別,而無法對 多 目 標 網 站類 別 進 行 適當 分 類 , 故本 研 究 採 用 MMB(Multimembership Bayesian)方式[1]來改善此 缺點。MMB 曾經於 1991 年在美國伊利諾理工學院 用來發展 MEDAS 醫療診斷專家系統[12,13,14],目 的是希望在醫生診斷的過程中,由新病人的單一或 多個病症,綜合先前其他病人的歷史病例,推論出 新病人患病的機率,並儘可能推論出更多的病症給 醫生作為決策時的參考,以便協助醫生正確無誤地 開藥方給新病人服用。而 WPACS 的目的和 MEDAS 相仿,故 MMB 的概念可用於 WPACS,即在同一 時間內,運用所有網頁類別群組中個別的 MMB 推 論知識,自動計算出目標網頁隸屬於第 H 層(最底 層)的多目標類別之個別機率值,以便提供使用者作 為網頁分類時的參考,進而提昇網頁正確分門別類 的準確率。而本實驗室曾於 2005 年投入網站自動 分類方面的研究[22],然而,我們深深地發現光是 分析一個網站當中的網頁架構就已經耗去不少的 時間,更遑論分析要在使用者可接受的時間內完成 分析網頁內容和更進一步分類網站的類別。雖然當 時的網站自動分類的準確率約為 80%,但是網站自 動分類的時間卻往往超過 30 秒,有鑑於此我們開 始縮少自動分類的範圍,將原先以「網站」為位為 縮小到以「網頁」為範圍,並進一步深入去分析網 頁的架構,以期能找到一個有效清理網頁雜訊並且 能夠擷取網頁 Metadata 的方式,來加速系統自動分 類網頁(網站)的處理時間。 辨識網頁當中的重要區塊[16,17,19]也是一種 有效清理網頁雜訊和擷取網頁 Metadata 的好方 法,目前最常見的就屬 DOM Tree 這種方式。DOM Tree 的功能是讓使用者可以輕易地將網頁結構以 Tree 的方式來呈現;而「Style Tree」是「DOM Tree」 架構的一種變形,使用者可以運用 Style Tree 的方 式去除多個相同類型網頁重複的區塊,而僅留下尚 未重疊的區塊,詳細流程如圖 2 所示[11,18]。而 WPACS 將會結合 Style Tree 來去除重複的網頁區 塊,但目前 Style Tree 有個缺點,那就是它目前較 適用於同一網站當中的網頁,未來我們將會嘗試不 同網站的網頁來實驗。 圖 2 資訊提供者與資訊消費者之間的通訊模式3. TF/IDF、Entropy、p
ij/  ̄
p
ij、詞彙清理
和擷取
3.1 WPACS 系統架構WPACS (Web Page Automatically Classified System,網頁自動分類系統) 有三大模組,分別為 知識建構、推論引擎和知識學習模組[20,21,22]。
3.2 傳統的 TF/IDF 方式說明
TF(Term-Frequency)的概念是由 Salto 於 1988
年率先提出的;而 IDF(Inverse Document Frequency) 的概念則是由 Spark Jones 於 1972 年所提出來的, 其提出該架構的理由,是因為 TF 會將每篇同類型 文章的詞在每篇文章中當成是一樣重要的,其實會 受到每篇文章質與量不同的影響,重要性是有所不 同的,IDF 將其每篇文章詞的重要性重新規劃之。 但在我們的實驗中觀察到一個問題,一個詞彙的 TF 值愈高不見得代表這個詞彙是重要詞彙[18]。 3.3 傳統的 Entropy 方式說明 Entropy 表示亂度,這個關唸來自於熱力學, 用來表示物體分佈的分散狀況,亂度愈高,則越無 規則。因此,決策數演算法的目標就是希望能夠降 低資料分類結果的亂度,比較各個屬性質的增益比 值,挑選出具有較高增益比值(門檻值自訂)的辭彙 視作為「網頁重要詞彙」。但 Entropy 的方式有個缺 點,那就是過於耗時,故用於尋找網頁重要詞彙也 不太適用[18]。 3.4 新生的 pij /  ̄p ij方式說明(MMB 演算法) WPACS 的 MMB 推論知識庫是由兩種數值所 建構而成的,這兩個數值分別是 P(Wj⏐ Bi ) (以 pij 代表)和 P(Wj⏐ ̄B i ) (以 ̄p ij代表)。pij代表在類別 Bi 裡的所有知識訓練網頁樣本中詞彙 Wj出現的機率 值,而 WPACS 根據詞彙 Wj在類別 Bi裡的知識訓 練網頁樣本中所出現之次數,來標示「K1」(K1≧1), 倘若詞彙 Wj沒有出現,則標示「0」;而 ̄p ij代表在 類別 ̄B i裡的所有知識訓練網頁樣本中,詞彙 Wj會 出現的機率,WPACS 根據詞彙 Wj在類別 ̄B i裡的 知識訓練網頁樣本中所出現的次數來標示「K2」 (K2≧1),倘若詞彙 Wj並沒有出現,則標示「0」即 可。而 MMB 推論知識庫當中,有關計算詞彙 pij 和 ̄p ij值的公式之介紹及說明,則如公式(1)(計算 pij 值)和公式(2)(計算 ̄p ij值)所示[1]。 在介紹完有關計算詞彙 pij和 ̄p ij值的公式之 後,接下來將進一步地介紹有關 MMB 公式的相關 說明,如公式(3)所示[1]。
=
)
...,
,
,
(
B
iW
1W
2W
nP
其中,WPACS 將 P(Wj⏐ Bi ) 以 pij代表、P(Wj⏐  ̄B i ) 以 ̄p ij代表,P
(
B
iW
1,
W
2,
...,
W
n)
代表目標網 頁包含有詞彙W
1,W
2,…,W
n後屬於類別B
i的後天 機率值,而 P(B
i)則是目標網頁屬於類別B
i的先天 機率值,WPACS 將 P(B
i)的值預設為 0.5,這代表 一開始在沒有任何預設立場的情況下,WPACS 欲 判別的目標網頁屬於第 H 層各類別(B
1,B
2,…, mB
)的個別機率值均相等。 3.5 網頁詞彙清理和詞彙擷取 (1) 知識的類型 : 我們採用 Pij /  ̄p ij 值(新的 )的方式來取代 TF/IDF 值和 Entropy 值的方式(舊的),因在我們的 實驗中(4.2 小節)發現,使用 Pij /  ̄p ij值的方式可以 較正確地挑選出網頁當中的重要詞彙,如圖 3 所示。 (2) 單位: 我 們 捨 棄 以 段 落 為 單 位 而 採 用 以 句 子 為 單 位。因為網頁文件不像新聞文件容易判別出段落, 故我將以句子為單位,並以「.」(英文) 、「。」(中 文)、「!」和「;」來判別句子的結束與否。 利用句子當中動詞和名詞 Pij 和 ̄p ij值的高低來 決定哪一個句子含有較重要的資訊。 (3) 詞彙清理、擷取、賦予權重: 假設詞彙的(Pij- ̄p ij) 的數值超過 0.6,這代 表這個詞彙是非常重要的,WPACS 會將這個 詞彙儲存到 MMB 推論知識庫當中。 假設詞彙的(Pij- ̄p ij) 的數值低於 0.2,這代 表這個詞彙是不重要的,WPACS 會將這個詞 彙直接刪除[12]。 若 Pij 值大於 0.85 代表此詞彙非常具有代表 性,則將其機率值調高為 1,因為某些情況下 專有名詞即可辨識網頁屬於哪一個類別。(例 如,「專有名詞」) 若 ̄p ij值小於 0.2 代表此詞彙非常不具有代表 性,則直接將其刪除即可。(例如,「人名」、「地 名」、「所有格」) 圖 3 TF / IDF 值 V.S pij /  ̄p ij值的比較流程[18] 未過濾 Style Tree Summarization (TF/IDF) 已過濾 提昇網頁分類的準確率 舊的:準確率約65% 新的:準確率約80% 未過濾 Summarization (pij /  ̄p ij) 已過濾 提昇網頁分類的準確率 ) ( ... ) ( )) ( 1 ( ) ( ... ) ( ) ( ) ( ... ) ( ) ( 1 1 1 i n i i i n i i i n i i B W P B W P B P B W P B W P B P B W P B W P B P × × − + × × × × × × (3) Q j m i 的網頁數 屬於類別B 的數量 非 B W P p i i j ij= = ,1≤ ≤ ,1≤ ≤ " 0 " ) ( Q j m i 的網頁數 不属於類別B 的數量 非 B W P p i i j j i = = ,1≤ ≤ ,1≤ ≤ " 0 " ) ( (1) (2)4. 系統實作和網頁知識品質提昇的實證
4.1 WPACS 的操作過程 接下來我將會以圖文並行的方式來粗略說明 WPACS 的介面和操作流程: 圖 4 是 WPACS 的系統初始畫面,包括有知識 建構模組、推論引擎模組和知識學習模組。 圖 4 WPACS 的系統初始畫面 圖 5 是 WPACS 的第一步驟,使用者只需將「網 頁名稱」和「網址」輸入 WPACS 即可。 圖 5 WPACS 的第一步驟 使用者於圖 5 中按下「擷取」鍵後,即會出現 如圖 6 般的網頁去標籤後的純文字檔(尚未經過過 濾處理)。 圖 7 目標網頁去標籤後的純文字檔範例圖 8 為純文字檔(尚未經過過濾處理)之斷詞和 賦予詞性的範例[6,15]。 圖 8 純文字榜(未過濾)之斷詞和賦予詞性的範例 依據 3.4 和 3.5 節的知識過濾和知識擷取規 則,並進一步採用計算 pij 和  ̄p ij值公式,即可取 得已過濾重要網頁詞彙(Metadata)的 pij 和  ̄p ij值, 如圖 9 所示。 圖 9 已過濾重要網頁詞彙的 pij /  ̄p ij值部分範例 圖 10 為部分網頁自動分類的結果,WPACS 自 MMB 推論知識庫當中找尋新生目標網頁中詞彙的 pij /  ̄p ij值,並將其代入 MMB 公式即會輸出新生目 標網頁隸屬於各類別的機率值,使用者挑選機率值 最高者作為新生目標網站最終的類別隸屬所在。 圖 10 網頁自動分類的結果
4.2 TF / IDF 值 V.S pij /  ̄p ij值比較過程說明 圖 11 為 TF / IDF 值和 pij /  ̄p ij值之比較流程 圖,我們希望藉由這個比較流程來判別出採用哪種 方式較能擷取到真正重要的辭彙,和採用哪種方式 能真正有效提昇網頁自動分類的準確率。 圖 11 TF / IDF 值和 pij /  ̄p ij值之比較流程圖 4.3 TF / IDF 值 V.S pij /  ̄p ij值比較範例 在這個小節當中我們將會以 TF / IDF 值和 pij /  ̄p ij值作為實驗的範例。首先,我們隨機挑選「天 下網路書店」首頁作為實驗的樣本,如表 1 所示。 表 1 全國博碩士論文網頁的詞集部份範例 方法 1:TF 值 方法 2:pij /  ̄p ij值 詞彙 出現次數 詞彙
p
ij ̄
p
ij 1.論文 25 1.論文 0.85 0.21 2.系所 21 2.作者 0.81 0.23 3.書籍 19 3.摘要 0.75 0.42 4.書 16 4.文獻 0.73 0.18 …….. …….. …….. …….. ……..由於 Sandip et al.[18]運用 TF/IDF 挑選出的重 要詞彙來分類網頁之機率值大約為 65%,而採用 MMB 方式的準確率大約為 80%[1];TF 值強調詞彙 出現的頻率若愈高則代表該詞彙就愈重要,但由表 1 便推翻了這個假說,而 MMB 的方式會較客觀。 而由表 1 可以清楚地看出在每一個類別當中, 其所擁有的詞彙之 pij、 ̄p ij值大都不一致,也正因 為如此,將天下網路書店網頁的網頁詞集代入多目 標類別個別的 MMB 公式後,搭配每一個類別其所 屬的 MMB 推論知識,將會產生天下網路書店網站 屬於多目標類別個別的後天機率值,WPACS 會挑 選最高機率值作為目標網頁的最終類別隸屬,故天 下網路書店隸屬於「網路書店」這個類別,如表 2 所示。 表 2 天下網路書店網頁隸屬於多目標類別個別機 率值 類別編號 類別名 後天機率值 排名 A0002 網路書店 0.91 1 A0008 圖書資源 0.85 2 A0018 線上教學 0.69 3 … ... ... …
5. 未來展望
一、網頁類別群組推薦系統(針對於一般的使用者) 其優點為方便不同的使用者找到 其喜好的網 頁群組,而因為網頁的內容以摘要的方式呈現,故 使用者較能夠閱讀到網頁的重點,其相關的步驟如 圖 12 所示。 事先建構 N 個類別的網頁架構,並將已分 類好的網頁依後天機率值的高低來排序。 蒐集 End User 在「我的最愛」當中的所有 網頁網址,並計算其分別隸屬於何種類 別。 根據計算的結果得知 End User 的喜好類 別群組為何,並藉此推薦知識庫當中符合 End User 喜好的網頁類別群組。 由使用者的「Feedback」來得知此推薦系 統的推論結果的好壞。 擴大應用於「電子市集」的概念。 圖 12 網頁類別群組推薦系統的流程圖6. 結論
由 於 網 際 網 路 的 蓬 勃 發 展 促 使 頻 寬 逐 漸 變 快,故網際網路上有更大容量的網路空間使得網頁 的數量以等比的速度增加當中;然而,這樣也讓每 個網頁的複雜度增加,也更多元化,故大大地增加 了網頁自動分類的難度,也讓使用者難以在網頁當 中找尋出有用的資訊。拜近年來搜尋引擎發達之 賜,使用者對於分類目錄的依靠性降低了許多,使 純文字檔 純文字檔 TF / IDF 值 pij /  ̄p ij值 重要詞彙 A 重要詞彙 B 人工辨識 準確率 A 人工辨識 準確率 B 比較高低 蒐集遠端使 用者之「我 的最愛」 類別1 類別2 類別3 …….. 符合的網頁 類別項群組 根 據 分 類 機 率 值 高 低 作 排 序 類別N用者只需打上關鍵字就能輕鬆找到相關的資料,再 從中過濾出對使用者有用的資訊;這些資訊往往不 在同一個網頁之中,而是其中的某些網頁而已;若 是我們能有效地清理網頁當中不重要的詞彙和擷 取出網頁當中重要的辭彙,使用者必能更快地區分 出對自已有用的資訊,進而可以大幅度地提昇網頁 自動分類的準確率。藉由 MMB 演算法,WPACS 能 有 效 地 節省 人 力 和 成本 並 將 網 頁做 好 分 類 動 作,且其準確率高達 80%而錯誤率僅 20%。
7. 致謝
感謝中央研究院的中文知識庫小組,免費提供 CKIP 中文斷詞程式給本研究作為學術上的研究根 基 , 而 斷 詞 程 式 的 網 址 來 源 為 http://ckip.iis.sinica.edu.tw/CKIP/ws/。參考文獻
[1] 李中彥、駱思安,“以 Web Services 建構網站分 類推論系統”,2005,2005ING 安泰管理碩士論 文獎暨研討會,台北。 [2] 李季壕,”動態網頁之樣版與資料分析研究”,國 立中央大學資訊工程研究所,碩士論文,2004。 [3] 吳宜鴻,“全球資訊網資料之分析、索引與擷 取”,國立清華大學資訊工程研究所,博士論文, 2000。 [4] 邱志宏,“個人網路資訊管理系統及其網頁分類 方法之研究”,銘傳大學資訊管理研究所,碩士 論文,2002。 [5] 李泓儒,” 淨化網頁:網頁區塊化以及資料區域 擷取”,國立中央大學資訊工程研究所,碩士論 文,2003。 [6] 唐大任,“中文斷詞器之研究”,國立交通大學電 信工程研究所,碩士論文,2001。 [7] 曾耀順,“在超連結環境下針對資訊分類相關權 威網頁之探勘”,國立成功大學電機工程研究 所,碩士論文,2002。 [8] 黃執強,”同性質網頁資料整合之自動化研究”, 國立中央大學資訊工程研究所,碩士論文, 2003。 [9] 張啟峰,“整合階層式分類目錄的演算法設計及 評估”,國立中正大學資訊工程研究所,碩士論 文,2001。 [10] 游佳琪,“網站類別辨識推論系統及知識管 理”,中國文化大學資訊管理研究所,碩士論文, 2004。[11] B. Liu, K. Zhao, and L. Yi, “Eliminating Noisy Information in Web Pages for Data Mining”, proceedings of ninth ACM SIGKDD international conference, pp. 296-305, 2003.
[12] C.-Y., Lee、Evens, M.、Carmony, L.、 Trace, D. A.、Naeymi-Rad, F., “Recommending Tests in a
Multimembership Bayesian Diagnostic Expert System,” proceedings of fourth annual IEEE symposium on computer based medical systems, pp. 28-35, 1991.
[13] C.-Y., Lee, “On Using Bayesian Approach Recognizing Chinese Electronic Bookstore Web Sites”, proceedings of tenth ISSAT international Conference on reliability and quality in design, pp. 290-294, 2004.
[14] C.-Y., Lee、C.-C., Yu, “Decision on Classifying Chinese Commercial Web Sites by Bayesian Approach”, proceedings of fourth annual Hawaii international conference on business, 2004. [15] K.-J., Chen、S.-H., Liu, “Word Identification for
Mandarin Chinese Sentences”, proceedings of COLING92, pp.101-107, 1992.
[16] Lakshmish Ramaswamy, Ling Liu, “Automatic Fragment Detection in Dynamic Web Pages and Its Impact on Caching”, communication of IEEE transactions on knowledge and data engineering, Vol. 17, No. 6, pp. 859-874, June, 2005.
[17] L. Ramaswamy, A. Iyengar, L. Liu, and F. Douglis, “Automatic Detection of Fragments in Dynamically Generated Web Pages”, proceedings of 13th world wide web conference, pp. 443-454, 2004.
[18] Sandip Debnath, Prasenjit Mitra, Nirmal Pal, and C.Lee Giles, “Automatic Identification of Informative Sections of Web Pages”, communications of IEEE transactions on knowledge and data engineering, Vol. 17, No. 9, pp. 1233-1246, Sep. , 2005.
[19] S.-H. Lin, and J.-M. Ho, “Discovering Informative Content Blocks from Web Documents”, proceedings of eighth ACM SIGKDD international conference, pp. 588-593, 2002.
[20] Ssu-An Lo, Chong-Yen Lee, and Chiun-Chieh Hsu, ”Using MMB Algorithm to Construct Chinese Web-Page Automatically Classified System”, communications of IICM, Vol.8, No.4, , pp.147-161, Dec., 2005.
[21] Ssu-An Lo, Chong-Yen Lee, and Chiun-Chieh Hsu, “Using MMB Algorithm to Refine the Performance of Chinese Web Site Automatically Classified System”, proceedings of 2005 international computer symposium, Dec., 2005. [22] Ssu-An Lo, Chong-Yen Lee, and Chiun-Chieh
Hsu, “Automatically Classify Web Site by Multimembership Bayesian Approach”, proceedings of third international conference on information technology on Web technology, pp. 580-583, 2005.
[23] Y.-M., Chang, and Y.-H, Noh, “Developing a specialized directory system by automatically classifying Web documents”, proceedings of journal of information science”, pp. 117–126, 2003.