應用MMB演算法清理網頁雜訊和擷取網頁Metadata

(1)

應用 MMB 演算法清理網頁雜訊和擷取網頁 Metadata

駱思安徐俊傑

國立台灣科技大學資訊管理所

[email protected]、[email protected]

摘要

傳統擷取網頁重要詞彙的方式大都是以 TF/IDF 和 Entropy 方式為主流，但在我們的實驗下卻赫然發現 TF 值較高的詞彙並不等同於這個詞彙是重要的；而 Entropy 的方式雖然擁有不錯的辨別能力，但由於其計算過程過於繁瑣，故本研究提出 MMB 演算法以期能夠取代這兩個方法，而實驗證明 MMB 演算法確實能有效地提昇辨識重要詞彙的機率值和網頁自動分類的準確率。每一個網站中包含著許許多多的文字，分散在網站內的每一個網頁中，而這些文字一部分是描述網頁隸屬於何種類別，另一部分則是與隸屬類別毫無關係的雜質。因此，如能有效地去除網頁中的雜質文字，即能成功地提昇中文網頁自動分類的效能。關鍵詞：多重關係貝氏演算法、網頁探勘、網頁清理、資訊擷取、Metadata、TF/IDF、Entropy

Abstract

The traditional methods of acquiring important terms of the Web page are TF/IDF and Entropy, but we find the higher TF value is not stand for the more important term is. Although Entropy has good ability of differing, the processes of calculating are too much. So, in the research, we propose MMB algorithm to replace these two methods, and we verify MMB algorithm can actually improve the probabilities of differing important terms and the performances of classifying the Chinese Web page.

A Web site contains a lot of terms which are distributed in each Web page of the Web site. Some of these terms describe the characteristics of the Web page and can used to classify the Web page to a specific category. The others have no relationship to the Web page are ignored while performing the classification task. So, if we can eliminate the noisy terms, we can successfully improve the performance of Web page automatically classified system

Keywords: Multimembership Bayesian Algorithm、

Web Mining 、 Web Page Cleaning 、 Information Extraction、Metadata、TF/IDF、Entropy

1. 前言

現今，網際網路上以HTML格式為主的文件資訊可視為最大的資料庫，許多知識工程相關的研究都想要自動由大量HTML 文件中，自動擷取隱含於網頁當中的資訊。然而，HTML 文件所呈現的是非結構化或部分結構化的資訊，因此，資訊擷取的研究方法在於研究如何有效地自動擷取出特定領域網頁內容所隱含的metadata [5,8]。在網路的各式服務中，全球資訊網的應用可以說是影響最大的一種方式，在這其中，除了使用者所需要的之外，當然也包含了大量不必要或不適合的內容，在推展網路相關應用的同時，許多教育單位或是公司行號都面臨了無法管制網路資源的難題。而現今的社會，Internet 的使用，己經成為人類生活的一部份。無論何時何地，只要連接上 Internet，世界上的每一個人都能享受到 Internet 上豐富的資源以及與別人交流通訊。而 Internet 除了可看成是一個全世界性的資料寶庫之外，也可以看作是一個嶄新的通訊媒介。有別於傳統的通訊媒介，Internet 這一個通訊媒介，它打破了時間跟空間的限制，訊息在網路上傳播迅速，不分世域國界。越來越多的資訊都透過網路來發佈。也由於 Internet 的普及，資訊提供者透過網路，可以很快速、即時地發佈他們的訊息給資訊消費者。但長久以來，資訊提供者與資訊消費者之間的通訊模式是很被動的，是以「瀏覽」為主要的運作模型。以 Web 系統來講，資訊提供者把資訊以 Web page 的方式放在 Web server 上，資訊消費者必須連上 web server 查看。以後是否有新的資訊被發佈，資訊是否有所更新改變，資訊消費者無從得知，詳細流程如圖 1 所示[2,3]。 圖 1 資訊提供者與資訊消費者之間的通訊模式 舉例來說，一個新聞發佈的網站，讀者要定時的連上網站，才能看到是否有新的消息。很多網站會將自己認為對讀者有用的「資料」整合起來，甚至再加上廣告。但是對讀者來說，真正有用的「資訊」卻是極少，反倒是充斥許多的雜訊。讀者若想要看自己感興趣的新聞，則必須要靠自己去搜尋。搜尋時，只能按照新聞的分類（Channel）和標題

(2)

（Subject）來尋找或透過站內全文搜尋引擎來作全文檢索（Full-text searching）[4,7]。這種資訊提供者與資訊消費者的通訊方式有三個缺點：資訊消費者若想獲得第一手的資訊，必須經常的檢查是否有新的訊息被發佈，浪費讀者的時間。網站上可能充斥許多雜訊，是讀者沒有興趣的，讀者必須花時間跟精神過濾。資訊消費者每次都得重復相同的動作，去尋找他感興趣的訊息。根據以上的分析，資訊提供者與資訊消費者之間需要有一種更好的通訊模式，使得資訊的傳遞更有效率及自動化。另一方面，XML 是近年被受重視和愈來愈被廣泛應用的新技術。XML 能讓開發人員定義標籤語言（Markup Language）來描述資料本身的意涵和結構，資料有了這個自我表述性質，無論是人或程式可以輕易解讀出資料的意義，有利於自動化的資訊處理跟資料的搜尋比對。加上 XML 的開放性與標準性，使之成為 Internet 這個異質性環境電子資料發佈、交換的新技術。在 Web 上更是被廣泛採用，取代過去以 HTML 為主的 Web 系統。本篇論文的架構大致上如下所示，第一部分為前言，我們會陳述問題的現況；第二部分為文獻探討，我們會介紹與主題相關的論文並介紹何謂 MMB(Multimembership Bayesian Algorithm，多重關係貝是演算法)；第三部分為 WPACS、TF/IDF、pij / ￣p ij、詞彙清理、詞彙擷取的介紹；第四部份為實證結果和系統實作畫面；第五部分為未來展望，我們會大致說明未來我們的研究方向；第六部分為結論，我們會為這個主題作一個總結。

2. 相關文獻

傳統擷取網頁重要詞彙的方式大都是以 TF/IDF 和 Entropy 方式為主流，但在我們長時間觀察和閱讀相關 paper 下，我們赫然發現 TF 值較高的詞彙並不等同於這個詞彙重要；而 Entropy 的方式雖然擁有不錯的判別能力，但由於其計算過程過於繁瑣，故本研究提出 MMB 演算法來取代這兩個方法，實驗證明 MMB 演算法確實有效地提昇了辨識重要詞彙的機率值和網頁自動分類的準確率。其次，由於傳統的網頁自動分類方式 Bayesian 方法[11]僅能推論目標網頁的單一類別，而無法對多目標網站類別進行適當分類，故本研究採用 MMB(Multimembership Bayesian)方式[1]來改善此缺點。MMB 曾經於 1991 年在美國伊利諾理工學院用來發展 MEDAS 醫療診斷專家系統[12,13,14]，目的是希望在醫生診斷的過程中，由新病人的單一或多個病症，綜合先前其他病人的歷史病例，推論出新病人患病的機率，並儘可能推論出更多的病症給醫生作為決策時的參考，以便協助醫生正確無誤地開藥方給新病人服用。而 WPACS 的目的和 MEDAS 相仿，故 MMB 的概念可用於 WPACS，即在同一時間內，運用所有網頁類別群組中個別的 MMB 推論知識，自動計算出目標網頁隸屬於第 H 層(最底層)的多目標類別之個別機率值，以便提供使用者作為網頁分類時的參考，進而提昇網頁正確分門別類的準確率。而本實驗室曾於 2005 年投入網站自動分類方面的研究[22]，然而，我們深深地發現光是分析一個網站當中的網頁架構就已經耗去不少的時間，更遑論分析要在使用者可接受的時間內完成分析網頁內容和更進一步分類網站的類別。雖然當時的網站自動分類的準確率約為 80%，但是網站自動分類的時間卻往往超過 30 秒，有鑑於此我們開始縮少自動分類的範圍，將原先以「網站」為位為縮小到以「網頁」為範圍，並進一步深入去分析網頁的架構，以期能找到一個有效清理網頁雜訊並且能夠擷取網頁 Metadata 的方式，來加速系統自動分類網頁(網站)的處理時間。辨識網頁當中的重要區塊[16,17,19]也是一種有效清理網頁雜訊和擷取網頁 Metadata 的好方法，目前最常見的就屬 DOM Tree 這種方式。DOM Tree 的功能是讓使用者可以輕易地將網頁結構以 Tree 的方式來呈現；而「Style Tree」是「DOM Tree」 架構的一種變形，使用者可以運用 Style Tree 的方式去除多個相同類型網頁重複的區塊，而僅留下尚未重疊的區塊，詳細流程如圖 2 所示[11,18]。而 WPACS 將會結合 Style Tree 來去除重複的網頁區塊，但目前 Style Tree 有個缺點，那就是它目前較適用於同一網站當中的網頁，未來我們將會嘗試不同網站的網頁來實驗。 圖 2 資訊提供者與資訊消費者之間的通訊模式

3. TF/IDF、Entropy、p

ij

/ ￣

p

ij

、詞彙清理

和擷取

3.1 WPACS 系統架構

WPACS (Web Page Automatically Classified System，網頁自動分類系統) 有三大模組，分別為知識建構、推論引擎和知識學習模組[20,21,22]。

(3)

3.2 傳統的 TF/IDF 方式說明

TF(Term-Frequency)的概念是由 Salto 於 1988

年率先提出的；而 IDF(Inverse Document Frequency) 的概念則是由 Spark Jones 於 1972 年所提出來的， 其提出該架構的理由，是因為 TF 會將每篇同類型 文章的詞在每篇文章中當成是一樣重要的，其實會受到每篇文章質與量不同的影響，重要性是有所不 同的，IDF 將其每篇文章詞的重要性重新規劃之。 但在我們的實驗中觀察到一個問題，一個詞彙的 TF 值愈高不見得代表這個詞彙是重要詞彙[18]。 3.3 傳統的 Entropy 方式說明 Entropy 表示亂度，這個關唸來自於熱力學，用來表示物體分佈的分散狀況，亂度愈高，則越無規則。因此，決策數演算法的目標就是希望能夠降低資料分類結果的亂度，比較各個屬性質的增益比值，挑選出具有較高增益比值(門檻值自訂)的辭彙視作為「網頁重要詞彙」。但 Entropy 的方式有個缺點，那就是過於耗時，故用於尋找網頁重要詞彙也不太適用[18]。 3.4 新生的 pij / ￣p ij方式說明(MMB 演算法) WPACS 的 MMB 推論知識庫是由兩種數值所建構而成的，這兩個數值分別是 P(Wj⏐ Bi ) (以 pij 代表)和 P(Wj⏐￣B i ) (以￣p ij代表)。pij代表在類別 Bi 裡的所有知識訓練網頁樣本中詞彙 Wj出現的機率值，而 WPACS 根據詞彙 Wj在類別 Bi裡的知識訓練網頁樣本中所出現之次數，來標示「K1」(K1≧1)，倘若詞彙 Wj沒有出現，則標示「0」；而￣p ij代表在類別￣B i裡的所有知識訓練網頁樣本中，詞彙 Wj會出現的機率，WPACS 根據詞彙 Wj在類別￣B i裡的知識訓練網頁樣本中所出現的次數來標示「K2」 (K2≧1)，倘若詞彙 Wj並沒有出現，則標示「0」即可。而 MMB 推論知識庫當中，有關計算詞彙 pij 和￣p ij值的公式之介紹及說明，則如公式(1)(計算 pij 值)和公式(2)(計算￣p ij值)所示[1]。在介紹完有關計算詞彙 pij和￣p ij值的公式之後，接下來將進一步地介紹有關 MMB 公式的相關說明，如公式(3)所示[1]。

=

)

...,

,

(

B

i

W

1

W

2

W

n

P

其中，WPACS 將 P(Wj⏐ Bi ) 以 pij代表、P(Wj⏐ ￣B i ) 以￣p ij代表，

P

(

B

i

W

1

,

W

2

,

...,

W

n

)

代表目標網頁包含有詞彙

W

₁,

W

2,…,

W

n後屬於類別

B

i的後天機率值，而 P(

B

_i)則是目標網頁屬於類別

B

i的先天機率值，WPACS 將 P(

B

_i)的值預設為 0.5，這代表一開始在沒有任何預設立場的情況下，WPACS 欲判別的目標網頁屬於第 H 層各類別(

B

₁,

B

₂,…, m

B

)的個別機率值均相等。 3.5 網頁詞彙清理和詞彙擷取 (1) 知識的類型 : 我們採用 Pij / ￣p ij 值(新的 )的方式來取代 TF/IDF 值和 Entropy 值的方式(舊的)，因在我們的 實驗中(4.2 小節)發現，使用 Pij / ￣p ij值的方式可以較正確地挑選出網頁當中的重要詞彙，如圖 3 所示。 (2) 單位: 我們捨棄以段落為單位而採用以句子為單位。因為網頁文件不像新聞文件容易判別出段落, 故我將以句子為單位,並以「.」(英文) 、「。」(中 文)、「!」和「;」來判別句子的結束與否。 利用句子當中動詞和名詞 Pij 和￣p ij值的高低來決定哪一個句子含有較重要的資訊。 (3) 詞彙清理、擷取、賦予權重: 假設詞彙的(Pij－￣p ij) 的數值超過 0.6，這代表這個詞彙是非常重要的，WPACS 會將這個詞彙儲存到 MMB 推論知識庫當中。假設詞彙的(Pij－￣p ij) 的數值低於 0.2，這代表這個詞彙是不重要的，WPACS 會將這個詞彙直接刪除[12]。 若 Pij 值大於 0.85 代表此詞彙非常具有代表 性，則將其機率值調高為 1，因為某些情況下 專有名詞即可辨識網頁屬於哪一個類別。(例如，「專有名詞」) 若￣p ij值小於 0.2 代表此詞彙非常不具有代表性，則直接將其刪除即可。(例如，「人名」、「地名」、「所有格」) 圖 3 TF / IDF 值 V.S pij / ￣p ij值的比較流程[18] 未過濾 Style Tree Summarization (TF/IDF) 已過濾提昇網頁分類的準確率 舊的：準確率約65% 新的：準確率約80% 未過濾 Summarization (pij / ￣p ij) 已過濾提昇網頁分類的準確率 ) ( ... ) ( )) ( 1 ( ) ( ... ) ( ) ( ) ( ... ) ( ) ( 1 1 1 i n i i i n i i i n i i B W P B W P B P B W P B W P B P B W P B W P B P × × − + × × × × × × (3) Q j m i 的網頁數屬於類別B 的數量非 B W P p i i j ij= = ,1≤ ≤ ,1≤ ≤ " 0 " ) ( Q j m i 的網頁數不属於類別B 的數量非 B W P p i i j j i = = ,1≤ ≤ ,1≤ ≤ " 0 " ) ( (1) (2)

(4)

4. 系統實作和網頁知識品質提昇的實證

4.1 WPACS 的操作過程 接下來我將會以圖文並行的方式來粗略說明 WPACS 的介面和操作流程：圖 4 是 WPACS 的系統初始畫面，包括有知識建構模組、推論引擎模組和知識學習模組。 圖 4 WPACS 的系統初始畫面 圖 5 是 WPACS 的第一步驟，使用者只需將「網 頁名稱」和「網址」輸入 WPACS 即可。 圖 5 WPACS 的第一步驟 使用者於圖 5 中按下「擷取」鍵後，即會出現 如圖 6 般的網頁去標籤後的純文字檔(尚未經過過濾處理)。 圖 7 目標網頁去標籤後的純文字檔範例

圖 8 為純文字檔(尚未經過過濾處理)之斷詞和賦予詞性的範例[6,15]。 圖 8 純文字榜(未過濾)之斷詞和賦予詞性的範例 依據 3.4 和 3.5 節的知識過濾和知識擷取規則，並進一步採用計算 pij 和￣p ij值公式，即可取得已過濾重要網頁詞彙(Metadata)的 pij 和￣p ij值，如圖 9 所示。 圖 9 已過濾重要網頁詞彙的 pij / ￣p ij值部分範例圖 10 為部分網頁自動分類的結果，WPACS 自 MMB 推論知識庫當中找尋新生目標網頁中詞彙的 pij / ￣p ij值，並將其代入 MMB 公式即會輸出新生目標網頁隸屬於各類別的機率值，使用者挑選機率值最高者作為新生目標網站最終的類別隸屬所在。 圖 10 網頁自動分類的結果

(5)

4.2 TF / IDF 值 V.S pij / ￣p ij值比較過程說明 圖 11 為 TF / IDF 值和 pij / ￣p ij值之比較流程圖，我們希望藉由這個比較流程來判別出採用哪種方式較能擷取到真正重要的辭彙，和採用哪種方式能真正有效提昇網頁自動分類的準確率。 圖 11 TF / IDF 值和 pij / ￣p ij值之比較流程圖 4.3 TF / IDF 值 V.S pij / ￣p ij值比較範例 在這個小節當中我們將會以 TF / IDF 值和 pij / ￣p ij值作為實驗的範例。首先，我們隨機挑選「天下網路書店」首頁作為實驗的樣本，如表 1 所示。表 1 全國博碩士論文網頁的詞集部份範例 方法 1：TF 值 方法 2：pij / ￣p ij值詞彙出現次數詞彙

_p

_ij

_￣

_p

_ij 1.論文 25 1.論文 0.85 0.21 2.系所 21 2.作者 0.81 0.23 3.書籍 19 3.摘要 0.75 0.42 4.書 16 4.文獻 0.73 0.18 …….. …….. …….. …….. ……..

由於 Sandip et al.[18]運用 TF/IDF 挑選出的重要詞彙來分類網頁之機率值大約為 65%，而採用 MMB 方式的準確率大約為 80%[1]；TF 值強調詞彙出現的頻率若愈高則代表該詞彙就愈重要，但由表 1 便推翻了這個假說，而 MMB 的方式會較客觀。而由表 1 可以清楚地看出在每一個類別當中，其所擁有的詞彙之 pij、￣p ij值大都不一致，也正因為如此，將天下網路書店網頁的網頁詞集代入多目標類別個別的 MMB 公式後，搭配每一個類別其所屬的 MMB 推論知識，將會產生天下網路書店網站屬於多目標類別個別的後天機率值，WPACS 會挑選最高機率值作為目標網頁的最終類別隸屬，故天下網路書店隸屬於「網路書店」這個類別，如表 2 所示。 表 2 天下網路書店網頁隸屬於多目標類別個別機 率值 類別編號 類別名 後天機率值 排名 A0002 網路書店 0.91 1 A0008 圖書資源 0.85 2 A0018 線上教學 0.69 3 … ... ... …

5. 未來展望

一、網頁類別群組推薦系統(針對於一般的使用者) 其優點為方便不同的使用者找到其喜好的網頁群組，而因為網頁的內容以摘要的方式呈現，故使用者較能夠閱讀到網頁的重點，其相關的步驟如圖 12 所示。 事先建構 N 個類別的網頁架構，並將已分 類好的網頁依後天機率值的高低來排序。蒐集 End User 在「我的最愛」當中的所有網頁網址，並計算其分別隸屬於何種類別。根據計算的結果得知 End User 的喜好類別群組為何，並藉此推薦知識庫當中符合 End User 喜好的網頁類別群組。 由使用者的「Feedback」來得知此推薦系 統的推論結果的好壞。擴大應用於「電子市集」的概念。 圖 12 網頁類別群組推薦系統的流程圖

6. 結論

由於網際網路的蓬勃發展促使頻寬逐漸變快，故網際網路上有更大容量的網路空間使得網頁的數量以等比的速度增加當中；然而，這樣也讓每個網頁的複雜度增加，也更多元化，故大大地增加了網頁自動分類的難度，也讓使用者難以在網頁當中找尋出有用的資訊。拜近年來搜尋引擎發達之賜，使用者對於分類目錄的依靠性降低了許多，使純文字檔純文字檔 TF / IDF 值 pij / ￣p ij值重要詞彙 A 重要詞彙 B 人工辨識準確率 A 人工辨識準確率 B 比較高低蒐集遠端使用者之「我的最愛」類別1 類別2 類別3 …….. 符合的網頁類別項群組根據分類機率值高低作排序類別N

(6)

用者只需打上關鍵字就能輕鬆找到相關的資料，再從中過濾出對使用者有用的資訊；這些資訊往往不在同一個網頁之中，而是其中的某些網頁而已；若是我們能有效地清理網頁當中不重要的詞彙和擷取出網頁當中重要的辭彙，使用者必能更快地區分出對自已有用的資訊，進而可以大幅度地提昇網頁自動分類的準確率。藉由 MMB 演算法，WPACS 能有效地節省人力和成本並將網頁做好分類動作，且其準確率高達 80%而錯誤率僅 20%。

7. 致謝

感謝中央研究院的中文知識庫小組，免費提供 CKIP 中文斷詞程式給本研究作為學術上的研究根基，而斷詞程式的網址來源為 http://ckip.iis.sinica.edu.tw/CKIP/ws/。

參考文獻

[1] 李中彥、駱思安，“以 Web Services 建構網站分類推論系統”，2005，2005ING 安泰管理碩士論文獎暨研討會，台北。 [2] 李季壕，”動態網頁之樣版與資料分析研究”，國立中央大學資訊工程研究所，碩士論文，2004。 [3] 吳宜鴻，“全球資訊網資料之分析、索引與擷取”，國立清華大學資訊工程研究所，博士論文， 2000。 [4] 邱志宏，“個人網路資訊管理系統及其網頁分類方法之研究”，銘傳大學資訊管理研究所，碩士論文，2002。 [5] 李泓儒，” 淨化網頁：網頁區塊化以及資料區域擷取”，國立中央大學資訊工程研究所，碩士論文，2003。 [6] 唐大任，“中文斷詞器之研究”，國立交通大學電信工程研究所，碩士論文，2001。 [7] 曾耀順，“在超連結環境下針對資訊分類相關權威網頁之探勘”，國立成功大學電機工程研究所，碩士論文，2002。 [8] 黃執強，”同性質網頁資料整合之自動化研究”，國立中央大學資訊工程研究所，碩士論文， 2003。 [9] 張啟峰，“整合階層式分類目錄的演算法設計及評估”，國立中正大學資訊工程研究所，碩士論文，2001。 [10] 游佳琪，“網站類別辨識推論系統及知識管理”，中國文化大學資訊管理研究所，碩士論文， 2004。

[11] B. Liu, K. Zhao, and L. Yi, “Eliminating Noisy Information in Web Pages for Data Mining”, proceedings of ninth ACM SIGKDD international conference, pp. 296-305, 2003.

[12] C.-Y., Lee、Evens, M.、Carmony, L.、 Trace, D. A.、Naeymi-Rad, F., “Recommending Tests in a

Multimembership Bayesian Diagnostic Expert System,” proceedings of fourth annual IEEE symposium on computer based medical systems, pp. 28-35, 1991.

[13] C.-Y., Lee, “On Using Bayesian Approach Recognizing Chinese Electronic Bookstore Web Sites”, proceedings of tenth ISSAT international Conference on reliability and quality in design, pp. 290-294, 2004.

[14] C.-Y., Lee、C.-C., Yu, “Decision on Classifying Chinese Commercial Web Sites by Bayesian Approach”, proceedings of fourth annual Hawaii international conference on business, 2004. [15] K.-J., Chen、S.-H., Liu, “Word Identification for

Mandarin Chinese Sentences”, proceedings of COLING92, pp.101-107, 1992.

[16] Lakshmish Ramaswamy, Ling Liu, “Automatic Fragment Detection in Dynamic Web Pages and Its Impact on Caching”, communication of IEEE transactions on knowledge and data engineering, Vol. 17, No. 6, pp. 859-874, June, 2005.

[17] L. Ramaswamy, A. Iyengar, L. Liu, and F. Douglis, “Automatic Detection of Fragments in Dynamically Generated Web Pages”, proceedings of 13th world wide web conference, pp. 443-454, 2004.

[18] Sandip Debnath, Prasenjit Mitra, Nirmal Pal, and C.Lee Giles, “Automatic Identification of Informative Sections of Web Pages”, communications of IEEE transactions on knowledge and data engineering, Vol. 17, No. 9, pp. 1233-1246, Sep. , 2005.

[19] S.-H. Lin, and J.-M. Ho, “Discovering Informative Content Blocks from Web Documents”, proceedings of eighth ACM SIGKDD international conference, pp. 588-593, 2002.

[20] Ssu-An Lo, Chong-Yen Lee, and Chiun-Chieh Hsu, ”Using MMB Algorithm to Construct Chinese Web-Page Automatically Classified System”, communications of IICM, Vol.8, No.4, , pp.147-161, Dec., 2005.

[21] Ssu-An Lo, Chong-Yen Lee, and Chiun-Chieh Hsu, “Using MMB Algorithm to Refine the Performance of Chinese Web Site Automatically Classified System”, proceedings of 2005 international computer symposium, Dec., 2005. [22] Ssu-An Lo, Chong-Yen Lee, and Chiun-Chieh

Hsu, “Automatically Classify Web Site by Multimembership Bayesian Approach”, proceedings of third international conference on information technology on Web technology, pp. 580-583, 2005.

[23] Y.-M., Chang, and Y.-H, Noh, “Developing a specialized directory system by automatically classifying Web documents”, proceedings of journal of information science”, pp. 117–126, 2003.

應用MMB演算法清理網頁雜訊和擷取網頁Metadata

應用 MMB 演算法清理網頁雜訊和擷取網頁 Metadata

駱思安 徐俊傑

國立台灣科技大學資訊管理所

[email protected]、[email protected]

摘要

Abstract

1. 前言

2. 相關文獻

3. TF/IDF、Entropy、p

/ ￣

p

、詞彙清理

和擷取

=

)

...,

,

,

(

B

W

W

W

P

P

(

B

W

,

W

,

...,

W

)

W

W

W

B

B

B

B

B

B

B

4. 系統實作和網頁知識品質提昇的實證

p

￣

p

5. 未來展望

6. 結論

7. 致謝

參考文獻

駱思安徐俊傑

_p

_￣

_p