• 沒有找到結果。

以MMB 演算法改良中文網站自動分類系統的效能

N/A
N/A
Protected

Academic year: 2021

Share "以MMB 演算法改良中文網站自動分類系統的效能"

Copied!
11
0
0

加載中.... (立即查看全文)

全文

(1)以 MMB 演算法改良中文網站自動分類系統的效能 Using MMB Algorithm to Refine the Performance of Chinese Web Site Automatically Classified System 駱思安. 李中彥. 徐俊傑. 台灣科技大學資訊管理所. 中國文化大學資訊管理所. 台灣科技大學資訊管理所. alex.hero@msa.hinet.net. cylee@staff.pccu.edu.tw. cchsu@cs.ntust.edu.tw. automatically classified system. In the research, a Chinese Web site hierarchical classification system is developed. In the system, the useful terms are extracted by using the pij and pij value. The knowledge base is then applied by the MMB approach to infer the individual probabilities of categories which the Web site belongs to. The category with the highest probability is selected by WSACS to the designated classification category.. 摘要 每一個網站中包含著許許多多的文字,分散 在網站內的每一個網頁中,而這些文字一部分是 描述網站隸屬於何種類別,另一部分則是與隸屬 類別毫無關係的雜質。因此,如能有效地去除網 站中的雜質文字,即能成功地提昇中文網站自動 分 類 的 效 能 。 本 研 究 提 出 WSACS(Web Site Automatically Classified System),一個中文網站 自動分類系統,有效地去除網站中的雜質文字, 並採用 MMB(Multimembership Bayesian)的方式 來推論網站的類別隸屬。. In the system, there are three major modules. The first is the knowledge construction module. The module uses the Web mining to explore the Web page’s hyperlink structure and sentences. Then, I try to cut the sentences with CKIP segmentation unit into different terms, and all non-noun terms are eliminated. The ambiguity terms are removed from noun terms and all synonyms are grouped. The result term set is used pij values to construct the to calculate pij and inference knowledge base. The second is the inference engine module. It uses the MMB approach along with the inference knowledge base to infer the Web site’s classification probabilities. The third is knowledge learning module which provides a self-learning mechanism to update the inference knowledge base.. WSACS 有三大模組,知識建構模組採用應 用程式滲透測試的方式,探勘出網站中網頁的超 鏈結架構和文句,並運用 CKIP 斷詞器將文句做 適當的切割並賦予詞性,僅留下詞性為名詞的詞 彙讓去除贅詞和同義詞決定單元來過濾以產生 網站詞集,最終運用計算 pij 和 pij 值的公式, 用以產生網站詞集各自的 pij 和 pij 值;推論引 擎模組以 MMB 為理論基礎來推論網站的類別 隸屬;知識學習模組則在固定的時間內,自動學 習詞彙、pij 和 pij 值,以確保推論知識的正確 性。. Keywords:Multimembership Bayesian approach、 Knowledge Management 、 Decision Support System、Website Classify、Chinese Segmentation. 關鍵詞:多重關係貝氏方法、知識管理、決策支援 系統、網站分類、中文斷詞. 一、前言. Abstract. 隨著網際網路的日新月異,網路上每天都充 斥著許多的資料,故瀏覽者必須要耗費相當多的時 間和精力去做篩選和過濾的動作,以便擷取出其真 正需要的資料集。而知識管理的目標是「知識」, 不是「資料」,所以在資料氾濫的時代中,需要的 是組織過的資料及分類後的知識,也因此現今探討 分類技術議題(例如:文章分類、網頁分類和網站 分類)的文章不斷地被各學界所提出。. A Web site contains a lot of terms which are distributed in each Web page of the Web site. Some of these terms describe the characteristics of the Web site and can used to classify the Web site to a specific category. The others have no relationship to the Web site are ignored while performing the classification task. So, if we can eliminate the noisy terms, we can successfully improve the performance of Chinese Web site -1-.

(2) 是較自動化的方法,將客戶端人力參與成本降至最 低,因此能夠快速導入和使用;此法的缺點為,能 不能配合客戶方面暨有的分類架構,即是考驗各家 廠商的技術能力。沒有一套分類架構是能永遠適用 於每一種產業的,因此這樣的方法,僅適合於一些 專業並行之有年的產業,因為這些產業多數已經累 積了非常多的詞典或專用的查詢分類等等,但其對 於新式產業或以創新為主題產業則很難有廠商能 配合。. 而本研究將以網站分類作為研究的主軸,而網 站內容含意分類的目的,是在對網站內容進行分門 別類的「加值處理」,使性質相近的網站被放在相 同或較類似的類別當中,如此網站群組不但易於被 管理,而且可以不斷地被使用者快速瀏覽或萃取。 傳統的網站分類工作需要利用大量人力,如此,不 僅要耗去許多寶貴的時間,而且人工分類始終存在 一個「標準如何界定」的嚴重問題,亦即不同的人 會有不同的分類結果;根據研究,不論是人工建索 引或是人工判定網站相似度等,其準確率大約只有 「60%」。而利用電腦來做網站自動分類的實驗, 從 1960 年代就已開始,並陸續有相關論文發表, 自從 90 年代初期網際網路普及,自動分類更成了 人人叫喊的「顯學」。而一套永續經營的網站自動 分類系統,應具備有自動建議分類機置的功能,使 系統在偵測出有越來越多無法分類的資訊時,能夠 自動歸類近似特徵,建議產生新分類,這樣才能夠 滿足當今使用者的需求。. 「科學式混合法」則是綜合上述二法的特點所 產生出的改良法,面對的情況是,假設一個企業客 戶有非常多的特定資料內容,但既沒有可效法之分 類架構、又沒有專業人員有專業知識可以主觀製定 一套分類架構時,客戶與廠商要合作產生出一套新 分類架構的過程,因此此法強調廠商需要有非常先 進或客制化的技術能力,一般而言,需要的技術能 力有三種:提供分類訓練工具、提供預設分類架構 和提供自動建議分類機置。. 而分類的動作是一門相當專業的技術和學 問,且必須要搭配電腦的自動化處理,才能成為人 性與科技結合的最佳典範,從全球相關領域的技術 文獻中的經驗可得知,企業組織在規劃自動化文件 內容分類的設計方法時,主要有三種導入法,分別 是「樣本資料法」(Top Down)、「帶槍投靠法」 (Bottom Up)和「科學式混合法」(Scientific Hybrid)[7]。 「樣本資料法」也就是傳統的人工分類法,先 由參與的專業人員訂定分類架構,再讓他們依自己 的專業認知,選出符合各個分類的文件數百篇,上 傳系統之後,讓系統從這些文件中找出每個分類中 的「重要詞彙」,而將這些詞彙聚集起來,即是某 一個分類的「特徵集」,如此,日後若有新進文件, 經過系統判讀,發現這篇新進文件本身的特徵結構 與某分類的特徵集在比例上有一定的關係,即將之 自動歸類於這一個分類當中。此法的優點為,結合 專業人員的專業知識,使每個分類的特徵是由專業 人員間接配合系統訂出的,也因此會注意到文件內 容的上下文關係;面對大量資訊時,此法最符合工 作所需,主觀上也較準確;而此法的缺點為,專業 人員的專業素養不夠時,選出的樣本文件品質較 差,故所有產出的分類特徵都將有問題;此法過程 中有一個特徵詞彙除錯的動作,如果各專業人員沒 有達成共識,各自有自己的認定方式時,每一個分 類裡的特徵結構就會產生問題。. 二、相關研究和文獻探討 本研究所採用的 MMB 方式曾經於 1991 年在 美國伊利諾理工學院用來發展 MEDAS 醫療診斷 專家系統[14],目的是希望在醫生診斷的過程中, 由新病人的單一或多個病症,綜合先前其他病人的 歷史病例,推論出新病人患病的機率,儘可能推論 出更多的病症給醫生作為決策時的參考,以便協助 醫生正確無誤地開藥方給新病人服用。而 WSACS 的目的和 MEDAS 相仿,故 MMB 的概念可用於 WSACS,即在同一時間內,運用所有網站類別群 組個別的推論知識,自動計算出目標網站隸屬於第 H 層(最底層)的多目標類別之個別機率值,以便提 供使用者作為網站分類時的參考,進而提昇網站正 確分門別類的準確率。 現今一般的網站自動分類方式是把目標網站 集先分成二個部分,其中一部分先做為訓練資料集 (Training Data Set),訓練資料的目的是用來將各個 類別之特性探索出來,以便作為未來分類的依據所 在,故此步驟需要在進行分類動作之前先進行;另 一部分將做為測試資料(Testing Data),而測試資料 是用來測試分類依據的分類準確度,如圖 1 所示 [24]。 網站自動分類的步驟,一開始要將訓練網頁進 行文字處理(Text Processing),而文字處理主要是將 網頁中的文句資料轉換成為詞彙資料,而當網頁文 句處理完中文斷詞和去除常用字(Stop-List)步驟之 後,接下來要在文字處理步驟所產生的字詞集合中 找出能代表網站的關鍵詞集,也就是找出能代表網 站的特徵詞集,通常關鍵詞的萃取是利用詞彙在網 站內容網頁中所出現的頻率(Term Frequency,簡稱 TF)來計算此詞彙在網站中的權重計算。. 「帶槍投靠法」則是目前較炙手可熱的網站自 動分類方式,不需要客戶的參與,而提供自動分類 系統的廠商即主動提供一套完整的分類架構和每 一個分類裡的特徵集。以「醫藥產業」為例,由於 藥學已是一門百年學問,因此已有許多藥典的分類 架構和專有詞庫可供參考,而且行之有年沒有爭議 性,因此自動化系統是可以直接將之擷取引用的。 此法的優點為,相較於前述的「樣本資料法」,這 -2-.

(3) 三、研究方法和系統架構 訓練資料. 測試資料. (一)、研究方法 文字處理. 文字處理. 特徵分析. 特徵分析. WSACS 發展初期,將會廣泛參考國內外相 關的論文,以及目前網際網路上實際獲取的資訊, 也就是資料收集法,作為本研究的理論基礎所在; 接著,採用實驗驗證法,依據本研究引用的 MMB 理 論 實 作 出 一 個 WSACS , 並 藉 由 實 驗 來 驗 證 WSACS 之可行性[1][2][3][4][12]。. 相似度計算. (二)、WSACS 之系統架構. 類別參照 資料庫. WSACS 包括有三大模組,分別是知識建構、 推論引擎、知識學習模組,如圖 2 所示。而這三個 模組具有執行上的順序限制,且彼此之間呈現一種 相依相存的關係;亦即在知識建構模組建構好 MMB 推論知識庫後,推論引擎模組才能夠進一步 運用此 MMB 推論知識,配合 MMB 的推論方式, 推論出網站階層式類別決策資訊,而知識學習模組 也要在推論引擎模組推論出最適當的網站階層式 類別決策資訊後,才能著手進行詞彙、pij、 pij 值的 知識學習動作。知識建構模組當中的 MMB 推論知 識庫,攸關著推論引擎模組推論的結果是否準確; 而推論引擎模組所推論出的網站階層式類別決策 資訊,則攸關著知識學習模組是否能有效地對詞 彙、pij、 pij 值進行知識學習的動作;而知識學習模 組當中新生的詞彙、pij、 pij 值品質是否良好,則牽 動著知識建構模組當中的 MMB 推論知識品質是 否變好。故 WSACS 中三個模組間的關係是環環相 扣缺一不可的。. 已分類的網站區 網站 1. …. 網站 N. 圖 1 常見網站自動分類的步驟. 至於文件自動分類方面,早期文件被抽象化為 關鍵字與重要性數字的關係後就可以套用到一般 的機器學習與分類技術,自動文件分類器在近年來 已有相當多學者投注其研究上,像是知名的貝氏機 率模型[20][31][32]、支撐向量機(Support Vector Machine)[17][26][27][28][32]、及 KNN(K Nearest Neighbor) [23][30][31][32]。 「貝氏機率模型」是一個基於機率理論的分類 方法。在特徵選取後,由已知文件計算出該特徵與 該類別之間的條件機率關係,分類時藉由此機率關 係計算文件屬於各類的機率,由其中選出機率最高 的類別作為該文件的類別。但這樣的方法的表現並 不理想,主要由於它對各特徵間的獨立假設。且容 易因訓練文件中包含文件較多的大類而有所偏 差,特徵對各類別的分別意義在這個方法中不容易 顯現出來。. WSACS. 知識建構 模組. 「SVM」它能夠將原有的訓練資料所在的空 間 X 透過 Mercer 核心運算子(Kernel Operator)轉換 成另一個更高維的空間。它的目標是自中找出一個 最佳的分割超平面(Hyper-Plane),這個超平面能夠 達到將兩類點分得最開,也就是有最大的邊界 (margin)。這個超平面僅是由訓練資料在空間中的 點中與該平面距離 1/|w| 的點決定,若僅以這些點 訓練,會得到相同的支撐向量(Support Vector)。其 可以獲得統計學習理論上依訓練資料所得的最佳 結果[29],但相較於其他方法它的計算量顯得相當 龐大。「KNN」這個方法利用待分文件和其鄰近 的文件相似,所以待分文件可以依鄰近文件的類別 來判斷它的類別,其主要的缺點為計算可能相當費 時[18]。. 推論引擎 模組. 知識學習 模組. 圖 2 WSACS 之系統概念圖 圖 3 為 WSACS 之運作流程圖,總共包括有三 個模組、七個主要處理元以及三個延伸處理單元。 其中,三個模組包括有知識建構模組、推論引擎模 組以及知識學習模組;七個主要處理元,包括有知 識來源處理元[6]、知識擷取處理元、知識過濾處 理元[8]、知識表示處理元、MMB 推論引擎處理 元、網站分類目錄辨識處理元和知識學習處理元; 三個延伸處理單元,則包括有知識創新處理元、科 技創新處理元以及知識價值處理元。. -3-.

(4) 1.知識來源 網站內的所有網頁文字 (網站結構、內容探勘:滲透測試). 2.知識擷取(名詞) CKIP 斷詞單元 一、知識建構模組. 一、知識建構模組. 3.知識過濾 去除贅詞單元和同義詞決定單元. 4.知識表示法 知識創新 「pij、 p ij」. 類別. 網站 數量. 出現 次數. pij. p ij. 5.MMB 推論引擎. 科技創新. 推論第 H 層類別. WSACS. 6.網站分類目錄辨識 上推第 H 層以上的 所有父類別. 二、推論引擎模組. 二、推論引擎模組. 知識價值 自動推論出中文 網站階層式類別. 詞彙. 三、知識學習模組. 三、知識學習模組. 7.知識學習 新生網站的「詞、pij、 p ij」. 圖 3 WSACS 之系統架構圖 如圖 3 所示,WSACS 當中的每一個處理元之 間都存在著牽一髮而動全身的關係,故網站分類人 員只要缺少或省略其中任何一個處理元,都將有可 能導致 WSACS 最終所推論出來的網站階層式類 別決策資訊不夠準確。而 WSACS 當中較為重要的 處理元,不外乎是知識來源、知識擷取、知識過濾 以及知識學習四個處理元;其原因如下所示:由於 倘若 WSACS 未能從一個品質佳的知識來源取得 推論知識,儘管其採用再好的知識擷取與知識過濾 技能都只是白費工夫,而 WSACS 由知識來源處理 元取得知識後,若未經過知識擷取和知識過濾處理 元的處理,則這些網站的資訊是無法成為其真正所 需的 MMB 推論知識,而 WSACS 將有可能會因此 推論出錯誤的決策資訊;此外,WSACS 假若使用 了這些品質不佳的網站階層式類別決策資訊進行 MMB 推論知識學習的動作,則 MMB 推論知識庫 的整體品質將會不斷地被破壞,終將面臨毫無參考 價值的窘境。. WSACS 的第 H 層(最底層)MMB 推論知識庫 是由兩種數值所建構而成,分別是 P(Wj Bi )(以 pij 代表)和 P(Wj B i )(以 p ij 代表 )。pij 代表在類別 Bi 裡的所有知識訓練網站樣本中詞彙 Wj 出現的機 率值,而 WSACS 根據詞彙 Wj 在類別 Bi 裡的知識 訓練網站樣本中所出現之次數,來標示「K1 」 (K1≧1),倘若詞彙 Wj 沒有出現,則標示「0」 ;而 p ij 代表在類別 B i 裡的所有知識訓練網站樣本 中,詞彙 Wj 會出現的機率,WSACS 根據詞彙 Wj 在類別 B i 裡的知識訓練網站樣本中所出現的次數 來標示「K2」(K2≧1),倘若詞彙 Wj 並沒有出現, 則標示「0」即可。而 MMB 推論知識庫當中,有 關計算詞彙 pij 和 p ij 值的公式之介紹及說明,則如 公式(1)(計算 pij 值)和公式(2)(計算 p ij 值)所示 [14][16]。 p ij = P (W. pi. -4-. j. = P (W. j. j. 非 " 0 " 的數量 屬於類別B i 的網站數. ,1 ≤ i ≤ m ,1 ≤ j ≤ Q. (1). 非 " 0 " 的數量 不属於類別B i 的網站數. ,1 ≤ i ≤ m ,1 ≤ j ≤ Q. (2). Bi ) =. Bi ) =.

(5) 在介紹完有關計算詞彙 pij 和 p ij 值的公式之 後,接下來將進一步地介紹有關 MMB 公式的相關 說明,如公式(3)所示。. 四、網站自動分類方式之綜合探討 (一)、WSACS 之系統運作流程介紹. P(Bi W1,W2, ...,Wn) =. 本文的實證探討將會分成三個部分來切入說 明,分別是「知識建構模組」 、 「推論引擎模組」和 「知識學習模組」,而詳細的介紹和說明如下所 示:. P(Bi )×P(W1 Bi )×...×P(Wn Bi ) (3). P(Bi )×P(W1 Bi )×...×P(Wn Bi ) +(1−P(Bi ))×P(W1 Bi )×...P(Wn Bi ). *知識建構模組之範例. 其中,WSACS 將 P(Wj Bi ) 以 pij 代表、P(Wj. 首先,網站分類人員必須先決定 WSACS 的網 站分類目錄架構之階層數 H(H>0)為何[9],然後開 始著手建構第 H 層的網站分類目錄架構,如圖 5 所示。. B i ) 以 pij 代表 、 P(Bi W1 , W2 , ...,Wn ) 代表目標網 站包含有詞彙 W1 , W2 ,…, Wn 後屬於類別 Bi 的後 天機率值,而 P( Bi )則是目標網站屬於類別 Bi 的 先天機率值,WSACS 將 P( Bi )的值預設為 0.5,這 代表一開始在沒有任何預設立場的情況下, WSACS 欲判別的目標網站屬於第 H 層各類別. Å第 1 層. ( B1 , B2 ,…, Bm )的個別機率值均相等。其中, 1≦i≦m;1≦j≦n。. …... …... ….. Å第 2 層~第 H-1 層. (三)、WSACS 之相關分類議題 WSACS 目前所提及的相關分類議題共有三 個,分別為階層式類別、多重類別和新增類別。其 中,「階層式類別」[5]為 WSACS 的加值功能,亦 即當 WSACS 已判別出網站的最底層類別時, WSACS 便會藉由事先建構好的網站分類目錄架構 來上推出目標網站完整的階層式類別隸屬;「多重 類別」為當網站藉由 MMB 公式運算完畢後,有一 個以上的候選類別項之後天機率值高於門檻值 0.8,則這些候選類別項(多筆)皆有可能為網站的類 別隸屬;如圖 4 所示,「新增類別」為當沒有一個 候選類別項之後天機率值高於 0.6,則 WSACS 會 將其分入「其他」類別當中,待日後其他類別當中 的網站數量增加到一定的程度,WSACS 未來將會 嘗試藉由這些目標網站的關鍵詞集之 TF(Term Frequency)值和 IDF(Inverse Document Frequency) 值[19][21][22]來尋找詞彙集中的相關性,進一步去 克服新增類別的瓶頸。. 1. 建構第 H 層之候選類別項 Å第 H 層. B1. 圖 5 WSACS 中 H=3 的網站分類目錄架構 其次,WSACS 將以類別 B1(職棒)、類別 B2(大 學)和類別 B3(醫院)這三個類別為例,其中,取類 別 B1(職棒)的知識訓練網站樣本數共 30 個、類別 B2(大學)共 50 個和類別 B3(醫院)共 70 個,如表 1 所示。 表 1 WSACS 中第 H 層(H=3)的各類別知識訓練 網站樣本範例 Bi:類別 B1:職棒 B 1:{B2 , B3} B2:大學 B 2:{B1 , B3} B3:醫院 B 3:{B1 , B2}. 1 (一) 單一類別(1 筆)、多重類別(多筆). 0.8. 0.8 (二) 選擇機率值最高者. 0.6. 0.6 (三) 將網站列到「其他」類別當中. 0. Bm. 網站名稱 1 中信鯨,…,30 兄弟象 1 三民書局, ... ,120 榮總醫院 1 文化大學,…,50 台灣科技大學 1 文化大學,…,100 榮總醫院 1 長庚醫院,…,70 榮總醫院 1 中信鯨,…,80 台灣科技大學. 最終,運用計算 pij 和 p ij 的公式,開始建構第 三層類別 B1、類別 B2 和類別 B3 個別的 MMB 推論 知識,表 2、表 3、表 4 為這三個類別個別的 MMB 推論知識部份範例。. 0 圖 4 WSACS 之系統概念圖 -5-.

(6) 表 2 WSACS「B1:職棒」類別的 MMB 推論知 識範例 Wj W1:投手 W2:捕手 ………. P1 1:P(Wj B1) 0.91 0.88 ………. 在求得天下網路書店的網站詞集後,WSACS 的推論引擎模組便會將這些詞集個別代入多目標 類別的 MMB 推論公式當中,如表 6 所示。. p 1 1:P(Wj B 1) 0.25 0.22 ………. 表 6 天下網路書店網站 H=3 之多目標類別 pij、p ij 值 類別編號 A0002 A0002 A0018 A0018 A0033 A0033 …. 表 3 WSACS「B2:大學」類別的 MMB 推論知 識範例 Wj W1:老師 W2:學生 ………. p1 2:P(Wj B2) 0.92 0.91 ………. p 1 2:P(Wj B 2) 0.32 0.35 ………. Wj. p1 3:P(Wj B3) 0.92 0.88 ………. 詞編號 C0001 C0028 C0001 C0028 C0001 C0028 …. 詞名 書名 作者 書名 作者 書名 作者 …. pij 0.69 0.65 0.61 0.57 0.89 0.90 …. p ij 0.22 0.32 0.32 0.29 0.33 0.36 …. 由表 6 可以清楚地看出在每一個類別當中,其 所擁有的詞彙之 pij、 p ij 值大都不一致,也正因為 如此,將天下網路書店網站的網站詞集代入多目標 類別個別的 MMB 公式後,搭配每一個類別其所屬 的 MMB 推論知識,將會產生高點網站書店網站屬 於多目標類別個別的後天機率值,如表 7 所示。. 表 4 WSACS「B3:醫院」類別的 MMB 推論知 識範例 W1:醫生 W2:護士 ………. 類別名 教學資源 教學資源 線上教學 線上教學 網路書店 網路書店 …. p 1 3:P(Wj B 3) 0.30 0.25 ………. 表 7 天下網路書店網站隸屬於 H=3 之多目標類 別個別機率值 *推論引擎模組之範例. 類別編號 A0002 A0008 A0018 …. 在 WSACS 開始推論動作之前,WSCS 會事先 建構好第 H 層(假設 H=3)的網站分類目錄架構,如 圖 5 所示。在建構好 WSACS 第 H 層的網站分類 目錄架構之後,使用者便可以開始推論目標網站的 類別隸屬。 假設網站分類人員現在要把「天下網路書店」 這個目標網站進行分類的處理,則首先輸入天下網 路書店網址列 http://www.cwbook.com.tw/cw/T1.jsp 到 WSACS 當中;而 WSACS 會運用網站結構探勘 和網站內容探勘的方式(應用程式滲透),將天下網 路書店這個網站的所有內容網頁超連結架構和中 文文字彙總成一個文件,然後交由 CKIP 斷詞器(斷 詞單元)進行斷詞的動作,並進一步透過去除贅詞 單元和同義詞決定單元的加值處理(去除重疊詞、 一字詞和同義詞等贅詞),進而產生如表 5 的網站 詞集。. 詞名 書名 定價 作者 考試 出版商 …. 網站編號 B0001 B0001 B0001 B0001 B0001 …. 後天機率值 0.91 0.85 0.69 …. 排名 1 2 3 …. WSACS 為了減少網站分類錯誤的情況發生, 故設定候選類別其機率值的門檻至少要高於 0.8, 而 WSACS 也會挑選機率值高於 0.8 的所有候選類 別項,作為 WSACS 推薦給使用者 H=3 的類別可 能項;其中,表 7 還會將所有候選類別的機率值由 高至低排序,以避免當全部的候選類別項之機率值 均低於門檻 0.8 時,WSACS 才能挑選機率值排名 前 3 高的候選類別,作為 WSACS 推薦給使用者目 標網站於 H=3 時的類別可能項的替代方案。 在 WSACS 產生了目標網站候選類別決策資 訊集後,發現了 0.91-0.85=0.06;WSCS 假設機率 值最高的候選類別項,減去機率值其次的候選類別 項的數值若大於 0.05,則可直接選取機率值最高的 候選類別項,作為目標網站最終的類別隸屬,而此 例 0.06>0.05,故 WSACS 便會直接挑選「網路書 店」這個候選類別決策資訊,作為高點網路書店網 站最終的類別隸屬;但倘若今天機率值最高的候選 類別項,減去機率值其次的候選類別項的數值若小 於 0.05,則 WSACS 將會拿目標網站當中的網站詞 集作為判斷的依據,也就是比較網站詞集個別在這 些候選類別當中,其累積出現的次數最多,即為目. 表 5 天下網路書店網站的網站詞集 詞編號 C0001 C0008 C0028 C0045 C0088 …. 類別名 網路書店 圖書資源 線上教學 …. 出現次數 72 65 81 19 8 …. -6-.

(7) 上推出目標網站的第 1 層到第 H-1 層;而「知識學 習」鍵則可以快速地學習詞彙、pij 和 pij 值。. 標網站最終的類別隸屬,而 WSACS 期望藉由這樣 的方式,能夠秉持著用最客觀的方式來獲取最客觀 的結果之願景。而在確認好目標網站的類別後, WSACS 會將目標網站當作一個新的知識訓練網站 樣本,將目標網站的詞、pij、 pij 值作知識學習的動 作,進一步不斷地更新及修正 MMB 推論知識庫。 *知識學習模組之範例 延續上述之範例,當 WSACS 確認「天下網路 書店」網站的最終類別為「網路書店」時,WSACS 便將其視作為一個新的知識訓練網站樣本,並開始 著手知識學習的動作,而表 8 為部分知識學習後 H=3 之多目標類別 pij、 p ij 值之範例。. 圖 6 WSACS 之系統主畫面 圖 7 為 WSACS 知識建構模組的第一步驟,使 用者依序選擇知識訓練網站樣本的網站類別、輸入 知識訓練網站樣本的名稱和網址,然後,按下「擷 取」鍵,WSACS 即會開始探勘網站的超鏈結架構 和網頁的中文文句。. 表 8 知識學習後 H=3 之多目標類別的 pij、 p ij 值 部分範例 類別編號 A0002 A0002 A0002 A0018 A0018 A0018 A0033 A0033 A0033 …. 類別名 網路書店 網路書店 網路書店 線上教學 線上教學 線上教學 教學資源 教學資源 教學資源 …. 詞編號 C0001 C0028 C0352 C0001 C0028 C0352 C0001 C0028 C0352 …. 詞名 書名 作者 拍賣 書名 作者 拍賣 書名 作者 拍賣 …. pij 0.92 0.89 0.75 0.62 0.52 0.58 0.58 0.67 0.49 …. p ij 0.34 0.23 0.37 0.36 0.27 0.38 0.39 0.26 0.40 …. 由表 8 可看出,加上底線的部分為經過知識學 習模組的處理後所產生的變化。其中,WSACS 由 天下網路書店網站當中學習到一個新的網站詞彙 「拍賣」,故立即新增並計算其多目標類別個別的 pij、 p ij 值;其次,由於高點網路書店網站這個新 的知識訓練網站樣本的加入,而又因為其網站類別 已確定為「網路書店」,故在 WSACS 完成知識學 習的動作後, 「網站書店」類別的 pij 值會較其它非 「網站書店」類別的 pij 值變動幅度大,相反地, 非「網站書店」類別的 p ij 值也會較「網站書店」 類別的 p ij 值變動幅度大,其原理如公式(1)和(2) 所示。. 圖 7 WSACS 知識建構模組的第一步驟 圖 8 為 WSACS 知識建構模組的第二步驟,使 用者按下「斷詞程式」鍵可啟動 CKIP 斷詞器,接 著按「下一步」。. (二)、WSACS 之系統運作流程介紹 此段落將以分段說明的方式來介紹和說明 WSACS 之運作流程,期望藉由這樣的方式讓讀者 能夠更瞭解 WSACS 的真諦。 圖 6 為 WSACS 之系統主畫面,而 WSACS 的 執行流程為,運用「知識建構」鍵來輸入網站的類 別、名稱和網址,接著,執行四個步驟,然後, 「顯 示樣本資料」鍵可以快速地顯示樣本資料;運用「推 論網站類別」鍵來推論目標網站類別,接著,執行 四個步驟,然後,按「顯示後天機率值」鍵即可確 認第 H 階層類別,且 WSACS 會在同一個時間內. 圖 8 WSACS 知識建構模組的第二步驟 -7-.

(8) 圖 12 為 WSACS 之推論引擎模組的第一個步 驟,和知識建構模組的第一個步驟不同的是,使用 者不需要指定目標網站的類別,WSACS 會以目標 網站的辭彙為推論依據,推論出目標網站的類別隸 屬。. 圖 9 為 WSACS 知識建構模組的第三個步驟, 按下「斷詞程式」鍵,並選擇「開啟」鍵;使用 CKIP 斷詞器去開啟「ABC.txt」 ,並進行斷詞分析; 並且按下「另存新檔」鍵,檔案要存在[WSACS] 的目錄下,檔名為「DEF.txt」 ;結束後請關閉 CKIP 斷詞程式並按下[下一步]鍵。. 圖 12 WSACS 推論引擎模組的第一個步驟. 圖 9 WSACS 知識建構模組的第三步驟. 至於推論引擎模組的後三個步驟則和知識建 構模組一致,故不再贅述。而圖 13 為 WSACS 推 論目標網站類別隸屬的結果,使用者按下「顯示後 天機率值」鍵,WSACS 即會推論出目標網站隸屬 於多目標類別的個別機率值,並進一步挑選後天機 率值最高的候選類別項,作為目標網站第 H 層(第 3 層)的正確類別項,同一時間內,WSACS 也會推 論出目標網站的階層式(第 1 層到 3 層)類別隸屬。. 圖 10 為 WSACS 知識建構模組的第四個步 驟,按下「開始計算」鍵,WSACS 即會開始運算 網站詞集的 pij 和 pij 值,產生網站詞集更新後的 pij 和 pij 值,用以達到知識學習的目的。. 圖 10 WSACS 知識建構模組的第四個步驟 圖 13 WSACS 推論網站類別隸屬的結果 圖 11 為顯示知識訓練網站樣本資料,使用者 只要按下「顯示樣本資料」鍵,WSACS 即會顯示 使用者所選定類別的知識訓練網站樣本集合的詳 細資訊,包括「數量」 、 「擁有之詞彙數量」…等等。. 在推論完目標網站的類別隸屬後,此一目標網 站將會被視為一個新生的知識訓練網站樣本,並針 對其辭彙、pij 和 pij 值做學習的動作,如圖 14 所示。. 圖 14 WSACS 之知識學習模組的知識學習結果. 圖 11 顯示知識訓練網站樣本資料 -8-.

(9) 否則倘若 WSACS 持續將一些較難辨識類別的網 站放置在「其他」的類別當中,這樣的做法將會大 幅降低 WSACS 的價值。有鑑於上述之考量, WSACS 未來將嘗試針對被歸類到其它類別當中的 知識訓練網站樣本,從中擷取具代表性的關鍵字以 作為新類別的規則所在,而至於新類別的名稱,則 將會以詞頻前 5 高的關鍵字為依據來命名。. (三)、各分類方式的比較表 本研究以 118 個知識訓練網站樣本,針對 WSACS 採用的 MMB 分類方式之實證結果,搭配 嚴謹的人工[7]、不嚴謹的人工[7]、Bayesian[11]、 向量[10]、Metadata[25]、Naive Bayes[13]和 Hybrid Method of Combining a Dictionary-Based Technique and a kNN Classifier[33]這七種的分類方式之研究 結果,本研究以「準確率」 、 「範圍限制」 、 「花費時 間」 、 「複雜度」和「客觀度」這五個評比項目,彙 整了一個簡易的比較表,至於詳細的數據資料如表 9 所示。. (二)、有效地拉大「誤差門檻值」 由於 WSACS 所預設的誤差門檻值為 0.05,這 代表後天機率值集當中,倘若 WSACS 計算出之機 率值第 1 高的候選類別項和其它的機率值集之差 距大於 0.05,WSACS 便會直接認定機率值第 1 高 的候選類別項為目標網站最終的類別隸屬;反之, 倘若 WSACS 計算出之機率值第 1 高的候選類別項 和其它的機率值集之差距小於 0.05,WSACS 未來 的工作,便是使用一個有效的方法將誤差值拉大, 讓分類結果更具有說服力。. 表 9 MMB 分類方式與其他分類方式的比較表 評比項目 分類方式 [1]MMB(2005) [2]嚴謹的人工 [3]不嚴謹的人工 [4]Bayesian(2003) [5]向量(2002) [6]Metadata(2001) [7]Naïve Bayes(2001) [8]Hybrid(2003). 花 費 時 間 中 長 中 短 長 短. 複 雜 度. 客 觀 度. 0.88 0.90 0.70 0.80 0.85 0.85. 範 圍 限 制 無 無 無 有 無 有. 低 高 高 低 高 中. 高 高 中 低 中 低. 0.66. 有. 短. 中. 低. 0.77. 有. 短. 中. 中. 準 確 率. (三)、挑選網站鏈結結構「最底層」的網頁群組作 為推論知識之訓練範圍 有鑒於 WSACS 目前蒐集推論知識的範圍,為 網站內每一階層的網頁內容中文文句,故在處理時 間上將會耗去太多的時間,然而,在我們的研究當 中發現,網站當中含有一些和網站類別隸屬毫無關 聯的雜質網頁,分散在中間階層的網頁群組當中。 也因此,未來 WSACS 將會將「第一層」、「中間 層」 、 「最底層」和「綜合每一層」這四種方案做比 較,試圖去找出哪一種方案所擷取出的推論知識較 具代表性。在一些簡單的實驗中,我們赫然發現最 底層的網頁群組當中的辭彙較具代表性,未來 WSACS 將會採集更多的樣本來驗證此一假說,倘 若此假說成立,則 WSACS 的處理時間之效能將會 大幅提昇。. 由表一可看出,採用 MMB 來執行網站分類的 動作,不僅保有 88%的準確率,在「範圍限制」 、 「複 雜度」和「客觀度」都較其他的分類方式佳,目前 WSACS 仍有改進空間的地方即為「花費時間」, 故未來 WSACS 會致力於訂定更完善的規則,以便 能夠達成「以最少的推論知識,即能推論出最正確 的網站類別」之願景。. (四)、將「網頁鏈結」列入判斷網站類別隸屬的因 子「網頁鏈結」列入 近來已經有愈來愈多有關網站自動分類的技 術文章,將「網頁鏈結」列入判斷網站類別隸屬的 因子,期望藉由這樣的方式來提昇網站自動分類的 準確率和客觀度,未來 WSACS 也將會致力於探討 「網頁鏈結」是否真的會影響網站自動分類的結 果。. 五、未來展望 目前網站大多採單一主題分類(Multi-class), 但有許多的網站所討論內容屬於多主題, 因此在 分類上可能會產生錯誤現象, 未來我們希望能作 多主題類別(Multi-label, Multi-class)的研究, 以提 昇網站分類準確率。. (五)、可應用於「電子市集」 現今社會由於科技的持續進步,傳統的面對面 交易模式已演進成現今藉由網際網路來交易的電 子商務模式;而傳統上顧客必須到一般商店或市場 才能購買到的商品,現今也演變成為藉由電子市 集,顧客即可透過網際網路購買商品。然而,現今 網站市集最為人詬病的地方,不外乎是缺乏一套有 效的網站類別群組搜尋機制,以便利提昇網站市集 當中買賣雙方網站群組之品質,進而提昇顧客使用 其網站市集來購買或販賣商品的意願。. 至於 WSACS 未來的展望大致上還有以下三 點,詳細的敘述和說明如下所示: (一)、尋找更有效的「新增類別」方式 由於目前 WSACS 之網站分類目錄架構是綜 合各大入口網之網站分類目錄所建構而成,然而, 隨著時代的演進,未來 WSACS 仍然需要不斷有效 地新增網站類別項目,以維持網站分類的正確性, -9-.

(10) [2]. 李中彥、駱思安、林佑威,“網站分類系統推 論知識品質之提昇”,ICIM2005 第十六屆國際 資訊管理學術研討會,光碟論文集(場次: session A、場地:第 10 研討室、台北:輔仁大 學),2005.. [3]. 李中彥、駱思安、黃如盛,“應用 MMB 建構 中文網站階層式分類推論引擎”,2005 年學習 型知識社群與電子商務實務研討會,光碟論文 集(場次:2-1、場地:國際會議廳、論文接受 編號:2-1-2、台北:中國文化大學),2005.. [4]. 李中彥、駱思安,“以 Web Services 建構網站 分類推論系統”,2005ING 安泰管理碩士論文獎 暨研討會,光碟論文集(場次:411、類別:資 訊管理 7A 佳作、台北:台灣科技大學),2005.. [5]. 吳國榮,“階層式類別架構的學習於文件分類之 探討研究”,中正大學資訊工程研究所,碩士論 文,2000.. [6]. 吳宜鴻,“全球資訊網資料之分析、索引與擷 取”,清華大學資訊工程研究所,博士論文, 2000.. [7]. 邱志宏,“個人網路資訊管理系統及其網頁分 類方法之研究”,銘傳大學資訊管理研究所,碩 士論文,2002.. [8]. 唐大任,“中文斷詞器之研究”,交通大學電信 工程研究所,碩士論文,2001.. [9]. 張啟峰,“整合階層式分類目錄的演算法設計 及評估”,中正大學資訊工程研究所,碩士論 文,2001.. [10]. 曾耀順,“在超連結環境下針對資訊分類相關 權威網頁之探勘”,成功大學電機工程研究所, 碩士論文,2002.. [11]. 游佳琪,“網站類別辨識推論系統及知識管 理”,中國文化大學資訊管理研究所,碩士論 文,2004.. [12]. 感謝中央研究院的中文知識庫小組,免費提供 CKIP 中文斷詞程式給本研究作為學術上的研究根 基 , 而 斷 詞 程 式 的 網 址 來 源 為 http://ckip.iis.sinica.edu.tw/CKIP/ws/。. 駱思安,”以 Web Services 建構中文網站階層 式分類推論系統”,中國文化大學資訊管理研究 所,碩士論文,2005.. [13]. A. McCallum et al., “A Machine Learning Approach to Building Domain-Specific Search Engines”, in proceedings of the Sixteenth International Joint Conference on Artificial Intelligence (IJCAI-99), 1999, pp. 662–667.. 八、參考文獻. [14]. C.-Y., Lee、C.-C., Yu, “Decision on Classifying Chinese Commercial Web Sites by Bayesian Approach,” in proceeding of the Fourth Annual Hawaii International Conference on Business, 2004.. [15]. C.-Y., Lee、Evens, M.、Carmony, L.、 Trace, D. A.、Naeymi-Rad, F., “Recommending Tests in a Multimembership Bayesian Diagnostic Expert. 未 來 WSACS 將 可 以 採 用 多 重 代 理 人 (multi-agent) 的 機 制 , 建 構 三 個 智 慧 代 理 人 (intelligence agent),分別為買方、賣方和公正第三 者三種類型的網站群組,透過 WSACS,使用者可 以快速地建構好這三種類型的網站群組,藉此來建 構一個品質良好的電子市集平台。且由於 WSACS 可以做多目標類別的分類,故屆時運用 WSACS 所 建構的電子市集,其所屬的類型便會趨於多元化, 而不會有範圍上的限制,且由於 WSACS 之網站分 類的準確率很高,故確保了電子市集平台當中買 方、賣方和公正第三者,其網站群組的正確性,進 而提供了使用者一個建立品質良好的電子市集平 台之工具。. 六、結論 隨著網際網路的日新月異,網站的數量將會呈 倍數成長,也因此運用有效的網站自動分類技術, 將可替代繁瑣又需要耗費大量人工處理的資料分 類作業,進而大幅地改進網站管理的效率。而本研 究進一步彙總中文網站自動分類技術能帶給應用 者的好處有,「強化網站管理的效率」、「增進知識 管理的效能」和「大幅減少人力、時間和成本」三 點。為了要有效地獲取上述的三個好處,本研究提 出了三個提昇效能方法,分別為「去除多餘的推論 知識」 、 「將推論知識最佳化」和「不斷地作知識學 習的動作」,期望藉由這樣的方式來提昇 WSACS 「分類準確率」和「系統處理時間」的效能。 目前 WSACS 在自動辨識網站類別的準確率 之效能已達到 88%的高水準,明顯較其他的網站自 動分類方式來的好,然而,系統處理時間較長的問 題則是目前 WSACS 迫切需要解決的地方,也因此 未來 WSACS 將會把重心放在提昇「系統處理時 間」的效能。. 七、誌謝. [1]. 李中彥、駱思安、吳宏文,“MMB 中文網站階 層式分類推論知識之建構”, 2004 年國際資訊 管理暨電子商務經營管理研討會,光碟論文集 (場次:3-3、論文發表編號:IN3-6、嘉義:南 華大學),2004. -10-.

(11) Text Classification for Support Vector Machines,” in proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval, 2001, pp.128-136.. System,” in proceedings of the Fourth Annual IEEE Symposium on Computer Based Medical Systems, 1991, pp. 28-35. C.-Y., Lee, “On Using Bayesian Approach Recognizing Chinese Electronic Bookstore Web Sites”, in proceeding of the Tenth ISSAT International Conference (Reliability and Quality in Design), 2004, pp. 290-294.. [16]. [17]. [18]. [19]. T. Joachims, “Text Categorization with Support Vector Machines: Learning with Many Relevant Features”, in proceedings of 10th European ECML Conference on Machine Learning, 1998, pp.137-142.. [28]. G. Siolas、F. d’Alché, “Support Vector Machines based on a Semantic Kernel for Text Categorization”, in proceedings of the IEEE-INNS-ENNS International Joint Conference on, 2000, pp.205-209. Jyh-Jong Tsay 、 Jing-Doo Wang, “Improving Automatic Chinese Text Categorization by Error Correction”, in proceedings of Information Retrieval of Asian Languages(IRAL ’00), 2000. K.-J., Chen、S.-H., Liu, “Word Identification for Mandarin Chinese Sentences”, in proceedings of COLING92, 1992, pp.101-107.. M. Sasaki 、 K. Kita, “Rule-Based Text Categorization Using Hierarchical Categories,” in Proceedings of SMC-98, IEEE International Conference on Systems, Man, and Cybernetics, 1998.. Oh-Woog Kwon、Jong-Hyeok Lee, ”Web Page Classification Based on k-Nearest Neighbor Approach”, in proceedings of the 5fth international workshop on Information retrieval, 2000, pp.9-15.. [23]. R. Ghani、S. Slattery 、Y. Yang, “Hypertext Categorization Using Hyperlink Patterns and Metadata,” in proceedings of ICML-01, 18 th International Conference on Machine Learning, 2001.. S. Dumais、H. Chen, ”Hierarchical Classification of Web Content,” in proceedings of the 23rd International ACM SIGIR Conference on Research and Development in Information Retrieval, 2000, pp.256-263.. [26]. [27]. [31]. Y. Yang, ”An Evaluation of Statistical Approaches to Text Categorization”, 1999.. Y.-M., Chang 、 Y.-H, Noh, “Developing a specialized directory system by automatically classifying Web documents”, in proceedings of journal of information science”, 29 (2) 2003, pp. 117–126.. Mladenic, D.、Institute , J.S., “Text Learning and Related Intelligent Agent : A Survey”, in proceedings of IEEE Intelligent Systems, Intelligent Information Retrieval ,1999, pp.44-54.. [25]. W. Lam 、 C. Y. Ho, “Using A Generalized Instance Set for Automatic Text Categorization,” in proceedings of the 21th International ACM SIGIR Conference on Research and Development in Information Retrieval, 1998, pp.81-89.. [33]. [21]. Richardo Baeza-Yates、Berthier Ribeiro-Neto, “Modern Information Retrieval”, Addision Wesley Longman Limited, 1999.. [30]. Y. Yang、X. Liu, ”A re-examination of text categorization methods,” in proceedings of the 22th International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp.42-49.. Leah S. Larkey、W. Bruce Croft, “Combining Classifiers in Text Categorization,” in proceedings of the 19th International ACM SIGIR Conference on Research and Development in Information Retrieval, , 1996, pp.289-297.. [24]. V. Vapnik, The Nature of Statiscal Learning Theory. Springer, New York, 1995.. [32]. [20]. [22]. [29]. T. Joachims, “A Statistical Learning Model of -11-.

(12)

數據

圖 1  常見網站自動分類的步驟  至於文件自動分類方面,早期文件被抽象化為 關鍵字與重要性數字的關係後就可以套用到一般 的機器學習與分類技術,自動文件分類器在近年來 已有相當多學者投注其研究上,像是知名的貝氏機 率模型[20][31][32]、支撐向量機(Support Vector  Machine)[17][26][27][28][32]、及 KNN(K Nearest  Neighbor) [23][30][31][32]。  「貝氏機率模型」是一個基於機率理論的分類 方法。在特徵選取後,由已知文件
圖 9 為 WSACS 知識建構模組的第三個步驟, 按下「斷詞程式」鍵,並選擇「開啟」鍵;使用 CKIP 斷詞器去開啟「ABC.txt」 ,並進行斷詞分析; 並且按下「另存新檔」鍵,檔案要存在[WSACS] 的目錄下,檔名為「DEF.txt」 ;結束後請關閉 CKIP 斷詞程式並按下[下一步]鍵。  圖 9 WSACS 知識建構模組的第三步驟          圖 10 為 WSACS 知識建構模組的第四個步 驟,按下「開始計算」鍵,WSACS 即會開始運算 網站詞集的 p ij 和 p     ij 值,

參考文獻

相關文件

Classifying sensitive data (personal data, mailbox, exam papers etc.) Managing file storage, backup and cloud services, IT Assets (keys) Security in IT Procurement and

Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp.298-306.. Automatic Classification Using Supervised

Lu, Linear-time compression of bounded-genus graphs into information-theoretically optimal number of bits, in Proceedings of the Thirteenth Annual ACM-SIAM Symposium on

A dual coordinate descent method for large-scale linear SVM. In Proceedings of the Twenty Fifth International Conference on Machine Learning

Hofmann, “Collaborative filtering via Gaussian probabilistic latent semantic analysis”, Proceedings of the 26th Annual International ACM SIGIR Conference on Research and

“A feature re-weighting approach for relevance feedback in image retrieval”, In IEEE International Conference on Image Processing (ICIP’02), Rochester, New York,

Mehrotra, “Content-based image retrieval with relevance feedback in MARS,” In Proceedings of IEEE International Conference on Image Processing ’97. Chakrabarti, “Query

in Proceedings of the 20th International Conference on Very Large Data