建立個人化知識本體來輔助網路行為探勘

(1)

建立個人化知識本體來輔助網路行為探勘

陳榮昌蔡旺典

朝陽科技大學資訊管理研究所朝陽科技大學資訊管理研究所

[email protected] [email protected]

摘要

傳統的網路行為探勘(Web Usage Mining)是以使用者在網站上的瀏覽序列(Navigation Pattern)來發覺使用者偏好。一般用使用者檔案(User Profile) 來記載使用者瀏覽的網頁和時間，它們對於網頁內容中概念間交互關係和彼此所延伸的語意卻無法描述，因此無法分析網頁與網頁間內容的差異性，

也無法進一步判斷使用者真正偏好的概念。為了改進此一缺失，本研究利用本體論所記載的字詞關係來分析使用者偏好。首先從使用者瀏覽過的網頁中萃取出重要的概念集合(concept set)，然後參考已存在的專家知識本體來建構個人化知識本體(Personal Ontology)。因此經過使用者長期瀏覽行為後，此一個人化知識本體將能代表使用者的特性，且可以更精確指出使用者想要的資訊。

關鍵詞：網頁探勘、個人化知識本體、語彙萃取、

使用者檔案、概念集合

1. 緒論

Cooley et al.(1999) 指出網路行為探勘 (Web Usage Mining)是先將使用者檔案進行瀏覽序列識別，再進行知識發現(Knowledge Discovery)，首先將使用者檔案原先複雜且多個目的瀏覽路徑簡化成單一的瀏覽路徑，再分析這些瀏覽路徑間的關連性。藉著使用者大量類似的瀏覽路徑和在不同瀏覽路徑上瀏覽時間的長短來找出使用者瀏覽網頁的關連性[18]。其中較有名的方法有 Agrawal 所提出 Apriori 演算法[4]、Büchner 所提出 MiDAS 演算法 [3]、Kate A. Smith 利用類神經群聚技術 SOM 開發了 LOGSOM 系統[10]。

Apriori 演算法是分析使用者瀏覽網頁中是否存在著兩個網頁經常性一同出現的關聯法則。 MiDAS 演算法則利用彈性的瀏覽樣版(Navigation Template)來定義使用者行為，整個瀏覽樣版透過文法定義來描述使用者的連續型樣。另外，LOGSOM 系統將使用者瀏覽記錄進行分群再用二維方式分析使用者特性。但上述方法中，經常被一起瀏覽的網頁內容上是否存在著緊密或鬆散的語義關聯，或是使用者在同一時間對相同概念所進行的瀏覽動作並無法用瀏覽路徑所表現出來。因此，本研究利用個人化知識本體來彌補使用者檔案的缺失。

知識本體是用來記載所有語義字詞的關聯，近年來最被人所提到的就是 Gruber 所提的定義：「本

體論是對於群體共享的概念化之正式的、明確的表示形式」。其中所謂的概念化是指對已存在的領域的實體之相關概念描述模型，「共享」指的是知識本體本身是可以被多人重覆使用，而非屬於個人的。「正式的」指的是知識本體本身是可以被電腦所理解的，「明確的」指的是知識本體的模型和概念模述應該要被明確的方式規定出來。[1]知識本體主要由三大要素所構成：實體 (entities) 、屬性 (attributes)、關聯(relations)三個概念所組成的。「實體」它類似一般的名詞，可泛指所有事物。「屬性」

為不同概念下所有的特性，例如顏色、大小、種類等等。「關聯」指的是實體與不同屬性間所存在的關係(例如 is_a, has_sub_of…等)[5][8]。

本研究提出依據使用者瀏覽行為來建立個人化知識本體以萃取使用者的偏好。系統首先分析使用者瀏覽網頁中萃取出概念集合(Concept Set)，並參考已存在專家知識本體中與概念集合有語義關聯的部份而形成個人化的知識本體 (Personal Ontology)。這樣的方式可以帶來以下的優點：

(1) 搜尋更精確

個人化知識本體所包念的概念，不僅包含使用者瀏覽過的網頁的相關概念，還包括與概念集合有語義關連的字詞，因此可以提高使用者搜尋的滿意度。

(2) 加快回應時間

專家定義的知識本體是一個相當完整且可靠的知識本體，但越完整的知識本體回應時間就越長，所以針對使用者常用的概念建立的知識本體，將可有效的提高搜尋速度且不失去原本的精確度。

(3) 不用考慮太多建構問題

使用者只要經過一段時間的瀏覽，自然就可以產生符合自己的個人化知識本體，不用牽扯太多的建構參數或條件設定的問題。

2. 個人化知識本體(Personal Ontology)

哲學家 Bunge 認為本體論在哲學上的定義是對於現實世界中所存在的實體用系統化的方式描述，且不限制用任何特定方式表示[11]。個人化的知識本體就是依使用者本身的想法和喜好所建構的。在 Huhns and Stephens 在「Personal Ontologies」

的文章中提到個人化知識本體具下列重要功能 [14]：

(2)

(1) 支援離線功能將比線上功能更加有效除了可以對網頁進行分析外，還可以對於自己本身檔案系統或文件資料進行分類整理的動作。

(2) 支援瀏覽和搜尋的動作

搜尋動作將變的更有效率，因為電腦可以得知使用者想知道什麼樣的資訊而可以縮小搜尋範圍以及更明確的呈現搜尋結果。

(3) 粗糙或精細取得平衡在本身的定義上如果包含太多種類時，會造成很難選到正確的種類，但如果包含太少種類時，又可能不足以去描述種類之間的不同。

(4) 支援時間性的排序

可以定義最新常看的文章、網頁和分別不同時間段所瀏覽的文章。

一個好的個人化知識本體除了具備知識本體概念外，更要符合使用者本身知識的架構方式，這樣才能忠實地表現出使用者偏好。如此一來，使用者就不用費心過濾所有接收到的文件或網頁，系統也可以提供更多自動化服務，如 Daisuke Kanjo 在

「A3: Framework for User Adaptation using XSLT」

論文中提到”Adaptation Anywhere & Anytime(A3)”

的架構[7]，利用使用者知識本體管理程式(User Ontology Manager, UOM)來依據使用者需求或喜好來建立個人化知識本體，當使用者瀏覽網路資料時，從使用者知識本體資料庫(User Ontology Server, UOS)中找出知識本體適當部份來提供使用者使用。未來的個人化知識本體不單單僅限於應用在網路上的文件，還包含個人系統的檔案文件以及手機、PDA 等 3C 產品中的資料。

由於知識本體具備「Reuse」的概念，它具有容易被使用者重覆利用、複製和合併的能力。使用者可能不一定有能力建構知識本體，但卻可以輕易地使用相關知識本體。近年來，如何將已存在的知識本體合併建構出新的知識本體已成為熱門的研究主題。目前已有不少專家所建構出的知識本體，例如奇摩網頁，在 Yannis Labrou 的「Yahoo! as an ontology: using Yahoo! categories to describe documents」[20]中有證明奇摩入口網站上的網頁分類結構已符合了本體論的定義。在目前現有的奇摩網頁下，已有 151763 的主題，其內容包括有藝術、

企業和經濟、電腦和網路、教育…等等。奇摩網頁的分類項目如圖一所示：

圖 1 奇摩頂端層級種類圖(資料來源[20]) 另外，IEEE 標準上層知識本體工作小組也建置了 SUMO 系統[21]，SUMO 是 Suggested Upper Merged Ontology 的縮寫，意思是建議上層共用知識本體，它能幫助建立未來的語義網上的資料互通性、資訊搜尋和檢索、自動推理和自然語言處理等。它是以最高層次的知識本體為基礎去衍生其他特殊領域的知識本體，目前已經和英語詞彙網路 WordNet1.6 版本作了初步的連結。

3. 語彙萃取(Term parse processing)

語彙萃取的目的在於將整篇文章的關鍵字萃取出來。一篇文章中除了關鍵字外，還包括著許多贅字、量詞、標點符號等無意義卻佔著不少篇幅的字，因此需要進行語彙萃取來加快分析速度。下列是許正欣[1]論文中修改 Ricardo、Berthier[17]所提到的萃取步驟：

(1) 去除文件格式

首先去除因不同格式或資料來源所產生的格式，例如程式碼、格式設定、樣式字型…等等，只取出本研究所需的資料流 (Data stream)。

(2) 語彙分析(Lexical Analysis)

將第一步驟所得的資料流轉換成字詞(Term) 所組成的集合。例如去除中英文上的空白或標點符號等。

(3) 去除 Stop word(Elimination Of Stopword) 在英文句子中有 80%的字是不具任何意義的，有效的去除這些冠詞、介系詞或連接詞等對文章意義不影響但有著許多篇幅的字詞，並可以增快處理速度並減少處理的困難度。

(4) 去除衍生字(Stemming)

在英文文章中，許多字詞因為其不同的名詞、動詞、單複數等型態的不同而被視為不

(3)

圖 2 系統示意圖 同的單字，在此可以藉由分析字型的變化，

將不同型態的字型都以原型代替以增快處理速度。

(5) 同義詞典(Thesaurus)

在文章中會有許多同義異詞的字，必須參考同義詞典將這些字全部改變成同一個字詞。

經由這些步驟，本研究可以分析出使用者在不同網頁中所真正涵蓋的概念。

4. 建立個人化知識本體

本研究以個人化知識本體的方法來分析使用者的瀏覽網頁並紀錄網路使用者的特徵，當使用者開始瀏覽網頁後，系統從該網頁萃取其關鍵字來構成概念集合，這些概念集合若是個人化知識本體所沒有包含的，系統將參考已存在的專家知識本體(目前是參考奇摩站的分類機制)，找出相關概念並修改個人化知識本體。藉此使用者經過一段時間的瀏覽行為後，他的個人化知識本體將日趨成熟而成為代表他目前特性的個人化知識本體。圖 2 是系統的示意圖。

下面依序介紹建立個人化知識本體的步驟：

(1) 根據語彙萃取找出關鍵字

系統取得使用者在網路所瀏覽的網頁並透過詞彙萃取技術取出概念集合。首先去除文件格式，

例如在網頁中找出 HTML 語言或 Word 檔類文件檔中真正屬於內容的部份，例如：

LEGO.com: The Official Web Site of LEGO (r) products!

</a>

<br>

LEGO.com is the official LEGO web site which contains fun and engaging games, activities, and online shopping for LEGO toys.

<br>

這此 HTML 語言片段經過轉換後只取出”LEGO.com is the official LEGO web site which contains fun and engaging games, activities, and online shopping for LEGO toys.”。接著進行語彙分析，其主要目的在去除英文標點符號跟空白且段落分為每一個單字。依照上面例子則可以取出

「LEGO.com」、「is」、「the」、「official LEGO web site 」、「which」…等的字詞。這些字詞進行去除 stop word，將介系詞、冠詞、連接詞去除，然後去除衍生字，例如「activities」、「toys」是「activity」、

「toy」第三人稱單數的型態，所以在分析時以

「activity」「toy」來代替就好了。最後是運用同義詞字典找出是否有同義字，如文中出現「game」和

「match」時，都用同一個單字「game」來取代。

本研究著重考慮在網頁所包含的主要概念上，所以只選擇分析所剩的名詞，結果為「LEGO.com」、

「official LEGO web site」、「game」、「activity」、

「LEGO toy」。

(2) 找出概念集合在知識本體的位置

根據剛萃取出的概念集合進行搜尋其在個人化知識本體中所屬的位置，如果某一概念未被找到，就代表使用者從未接觸過該概念，此時將參照專家知識本體架構加入該概念至個人化知識本體內。

在搜尋法的考量上，因為概念集合是萃取自同一個網頁，所以概念集合所處的領域會相當接近，

所以我們使用廣度搜尋法，以鄰近節點優先於子樹節點來搜尋。其優點是如果目標在深度不深的位置時會先被找到。在本研究中，我們先利用廣度搜尋法來找出概念集合在知識本體中所屬的位置。在奇

(4)

圖 3 LEGO 概念在奇摩分類中的位置摩網頁中，跟「LEGO」有關的相關概念如圖 3 所

示。

以圖 3 為例，當系統找到「Toys」時會優先從子樹「Toys Guns」、「LEGO」、「Robots」三項進行尋找，又當系統找到「LEGO」時再優先以「LEGO」

的子樹進行搜尋，在此例子中出現有二個「LEGO」

概念，較上層的「LEGO」概念為父節點，主要代表著跟「LEGO」有關的分類，屬於一個分類標準。

較下層的「LEGO」概念為子節點，主要代表著

「LEGO」這個概念本身的網頁，所以在選擇概念時，系統是以較下層的概念為主。

當所有概念集合的關鍵字都找出在其個別個人化知識本體中的位置時，則進行對概念偏好值加權動作。如果有發現找不到在個人化知識本體位置的概念，再進行搜尋專家知識本體，如果找到關鍵字在專家知識本體中的位置時，則必須進行加入新概念的步驟。如果還是找不到，我們分為二種情況討論，第一種是找到部份相符概念時，如例子中

「LEGO toy」和知識本體中的「LEGO」有同樣的

「LEGO」和「Toys」關鍵字，且「LEGO toy」找不到出其在個人化知識本體的位置，則「LEGO toy」

以實例(Instance)的方式加入個人化知識本體，而加入位置考慮到二個概念以架構來看是「LEGO」較下層，意同較為精確，所以就加入在「LEGO」之下。第二種是完全找不到時，那就將找不到的關鍵字列入例外處理的概念子樹下。

(3) 以概念集合劃分延伸概念的範圍

除了概念集合在個人化知識本體的更新外，我們更須將其延伸的概念通通加入。以奇摩網頁的架

構為例，語義關係為 has_sub_of 的相關節點關係可以用父概念、子概念和兄弟概念來說明。為了提供較完整的架構，增加概念明確度，使其可以跟不同領域的同型字有所區別，以及為了減少對不同使用者所要進行的分析及分類動作的困難度，我們除了採用父概念為延伸範圍外，從根概念至概念集合路徑中的全部概念也列入延伸概念內。以例子

「LEGO」來說就是以 Directory > Recreation > Toys 這三個概念都必須列入考慮。

(4) 加入個人化知識本體缺少的概念

如果在個人化知識本體中找不到符合概念時，意即代表個人化知識本體也有所欠缺的部份，

這時必須將所缺少的部份依照專家知識本體所建立的架構加入個人化知識本體中。在此加入的概念包括根節點到該概念所連接的路徑都必須被加入。而上述提到部份符合的概念，也必須將其上至根節點的路徑進行加入的動作。二項步驟的差別在於最後加入的元素是概念或是實例。以例子來說，

當要加入「LEGO」二個概念時，路徑為 Directory >

Recreation > Toys > LEGO。那必須將這整段路徑都加入本身知識本體中，如圖 4 所示。

(5) 計算其偏好度的增加程度

對於不同鄰近關係所影響的偏好增加程度也有所差異在，在考慮使用者瀏覽行為上時，偏好程度增加的次序由高至低為父節點、子節點、兄弟節點。因為使用者對某一概念有所偏好時，對於其父概念(意即其較大的集合)的偏好增加程度將會較為接近，對於其子概念的偏好增加程度將會小於其父

圖 4 加入「LEGO」至本身個人化知識本體

(5)

概念，對於兄弟概念的增加程度又會更少。例如使用者對「LEGO」有興趣的時候，可以得知使用者對於「LEGO」的父概念「Toys」的概念的喜好度也會相對增加較多，再者考慮「LEGO」是「Toys」

中所有子概念的一個概念，所以「LEGO」對「Toys」

的概念增加程度要再除以「Toys」的子概念個數。

本研究用a1,a2,a3來表示父概念、子概念、鄰概念的影響參數來顯示不同程度的增加狀況。下列用數學式來a1和子概念節點個數(Ns)表示父概念偏好度(PP) 為

PP=PP+α1*Ns (1) 其中參數值a1是一個 0~1 之間的數，用來代表父概念偏好增加頂多跟概念集合一樣，不可能超過概念集合的偏好增加量。而子概念也是基於相同的理念，不同點在於子概念所用的參數α2必然小於父概念 a1，且因為子概念所受影響的父概念僅有一 個，後面的除式方母為一，則子概念偏好度(PS)公式如下：

PS=PS+α2 (2)

假設所有鄰概念的個數為NN，則鄰概念偏好度 (PN)公式如下：

PN=PN+α3*NN (3) 圖 5 為使用者瀏覽「LEGO」概念網頁後對個

人化知識本體所造成的偏好度變動情形。

5. 結論及未來方向

在本研究中提供一個自動建構具備學習能力個人化知識本體的方式，以彌補傳統使用者檔案不能提供網頁概念相關性的不足，更進一步表現出使用者喜好。由本研究中可以明顯看出使用者在經過多次瀏覽為後，系統會明確記錄使用者本身的概念集合及其延伸概念。因為系統可以藉此紀錄使用者的偏好概念，並以此提高搜尋的精確度。

在未來的研究方向上，我們將探討在建立個人化的知識本體之後，將如何利用它來改善現有的網路行為探勘相關技術。舉例來說，可以利用使用者個人化知識本體提高搜尋的準確性和自動化分類文件或檔案。或分析不同使用者的個人化知識本體所包含的概念跟其架構，可以得知使用者對於偏好概念的相同點和不同點為何，就可以依此進行分群或協同過濾。還可以對使用者偏好度較高不同概念，進行開發新產品、文件或網頁。另外，如何選

擇具完整概念架構的專家知識本體或利用參考多個知識本體並進行合併來建立完善的個人化知識本體，也是需要被考慮的。

6. 參考文獻

[1] 許正欣，語義網上自動建構本體論之研究，天主教輔仁大學資訊管理學系碩士論文，民國 93 年 6 月。

[2] 曾信誠，以本體論為基礎之使用者喜好萃取、

隱私權控管與側寫建構，國立東華大學資訊工程學系碩文論文，民國 93 年 6 月。

[3] A.G. Büchner, M. Baumgarten, S.S. Anand, M.D.

Mulvenna, and J.G. Hughes, “Navigation Pattern Discovery from Internet Data”, ACM Workshop on Web Usage Analysis and User Profiling, 1999.

[4] Ahmad Kayed, and Robert M. Colomb,

“Extracting ontological concepts for tendering conceptual structures”, Data & Knowledge Engineering, Vol. 40 , Issue 1, January 2002, pp.

71 – 89.

[5] Barry Smith and Christopher Welty, “Ontology:

Towards a New Synthesis”, Proceedings of the international conference on Formal Ontology in Information Systems, Ogunquit, Maine, USA, 2001, pp. 3-9.

[6] Bernhard Ganter, and Rudolf Wille, Applied Lattice Theory: Formal Concept Analysis, 1997.

[7] Daisuke Kanjo, Yukiko Kawai, and Katsumi Tanaka, “A3: framework for user adaptation using xslt”, Proceedings of the 13th international World Wide Web conference on Alternate track papers & posters, New York, NY, USA, 2004, pp.

252-253.

[8] James Hendler, “Agents and the Semantic Web”, Intelligent Systems, IEEE, Vol. 16, Issue 2, 2001, pp. 30 – 37.

[9] Joana Trajkova, and Susan Gauch, “ Improving Ontology-Based User Profiles”, Electrical Engineering and Computer Science, 2003.

[10] Kate A. Smith *, and Alan Ng, “Web page clustering using a self-organizing map of user navigation patterns”, Decision Support Systems, vol. 35, Issue. 2, May 2003, pp. 245-256.

[11] M. Bunge, “The Furniture of the World”, Treatise on Basic Philosophy: Vol. 3: Ontology I, Reidel, Boston MA, 1997.

圖 5 使用者瀏覽過「LEGO」對個人化知識本體的影響

(6)

[12] Maedche A, and Staab S, “Ontology learning for the semantic web”, Kluwer Academic Publishers, Vol. 16 , Issue 2, March 2001, pp. 72 - 79.

[13] Maedche A, Motik B, and Stojanovic L,

“Managing multiple and distributed ontologies on the Semantic Web”, The VLDB Journal — The International Journal on Very Large Data Bases, Vol. 12 , Issue 4, 2003, pp: 286 – 302.

[14] Michael N. Huhns,and Larry M. Stephens,

“Personal ontologies”, Internet Computing, IEEE, Vol. 3, Issue: 5, Oct. 1999, pp. 85 – 87.

[15] Michel Klein, “Combining and relating ontologies an analysis of problems and solutions”, In:

Workshop on Ontologies and Information Sharing, IJCAI'01, Seattle, USA, 2001.

[16] Rakesh Agrawal, and Ramakrishnan Srikant,

“Fast Algorithms for Mining Association Rules”, Proceedings of the 20th International Conference on Very Large Data Bases, 1994, pp. 487-499.

[17] Ricardo Baeza-Yates, and Berthier Ribeiro-Neto,

“Modern Information Retrieval, Addison-Wesley”, ACM Press, New York, 1999.

[18] Robert Cooley, Bamshad Mobasher, and Jaideep Srivastava, “Data preparation for Mining World Wide Web Browsing Patterns”, Knowledge and Information System, Vol. 1, Issue 1, February 1999, pp. 5-32

[19] Thomas R. Gruber, “A translation approach to portable ontology specifications”, Knowledge Acquisition, Vol. 5, Issue 2, 1993,pp. 199-220.

[20] Yannis Labrou, and Tim Finin, “Yahoo! as an ontology: using Yahoo! categories to describe documents”, Conference on Information and Knowledge Management , 1999, pp. 180 - 187.

[21] SUMO 網頁 ,

http://virtual.cvut.cz:8080/ksmsaWeb/browser/3%

23Sport, february 19, 2006.

建立個人化知識本體來輔助網路行為探勘