• 沒有找到結果。

建立個人化知識本體來輔助網路行為探勘

N/A
N/A
Protected

Academic year: 2022

Share "建立個人化知識本體來輔助網路行為探勘"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

建立個人化知識本體來輔助網路行為探勘

陳榮昌 蔡旺典

朝陽科技大學資訊管理研究所 朝陽科技大學資訊管理研究所

[email protected] [email protected]

摘 要

傳統的網路行為探勘(Web Usage Mining)是以 使用者在網站上的瀏覽序列(Navigation Pattern)來 發覺使用者偏好。一般用使用者檔案(User Profile) 來記載使用者瀏覽的網頁和時間,它們對於網頁內 容中概念間交互關係和彼此所延伸的語意卻無法 描述,因此無法分析網頁與網頁間內容的差異性,

也無法進一步判斷使用者真正偏好的概念。為了改 進此一缺失,本研究利用本體論所記載的字詞關係 來分析使用者偏好。首先從使用者瀏覽過的網頁中 萃取出重要的概念集合(concept set),然後參考已存 在的專家知識本體來建構個人化知識本體(Personal Ontology)。因此經過使用者長期瀏覽行為後,此一 個人化知識本體將能代表使用者的特性,且可以更 精確指出使用者想要的資訊。

關鍵詞:網頁探勘、個人化知識本體、語彙萃取、

使用者檔案、概念集合

1. 緒論

Cooley et al.(1999) 指 出 網 路 行 為 探 勘 (Web Usage Mining)是先將使用者檔案進行瀏覽序列識 別,再進行知識發現(Knowledge Discovery),首先 將使用者檔案原先複雜且多個目的瀏覽路徑簡化 成單一的瀏覽路徑,再分析這些瀏覽路徑間的關連 性。藉著使用者大量類似的瀏覽路徑和在不同瀏覽 路徑上瀏覽時間的長短來找出使用者瀏覽網頁的 關連性[18]。其中較有名的方法有 Agrawal 所提出 Apriori 演算法[4]、Büchner 所提出 MiDAS 演算法 [3]、Kate A. Smith 利用類神經群聚技術 SOM 開發 了 LOGSOM 系統[10]。

Apriori 演算法是分析使用者瀏覽網頁中是否 存 在 著 兩 個網 頁 經 常 性一 同 出 現 的關 聯 法 則 。 MiDAS 演算法則利用彈性的瀏覽樣版(Navigation Template)來定義使用者行為,整個瀏覽樣版透過文 法定義來描述使用者的連續型樣。另外,LOGSOM 系統將使用者瀏覽記錄進行分群再用二維方式分 析使用者特性。但上述方法中,經常被一起瀏覽的 網頁內容上是否存在著緊密或鬆散的語義關聯,或 是使用者在同一時間對相同概念所進行的瀏覽動 作並無法用瀏覽路徑所表現出來。因此,本研究利 用個人化知識本體來彌補使用者檔案的缺失。

知識本體是用來記載所有語義字詞的關聯,近 年來最被人所提到的就是 Gruber 所提的定義:「本

體論是對於群體共享的概念化之正式的、明確的表 示形式」。其中所謂的概念化是指對已存在的領域 的實體之相關概念描述模型,「共享」指的是知識 本體本身是可以被多人重覆使用,而非屬於個人 的。「正式的」指的是知識本體本身是可以被電腦 所理解的,「明確的」指的是知識本體的模型和概 念模述應該要被明確的方式規定出來。[1]知識本體 主 要 由 三 大 要 素 所 構 成 : 實 體 (entities) 、 屬 性 (attributes)、關聯(relations)三個概念所組成的。「實 體」它類似一般的名詞,可泛指所有事物。「屬性」

為不同概念下所有的特性,例如顏色、大小、種類 等等。「關聯」指的是實體與不同屬性間所存在的 關係(例如 is_a, has_sub_of…等)[5][8]。

本研究提出依據使用者瀏覽行為來建立個人 化知識本體以萃取使用者的偏好。系統首先分析使 用者瀏覽網頁中萃取出概念集合(Concept Set),並 參考已存在專家知識本體中與概念集合有語義關 聯 的 部 份 而 形 成 個 人 化 的 知 識 本 體 (Personal Ontology)。這樣的方式可以帶來以下的優點:

(1) 搜尋更精確

個人化知識本體所包念的概念,不僅包含使 用者瀏覽過的網頁的相關概念,還包括與概 念集合有語義關連的字詞,因此可以提高使 用者搜尋的滿意度。

(2) 加快回應時間

專家定義的知識本體是一個相當完整且可靠 的知識本體,但越完整的知識本體回應時間 就越長,所以針對使用者常用的概念建立的 知識本體,將可有效的提高搜尋速度且不失 去原本的精確度。

(3) 不用考慮太多建構問題

使用者只要經過一段時間的瀏覽,自然就可 以產生符合自己的個人化知識本體,不用牽 扯太多的建構參數或條件設定的問題。

2. 個人化知識本體(Personal Ontology)

哲學家 Bunge 認為本體論在哲學上的定義是對 於 現 實 世 界中 所 存 在 的實 體 用 系 統化 的 方 式 描 述,且不限制用任何特定方式表示[11]。個人化的 知識本體就是依使用者本身的想法和喜好所建構 的。在 Huhns and Stephens 在「Personal Ontologies」

的 文 章 中 提到 個 人 化 知識 本 體 具 下列 重 要 功 能 [14]:

(2)

(1) 支援離線功能將比線上功能更加有效 除了可以對網頁進行分析外,還可以對於自 己本身檔案系統或文件資料進行分類整理的 動作。

(2) 支援瀏覽和搜尋的動作

搜尋動作將變的更有效率,因為電腦可以得 知使用者想知道什麼樣的資訊而可以縮小搜 尋範圍以及更明確的呈現搜尋結果。

(3) 粗糙或精細取得平衡在本身的定義上如果包 含太多種類時,會造成很難選到正確的種 類,但如果包含太少種類時,又可能不足以 去描述種類之間的不同。

(4) 支援時間性的排序

可以定義最新常看的文章、網頁和分別不同 時間段所瀏覽的文章。

一個好的個人化知識本體除了具備知識本體 概念外,更要符合使用者本身知識的架構方式,這 樣才能忠實地表現出使用者偏好。如此一來,使用 者就不用費心過濾所有接收到的文件或網頁,系統 也可以提供更多自動化服務,如 Daisuke Kanjo 在

「A3: Framework for User Adaptation using XSLT」

論文中提到”Adaptation Anywhere & Anytime(A3)”

的架構[7],利用使用者知識本體管理程式(User Ontology Manager, UOM)來依據使用者需求或喜好 來建立個人化知識本體,當使用者瀏覽網路資料 時,從使用者知識本體資料庫(User Ontology Server, UOS)中找出知識本體適當部份來提供使用者使 用。未來的個人化知識本體不單單僅限於應用在網 路上的文件,還包含個人系統的檔案文件以及手 機、PDA 等 3C 產品中的資料。

由於知識本體具備「Reuse」的概念,它具有容 易被使用者重覆利用、複製和合併的能力。使用者 可能不一定有能力建構知識本體,但卻可以輕易地 使用相關知識本體。近年來,如何將已存在的知識 本體合併建構出新的知識本體已成為熱門的研究 主題。目前已有不少專家所建構出的知識本體,例 如奇摩網頁,在 Yannis Labrou 的「Yahoo! as an ontology: using Yahoo! categories to describe documents」[20]中有證明奇摩入口網站上的網頁分 類結構已符合了本體論的定義。在目前現有的奇摩 網頁下,已有 151763 的主題,其內容包括有藝術、

企業和經濟、電腦和網路、教育…等等。奇摩網頁 的分類項目如圖一所示:

圖 1 奇摩頂端層級種類圖(資料來源[20]) 另外,IEEE 標準上層知識本體工作小組也建置 了 SUMO 系統[21],SUMO 是 Suggested Upper Merged Ontology 的縮寫,意思是建議上層共用知識 本體,它能幫助建立未來的語義網上的資料互通 性、資訊搜尋和檢索、自動推理和自然語言處理 等。它是以最高層次的知識本體為基礎去衍生其他 特殊領域的知識本體,目前已經和英語詞彙網路 WordNet1.6 版本作了初步的連結。

3. 語彙萃取(Term parse processing)

語彙萃取的目的在於將整篇文章的關鍵字萃 取出來。一篇文章中除了關鍵字外,還包括著許多 贅字、量詞、標點符號等無意義卻佔著不少篇幅的 字,因此需要進行語彙萃取來加快分析速度。下列 是許正欣[1]論文中修改 Ricardo、Berthier[17]所提 到的萃取步驟:

(1) 去除文件格式

首先去除因不同格式或資料來源所產生的格 式,例如程式碼、格式設定、樣式字型…等 等 , 只 取 出 本 研 究 所 需 的 資 料 流 (Data stream)。

(2) 語彙分析(Lexical Analysis)

將第一步驟所得的資料流轉換成字詞(Term) 所組成的集合。例如去除中英文上的空白或 標點符號等。

(3) 去除 Stop word(Elimination Of Stopword) 在英文句子中有 80%的字是不具任何意義 的,有效的去除這些冠詞、介系詞或連接詞 等對文章意義不影響但有著許多篇幅的字 詞,並可以增快處理速度並減少處理的困難 度。

(4) 去除衍生字(Stemming)

在英文文章中,許多字詞因為其不同的名 詞、動詞、單複數等型態的不同而被視為不

(3)

圖 2 系統示意圖 同的單字,在此可以藉由分析字型的變化,

將不同型態的字型都以原型代替以增快處理 速度。

(5) 同義詞典(Thesaurus)

在文章中會有許多同義異詞的字,必須參考 同義詞典將這些字全部改變成同一個字詞。

經由這些步驟,本研究可以分析出使用者在不 同網頁中所真正涵蓋的概念。

4. 建立個人化知識本體

本研究以個人化知識本體的方法來分析使用 者的瀏覽網頁並紀錄網路使用者的特徵,當使用者 開始瀏覽網頁後,系統從該網頁萃取其關鍵字來構 成概念集合,這些概念集合若是個人化知識本體所 沒有包含的,系統將參考已存在的專家知識本體(目 前是參考奇摩站的分類機制),找出相關概念並修改 個人化知識本體。藉此使用者經過一段時間的瀏覽 行為後,他的個人化知識本體將日趨成熟而成為代 表他目前特性的個人化知識本體。圖 2 是系統的示 意圖。

下面依序介紹建立個人化知識本體的步驟:

(1) 根據語彙萃取找出關鍵字

系統取得使用者在網路所瀏覽的網頁並透過 詞彙萃取技術取出概念集合。首先去除文件格式,

例如在網頁中找出 HTML 語言或 Word 檔類文件檔 中真正屬於內容的部份,例如:

<a href="http://www.lego.com/">

LEGO.com: The Official Web Site of LEGO (r) products!

</a>

<br>

LEGO.com is the official LEGO web site which contains fun and engaging games, activities, and online shopping for LEGO toys.

<br>

這 此 HTML 語 言 片 段 經 過 轉 換 後 只 取 出”LEGO.com is the official LEGO web site which contains fun and engaging games, activities, and online shopping for LEGO toys.”。接著進行語彙分 析,其主要目的在去除英文標點符號跟空白且段落 分 為 每 一 個 單 字 。 依 照 上 面 例 子 則 可 以 取 出

「LEGO.com」、「is」、「the」、「official LEGO web site 」、「which」…等的字詞。這些字詞進行去除 stop word,將介系詞、冠詞、連接詞去除,然後去 除衍生字,例如「activities」、「toys」是「activity」、

「toy」第三人稱單數的型態,所以在分析時以

「activity」「toy」來代替就好了。最後是運用同義 詞字典找出是否有同義字,如文中出現「game」和

「match」時,都用同一個單字「game」來取代。

本研究著重考慮在網頁所包含的主要概念上,所以 只選擇分析所剩的名詞,結果為「LEGO.com」、

「official LEGO web site」、「game」、「activity」、

「LEGO toy」。

(2) 找出概念集合在知識本體的位置

根據剛萃取出的概念集合進行搜尋其在個人 化知識本體中所屬的位置,如果某一概念未被找 到,就代表使用者從未接觸過該概念,此時將參照 專家知識本體架構加入該概念至個人化知識本體 內。

在搜尋法的考量上,因為概念集合是萃取自同 一個網頁,所以概念集合所處的領域會相當接近,

所以我們使用廣度搜尋法,以鄰近節點優先於子樹 節點來搜尋。其優點是如果目標在深度不深的位置 時會先被找到。在本研究中,我們先利用廣度搜尋 法來找出概念集合在知識本體中所屬的位置。在奇

(4)

圖 3 LEGO 概念在奇摩分類中的位置 摩網頁中,跟「LEGO」有關的相關概念如圖 3 所

示。

以圖 3 為例,當系統找到「Toys」時會優先從 子樹「Toys Guns」、「LEGO」、「Robots」三項進行 尋找,又當系統找到「LEGO」時再優先以「LEGO」

的子樹進行搜尋,在此例子中出現有二個「LEGO」

概念,較上層的「LEGO」概念為父節點,主要代 表著跟「LEGO」有關的分類,屬於一個分類標準。

較下層的「LEGO」概念為子節點,主要代表著

「LEGO」這個概念本身的網頁,所以在選擇概念 時,系統是以較下層的概念為主。

當所有概念集合的關鍵字都找出在其個別個 人化知識本體中的位置時,則進行對概念偏好值加 權動作。如果有發現找不到在個人化知識本體位置 的概念,再進行搜尋專家知識本體,如果找到關鍵 字在專家知識本體中的位置時,則必須進行加入新 概念的步驟。如果還是找不到,我們分為二種情況 討論,第一種是找到部份相符概念時,如例子中

「LEGO toy」和知識本體中的「LEGO」有同樣的

「LEGO」和「Toys」關鍵字,且「LEGO toy」找 不到出其在個人化知識本體的位置,則「LEGO toy」

以實例(Instance)的方式加入個人化知識本體,而加 入位置考慮到二個概念以架構來看是「LEGO」較 下層,意同較為精確,所以就加入在「LEGO」之 下。第二種是完全找不到時,那就將找不到的關鍵 字列入例外處理的概念子樹下。

(3) 以概念集合劃分延伸概念的範圍

除了概念集合在個人化知識本體的更新外,我 們更須將其延伸的概念通通加入。以奇摩網頁的架

構為例,語義關係為 has_sub_of 的相關節點關係可 以用父概念、子概念和兄弟概念來說明。為了提供 較完整的架構,增加概念明確度,使其可以跟不同 領域的同型字有所區別,以及為了減少對不同使用 者所要進行的分析及分類動作的困難度,我們除了 採用父概念為延伸範圍外,從根概念至概念集合路 徑 中 的 全 部 概 念 也 列 入 延 伸 概 念 內 。 以 例 子

「LEGO」來說就是以 Directory > Recreation > Toys 這三個概念都必須列入考慮。

(4) 加入個人化知識本體缺少的概念

如 果 在 個 人 化 知 識 本 體 中 找 不 到 符 合 概 念 時,意即代表個人化知識本體也有所欠缺的部份,

這時必須將所缺少的部份依照專家知識本體所建 立的架構加入個人化知識本體中。在此加入的概念 包 括 根 節 點到 該 概 念 所連 接 的 路 徑都 必 須 被 加 入。而上述提到部份符合的概念,也必須將其上至 根節點的路徑進行加入的動作。二項步驟的差別在 於最後加入的元素是概念或是實例。以例子來說,

當要加入「LEGO」二個概念時,路徑為 Directory >

Recreation > Toys > LEGO。那必須將這整段路徑都 加入本身知識本體中,如圖 4 所示。

(5) 計算其偏好度的增加程度

對於不同鄰近關係所影響的偏好增加程度也 有所差異在,在考慮使用者瀏覽行為上時,偏好程 度增加的次序由高至低為父節點、子節點、兄弟節 點。因為使用者對某一概念有所偏好時,對於其父 概念(意即其較大的集合)的偏好增加程度將會較為 接近,對於其子概念的偏好增加程度將會小於其父

圖 4 加入「LEGO」至本身個人化知識本體

(5)

概念,對於兄弟概念的增加程度又會更少。例如使 用者對「LEGO」有興趣的時候,可以得知使用者 對於「LEGO」的父概念「Toys」的概念的喜好度 也會相對增加較多,再者考慮「LEGO」是「Toys」

中所有子概念的一個概念,所以「LEGO」對「Toys」

的概念增加程度要再除以「Toys」的子概念個數。

本研究用a1,a2,a3來表示父概念、子概念、鄰概念的 影響參數來顯示不同程度的增加狀況。下列用數學 式來a1和子概念節點個數(Ns)表示父概念偏好度(PP) 為

PP=PP1*Ns (1) 其中參數值a1是一個 0~1 之間的數,用來代表 父概念偏好增加頂多跟概念集合一樣,不可能超過 概念集合的偏好增加量。而子概念也是基於相同的 理念,不同點在於子概念所用的參數α2必然小於父 概念 a1,且因為子概念所受影響的父概念僅有一 個,後面的除式方母為一,則子概念偏好度(PS)公 式如下:

PS=PS2 (2)

假設所有鄰概念的個數為NN,則鄰概念偏好度 (PN)公式如下:

PN=PN3*NN (3) 圖 5 為使用者瀏覽「LEGO」概念網頁後對個

人化知識本體所造成的偏好度變動情形。

5. 結論及未來方向

在本研究中提供一個自動建構具備學習能力 個人化知識本體的方式,以彌補傳統使用者檔案不 能提供網頁概念相關性的不足,更進一步表現出使 用者喜好。由本研究中可以明顯看出使用者在經過 多次瀏覽為後,系統會明確記錄使用者本身的概念 集合及其延伸概念。因為系統可以藉此紀錄使用者 的偏好概念,並以此提高搜尋的精確度。

在未來的研究方向上,我們將探討在建立個人 化的知識本體之後,將如何利用它來改善現有的網 路行為探勘相關技術。舉例來說,可以利用使用者 個人化知識本體提高搜尋的準確性和自動化分類 文件或檔案。或分析不同使用者的個人化知識本體 所包含的概念跟其架構,可以得知使用者對於偏好 概念的相同點和不同點為何,就可以依此進行分群 或協同過濾。還可以對使用者偏好度較高不同概 念,進行開發新產品、文件或網頁。另外,如何選

擇具完整概念架構的專家知識本體或利用參考多 個知識本體並進行合併來建立完善的個人化知識 本體,也是需要被考慮的。

6. 參考文獻

[1] 許正欣,語義網上自動建構本體論之研究,天 主教輔仁大學資訊管理學系碩士論文,民國 93 年 6 月。

[2] 曾信誠,以本體論為基礎之使用者喜好萃取、

隱私權控管與側寫建構,國立東華大學資訊工 程學系碩文論文,民國 93 年 6 月。

[3] A.G. Büchner, M. Baumgarten, S.S. Anand, M.D.

Mulvenna, and J.G. Hughes, “Navigation Pattern Discovery from Internet Data”, ACM Workshop on Web Usage Analysis and User Profiling, 1999.

[4] Ahmad Kayed, and Robert M. Colomb,

“Extracting ontological concepts for tendering conceptual structures”, Data & Knowledge Engineering, Vol. 40 , Issue 1, January 2002, pp.

71 – 89.

[5] Barry Smith and Christopher Welty, “Ontology:

Towards a New Synthesis”, Proceedings of the international conference on Formal Ontology in Information Systems, Ogunquit, Maine, USA, 2001, pp. 3-9.

[6] Bernhard Ganter, and Rudolf Wille, Applied Lattice Theory: Formal Concept Analysis, 1997.

[7] Daisuke Kanjo, Yukiko Kawai, and Katsumi Tanaka, “A3: framework for user adaptation using xslt”, Proceedings of the 13th international World Wide Web conference on Alternate track papers & posters, New York, NY, USA, 2004, pp.

252-253.

[8] James Hendler, “Agents and the Semantic Web”, Intelligent Systems, IEEE, Vol. 16, Issue 2, 2001, pp. 30 – 37.

[9] Joana Trajkova, and Susan Gauch, “ Improving Ontology-Based User Profiles”, Electrical Engineering and Computer Science, 2003.

[10] Kate A. Smith *, and Alan Ng, “Web page clustering using a self-organizing map of user navigation patterns”, Decision Support Systems, vol. 35, Issue. 2, May 2003, pp. 245-256.

[11] M. Bunge, “The Furniture of the World”, Treatise on Basic Philosophy: Vol. 3: Ontology I, Reidel, Boston MA, 1997.

圖 5 使用者瀏覽過「LEGO」對個人化知識本體的影響

(6)

[12] Maedche A, and Staab S, “Ontology learning for the semantic web”, Kluwer Academic Publishers, Vol. 16 , Issue 2, March 2001, pp. 72 - 79.

[13] Maedche A, Motik B, and Stojanovic L,

“Managing multiple and distributed ontologies on the Semantic Web”, The VLDB Journal — The International Journal on Very Large Data Bases, Vol. 12 , Issue 4, 2003, pp: 286 – 302.

[14] Michael N. Huhns,and Larry M. Stephens,

“Personal ontologies”, Internet Computing, IEEE, Vol. 3, Issue: 5, Oct. 1999, pp. 85 – 87.

[15] Michel Klein, “Combining and relating ontologies an analysis of problems and solutions”, In:

Workshop on Ontologies and Information Sharing, IJCAI'01, Seattle, USA, 2001.

[16] Rakesh Agrawal, and Ramakrishnan Srikant,

“Fast Algorithms for Mining Association Rules”, Proceedings of the 20th International Conference on Very Large Data Bases, 1994, pp. 487-499.

[17] Ricardo Baeza-Yates, and Berthier Ribeiro-Neto,

“Modern Information Retrieval, Addison-Wesley”, ACM Press, New York, 1999.

[18] Robert Cooley, Bamshad Mobasher, and Jaideep Srivastava, “Data preparation for Mining World Wide Web Browsing Patterns”, Knowledge and Information System, Vol. 1, Issue 1, February 1999, pp. 5-32

[19] Thomas R. Gruber, “A translation approach to portable ontology specifications”, Knowledge Acquisition, Vol. 5, Issue 2, 1993,pp. 199-220.

[20] Yannis Labrou, and Tim Finin, “Yahoo! as an ontology: using Yahoo! categories to describe documents”, Conference on Information and Knowledge Management , 1999, pp. 180 - 187.

[21] SUMO 網 頁 ,

http://virtual.cvut.cz:8080/ksmsaWeb/browser/3%

23Sport, february 19, 2006.

參考文獻

相關文件

―A model of generating kob rotation schedule for construction workers,‖ Proceedings of the 12 th International Conference on Computing in Civil and

“Transductive Inference for Text Classification Using Support Vector Machines”, Proceedings of ICML-99, 16 th International Conference on Machine Learning, pp.200-209. Coppin

Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp.298-306.. Automatic Classification Using Supervised

A dual coordinate descent method for large-scale linear SVM. In Proceedings of the Twenty Fifth International Conference on Machine Learning

• Many home and small business users connect to the Internet via high-speed broadband Internet service. Discovering Computers 2012: Chapter

in Proceedings of the 20th International Conference on Very Large Data

[23] Tiantong You, Hossam Hassanein and Chi-Hsiang Yeh, “PIDC - Towards an Ideal MAC Protocol for Multi-hop Wireless LANs,” Proceedings of the IEEE International Conference

Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference