• 沒有找到結果。

以知識本體來輔助個人化排序

N/A
N/A
Protected

Academic year: 2022

Share "以知識本體來輔助個人化排序"

Copied!
14
0
0

加載中.... (立即查看全文)

全文

(1)

以知識本體來輔助個人化排序

陳榮昌 蔡旺典 朝陽科技大學資訊管理所 朝陽科技大學資訊管理所

摘要

個人化排序是將使用者的偏好加入搜尋引擎評分演算法的評分因子中,使得預期使 用者較偏好的網頁會有較高的優先順序呈現出來。這些使用者偏好通常來自使用者過去 瀏覽網頁的紀錄分析,然後以關鍵字的集合來表示。然而,光靠關鍵字的集合並不能反 映出關鍵字彼此間的語意關係,因此很難確切的表示使用者的偏好。

本研究提出以知識本體來表示使用者偏好的架構,我們利用使用者過去的瀏覽行 為,參考專家的知識本體來建立個人化的知識本體,並將使用者的偏好記錄於個人化知 識本體中。當使用者輸入關鍵字時,系統就會利用個人化知識本體的語意結構,找出這 些關鍵字的延伸概念並將這些概念的偏好度加入評分演算法的評分因子中,因為這些參 考的概念除了關鍵字外還包含其語意結構中較相近的延伸概念,因此更能貼切的表示使 用者的偏好。另外,隨著使用者的瀏覽時間的加長,個人化知識本體會更趨成熟,縱使 使用者的偏好有改變,系統仍然會跟著調整相關概念的偏好度,因此,加入這些偏好考 量的評分演算法更能篩選出使用者所偏好的搜尋結果。

關鍵字:個人化排序、知識本體、使用者偏好、個人化知識本體、延伸概念

(2)

1. 序論

網際網路上的資源量正快速的成長當中[2],從 1997 年到 2000 年經調查網頁的數 量從三億個網頁成長到十億個網頁。所以人們開始習慣於利用搜尋引擎找尋自己想要的 資料,然而,即使是使用搜尋引擎,也常常找到過多的資料,必須人工去過濾一些不適 合的搜尋結果。因此搜尋引擎的排序問題開始受到重視,藉由一些評分演算法來為每一 個搜尋到的網頁評分[20, 21],分數較高的網頁會排在較前面,讓使用者更容易發現他 們。這些評分演算法的好壞與他們所藉以評分的依據有著相當大的關係,通常以網頁的 鏈結關係以及關鍵字出現的次數為主,但也有一些演算法將使用者的偏好加入排序因子 中,例如 Google 的 PageRank 演算法[15]和 Yahoo 的分類搜尋引擎等即是,這些演算法 因考慮到使用者個別的嗜好特性,讓整個搜尋結果可以更符合使用者的需求,這方面的 研究被稱為「個人化排序」。

然而,儘管這些有加入使用者偏好來當排序因子的演算法已經較能符合使用者的需 求,因為這些加入的使用者偏好大多是許多關鍵字的組合,他們無法表示出關鍵字間存 在的語義關係,只能將關鍵字都視為獨立的項目來處理,無法表現關鍵字所延伸的概 念,因此對於網頁或使用者偏好的解釋較為薄弱。例如 A,B 網頁分別介紹蘋果和香蕉二 個概念,單純用關鍵字分析無法判斷二者是有關聯的。所以,本研究希望利用個人化知 識本體[1]來找出延伸概念,並將每一個延伸概念在個人化知識本體中的偏好度當作評估 網頁排序的重要因素,如此的個人化排序結果將更能符合使用者所需。以下我們將先介 紹個人化排序的發展與個人化知識本體的建立,然後介紹如何利用個人化知識本體來達 成個人化排序。

2. 相關研究的探討

2.1 個人化排序

一般網路的使用者常利用搜尋引擎來找尋所需要的資料,但每一個使用者的習慣和 興趣不同,因此,為了方便使用者更快的找到所要的資料,搜尋引擎常常會加入許多個 人化的因子來提高個人化的程度,使得與使用者相關的網頁能有較優先的排序。根據 Y. Ke 等 學 者 [13] 提 到 搜 尋 引 擎 的 個 人 化 因 子 分 為 三 大 類 : 相 關 性 評 量 (relevance measure)、重要性評量(importance measure)、排序函式(ranking function)。

(3)

(1) 相關性評量

所謂相關性評量主要針對網頁內容和使用者查詢或過去偏好間相似度做為主要的 依據。因為這類演算法主要是分析網頁內容和使用者偏好所包含的概念是否吻 合,所以也被稱為以內容為基礎的個人化(content-based personalized)。例如 Pitkow 等學者[16]6]提出的"Outride System",他們分析使用者的瀏覽記錄和對依據公開的 分類系統(ODP, Open Directory Project)建立每一個使用者的模型,之後當使用者的 查詢動作出現時,系統會計算該查詢和使用者模型之間的相似度,如果找出查詢 是屬於使用者過去所瀏覽的主題時,他們會就找出的相似字語來增加進行查詢的 關鍵字 (query augmentation)。另外,Sugiyama 等學者[19]提出利用使用者檔案去 幫助網路查詢,他們根據不同使用者對每一個網頁的瀏覽時間做為權重的基礎,

再利用 KNN(K-nearest neighbor)的分群方式找出相似的使用者並進行協同推薦。

依據上述可以看出,相關性評量都需要參考一些相關的字詞記錄,可能是辭典、

資料庫或使用者特徵記錄。然而這些記錄都是關鍵字的集合並未考慮到語義的架 構,很難考慮到關鍵字彼此之間的關係。

(2) 重要性評量

所謂重要性評量是利用使用者所偏好的網頁中的超連結關係來評估網頁的重要 性。當某一網頁被越多網頁所鏈結時,該網頁的重要程度也就越高,因此這種評 量方式也被稱為是以鏈結為基礎的個人化(link-based personalization)。這類演算法 改良 Page[15]所提出的 PageRank 演算法,包含 Haveliwala(2002) [11]所提出的主題 式 PageRank(Topic-sensitive PageRank)以及 Jeh 和 Widom(2003) [12]所提出的個人 化 PageRank(Personalized PageRank)。主題式 PageRank 是先以基本的 16 個主題去 分析資料庫中的每一個網頁對每一個主題所擁有的重要程度,形成每個網頁的主 題偏向 PageRank 向量(topic-sensitive PageRank vector),當使用者查詢時,系統比 對該查詢和每一個網頁的主題偏向 PageRank 向量來找出最相似的部份。另外,個 人化 PageRank 是利用使用者過去所偏好的網頁(例如:我的最愛)做為依據來評 分,那些使用者偏好的網頁中所連結到的網頁會有較高的評分。這類的方式因受 限於必須被其他網頁鏈結才能提高其重要性,所以新進網頁或者不容易被發現的 網頁較難突顯出其重要性,如此將導致有些內容好的網頁不具有較好的排名[8],

並且,因為必須針對資料庫中的每一個網頁都計算出其對每一個網頁的鏈結關 係,所需要的時間和空間複雜度都相當大。

(3) 排序函式

所謂排序函式是利用一個函式來整合相關性評量和重要性評量中的評分以進行排 序。公式如下:

(4)

(

R Rn I Im

)

F = 1,..., , 1,...,

前面 R1到 Rn是各項相關性評量的評分,I1到 Im是各項重要性評量的評分。因為排 序函式是綜合相關性評量和重要性評量的各項因素來評分,所以相關性評量和重 要性評量的問題都會發現在排序函式上。

2.2 知識本體

知識本體是利用所有字詞的關聯來表達語義。知識本體主要由實體(entities)、屬性 (attributes)、關聯(relations)三個要素所組成[17]。「實體」可泛指所有事物,「屬性」為各 概念所有的特性,例如顏色、大小、種類等等,「關聯」則是實體與不同屬性間的關係(例 如 is_a, has_sub_of…等)。圖 1 是一個簡單的植物概念階層樹,其中實線方塊是實體物 件,虛線框所代表的是實體蘋果所有擁有的屬性,實體間的關聯是以下層的概念為上層 的部份集合做為連結。知識本體是利用這樣的結構來建構。

圖1 、植物的概念階層樹

2.3 建立個人化知識本體

本研究將延續研究[1]中的方式來建造個人化知識本體。我們參照專家知識本體和使 用者過去的瀏覽行為來建構個人化知識本體。當使用者開始瀏覽網頁後,系統從該網頁 萃取其關鍵字並參照專家知識本體(例如奇摩站的分類機制)找出延伸概念向量(Extend Concept Vector, ECV),延伸概念向量是除了關鍵字本身以外,與關鍵字有語義關聯且可 以幫助了解該關鍵字擁有的意義、領域或屬性的相關字詞集合,包括該關鍵字有直接語 義連結的父概念、子概念和鄰概念以及該關鍵字於專家知識本體所在位置到根節點的路 徑上的所有父節點。這些關鍵字或延伸概念若已經存在於個人化知識本體,系統將增加 該概念的偏好度係數。若該概念是新概念則參考專家知識本體,加入該概念於個人化知

(5)

識本體。因此,使用者經過一段時間的瀏覽行為後,他的個人化知識本體將日趨成熟而 成為代表他目前特性的個人化知識本體。圖 2 是建立個人化知識本體的系統示意圖。

圖2 、系統示意圖

下面依序介紹建立個人化知識本體的步驟:

Step1. 根據語彙萃取找出關鍵字

系統取得使用者在網路所瀏覽的網頁並透過詞彙萃取技術取出延伸概念向量。首先 去除文件格式,例如在網頁中找出 HTML 語言或 Word 檔類文件檔中真正屬於內容的部 份,如圖 3 所示,由一個樂高網頁取出文字內容並經過分析後找出關鍵字:

圖3 、取出關鍵字的過程

LEGO toys Activity

Game web site

LEGO.com: The Official Web Site of LEGO (r) products!

LEGO.com is the official LEGO web site which contains fun and engaging g a m e s , a c t i v i t i e s , a n d online shopping for LEGO toys.

(6)

從這些網頁中的 HTML 語言片段經過轉換後可以取出”LEGO.com is the official LEGO web site which contains fun and engaging games, activities, and online shopping for LEGO toys.”。接著進行語彙分析、去除 stop word、去除衍生字、運用同義詞字典找出 是否有同義字後,即可找出網頁所包含的主要概念,結果為「LEGO.com」、「official LEGO web site」、「game」、「activity」、「LEGO toy」。

Step2. 找出延伸概念向量中的每一個概念在知識本體的位置

根據剛萃取出的延伸概念向量,搜尋其每一個概念在個人化知識本體中所屬的位 置,如果某一概念未被找到,就代表使用者從未接觸過該概念,此時將參照專家知識本 體加入該概念至個人化知識本體內。在奇摩網頁中,與「LEGO」有關的相關概念如圖 4 所示。

圖4 、LEGO 概念在奇摩分類中的位置

Step3. 以延伸概念向量劃分延伸概念的範圍

除了延伸概念向量在個人化知識本體的更新外,我們更須將其延伸概念加入。為了 使其可以跟不同領域的同型字有所區別,以及為了減少對不同使用者所要進行的分析及 分類動作的困難度,我們除了採用父概念為延伸範圍外,從根概念至延伸概念向量路徑 中的全部概念也列入延伸概念內。以例子「LEGO」來說就是以 Directory Æ Recreation Æ Toys Æ LEGO 這三個個概念都必須列入考慮。

Step4. 加入個人化知識本體缺少的概念

如果在個人化知識本體中找不到符合概念時,意即代表個人化知識本體也有所欠缺 的部份,這時必須將所缺少的部份依照專家知識本體所建立的架構加入個人化知識本體 中。在此加入的概念包括根節點到該概念所連接的路徑都必須被加入。以例子來說,當 要加入「LEGO」這個概念時,路徑為 Directory Æ Recreation Æ Toys Æ LEGO。那必須 將這整段路徑都加入本身知識本體中,如圖 5 所示。

(7)

圖5 、加入「LEGO」至本身個人化知識本體

Step5. 計算其偏好度的增加程度

除了該次瀏覽的概念的偏好度(Ps)必須依照使用者該次瀏覽而加 1 的偏好值外,在 考慮使用者瀏覽行為上時,偏好程度增加的次序由高至低為父節點、子節點、兄弟節點。

例如使用者對「LEGO」有興趣的時候,可以得知使用者對於「LEGO」的父概念「Toys」

的概念的喜好度也會相對增加較多,再者考慮「LEGO」是「Toys」中所有子概念的一 個概念,所以「LEGO」對「Toys」的概念增加程度要再除以「Toys」的子概念個數。

本研究用αP,αS,αN來表示父概念、子概念、鄰概念的影響參數來顯示不同程度的增加 狀況。下列用數學式來αP和子概念節點個數(Ns)表示父概念偏好度(PP)為公式(1)所示。

S P P

P P N

P = +α / (1)

其中參數值αP是一個 0~1 之間的數,用來代表父概念偏好增加頂多跟延伸概念向 量一樣,不可能超過延伸概念向量的偏好增加量。而子概念也是基於相同的理念,不同 點在於子概念所用的參數αS必然小於父概念α ,且因為子概念所受影響的父概念僅有P 一個,後面的除式方母為一,則子概念偏好度(PS)公式(2)所示。

S S

S P

P = +α (2)

假設所有鄰概念的個數為NN,則鄰概念偏好度(PN)公式(3)所示。

N N N

N P N

P = +α / (3)

圖 6 為使用者瀏覽「LEGO」網頁後對個人化知識本體所造成的偏好度變動情形。

圖6 、使用者瀏覽過「LEGO」對個人化知識本體的影響 + αP/5

+ αN/2

+ αS

(8)

Step6. 調整步驟

在當所有概念的偏好值超過超過門檻值時,將對個人化知識本體進行所有偏好值除 以 2 的動作,並檢視是否存在過低偏好值的概念。如果發現過低偏好值的概念,則將該 概念刪除。對個人化知識本體進行偏好值除以 2 的步驟,再找出偏好值過低的概念將其 刪除。如此一來,反覆的執行調整之後,使用者長期所關注的重點將被明顯的突顯出來,

而不再瀏覽的概念也會被刪除以加快個人化知識本體的運算速度跟節省儲存空間。

3. 利用個人化知識本體達成個人化排序

本研究中利用個人化知識本體所記錄的語義架構去找出使用者查詢的關鍵字集合 中每一個關鍵字所相關的延伸概念來更了解使用者真正想獲得的資訊。從使用者查詢中 的關鍵字和與這些關鍵字有關聯的延伸概念就可以滙整成完整的延伸概念向量(Extend Concept Vector),再依據延伸概念向量中的每一個關鍵字和其延伸概念的概念偏好值可 以得到延伸概念偏好向量(Extend Concept Interest Vector, ECIV)。另一方面,利用關鍵字 集合從網頁資料庫中找出有包含關鍵字集合的網頁,再根據延伸概念向量去分析每個網 頁中延伸概念出現的頻率可以得到延伸概念頻率向量(Extend Concept Frequency Vector, ECFV)。利用上述的延伸概念偏好向量和每一個文件的延伸概念頻率向量為每個網頁評 分,最後依照每個網頁的評分值進行排序並輸出結果。圖 7 為整個的個人化排序的流程。

圖7 、個人化排序流程圖

下面介紹如何利用個人化知識本體來輔助搜尋引擎達成個人化排序。整個查詢從使

(9)

Step1. 找尋關鍵字集合的延伸概念

系統會找尋關鍵字集合中每一個關鍵字在個人化知識本體的位置,再從每一個關鍵 字所在的位置找尋跟其有關聯的概念,包括其關鍵字的父、子、鄰概念及其追溯至根目 錄的路徑上所有的父節點,這些因關鍵字所延伸的概念和原本的關鍵字集合滙整後便可 得到延伸概念集合(extend concept set)。

因為集合本身不具順序性,為了避免在計算時發生不一制的問題,所以我們把延伸 概念集合中的每一個概念,依據知識本體的架構和重要性的先後順序,整理為延伸概念 向量(Extend Concept Vector, ECV)。其中,延伸概念向量的順序排定原則如下:每個關鍵 字為第一順位,再來是最底層的父概念到直屬的父概念,再來是直屬的子概念,後是同 一父概念下的鄰近兄弟概念。圖 8 為知識本體中以任一個關鍵字所展開可能的延伸概念 示意圖。

圖8 、延伸概念示意圖

如果用向量方式表示的話,延伸概念向量會變成公式(4)所示。

{ }

] EC ,..., EC , [EC

] '

, , '

, '

, '

,..., '

, '

, '

,..., '

, '

, ,..., ,

[

, , ,

r 2

1

2 1

2 1

2 1

2 1

2 1

=

=

=

concept neighbor

s K concept neighbor

s K concept neighbor

s K

concept sun

s K concept sun

s K concept sun

s K

concept parent

s K concept parent

s K concept parent

s K

K K

K ECV

K K

K K

m m

m m

m

K K

(4)

但在找尋延伸概念時會發生不同的關鍵字跟同一個延伸概念有關連的狀況,當發生 這種狀況時,分為二種情形處理,第一種是多個關鍵字同時擁有共同的父、子或鄰概念 的話,則僅留下順序最前面的概念,其他重覆的部份都刪除。第二種是不同關鍵字的父 概念、子概念或鄰概念為同一個概念時,則以父概念Æ子概念Æ鄰概念的順序選擇,其 餘重覆的部份則刪除。

(10)

Step2. 依據延伸概念向量計算延伸概念偏好向量

在上個步驟已經得知跟關鍵字集合有關的延伸概念集合,在這個步驟下再將使用者 偏好值加入向量中來讓找出的結果更符合使用者的需求。從個人化知識本體可以找出延 伸概念向量中的每一個概念的延伸概念偏好值(Extend Concept Interest, ECI),再依據每 個概念跟關鍵字的語義關係乘上不同的權重就可得知每個延伸概念的偏好度(Concept Interest, CI),將延伸概念向量中的每個延伸概念的偏好度都乘上相對應的權重就可得到 延伸概念偏好向量(Extend Concept Interest Vector, ECIV)。

上面所提的權重(wight)是指延伸概念佔此查詢的相關性,而重要性的評估方式是看 延伸概念和關鍵字間的語義連結而定,所以權重也可以解釋為延伸概念對關鍵字的影響 程度。以個人化知識本體中最主要的有三類關係:父概念、子概念和鄰概念,每類關係 的權重設定方式如下(5)所示。

⎪⎪

⎪⎪

⎪⎪

⎪⎪

×

×

×

=

×

=

=

= ×

keyword some

to ing correspond concept

neighbor is

EC N if

keyword some

to ing correspond concept

parent is

EC if

keyword some

to ing correspond concept

son is EC N if

keyword a

is EC if

weight

weight ECI

I

I I

I I ECIV

i N

N

i P

i S

S i i

i

r r

1 , , 1

1 , , 1

] , , , [ 1 2

1

β β

β K

(5)

在(5)中,ECI 代表延伸概念向量中的第i 個延伸概念在個人化知識本體的偏好值, i 1、1 NS、1 NN代表延伸概念因語義關聯對關鍵字的影響程度,如父概念會完全影響關 鍵字,而子概念和鄰概念的影響程度只是眾多相同的子概念或鄰概念之一而已,其中 N 、S N 為關鍵字在個人化知識本體中所擁有的子概念和鄰概念個數,N βP、βS、βN代 表在這次查詢中延伸概念的父概念、子概念、鄰概念對查詢關鍵字的影響參數,上述的 相關的概念在先前的研究[1]有更詳細的描述。依上述公式可求得所有概念在查詢中偏好 度,但在延伸概念中會有相同的概念卻因從不同的關鍵字為出發點造成不同的偏好度,

在此本研究用取最大值的方式,以相同概念的偏好值中最大者當成該概念的偏好值,且 其他的相同概念就從向量中刪除。得到全部概念的偏好值後,再利用正規化函式將所有 數轉成 0 到 1 之間的數,正規化函式如(6)所示,將所有正規化的值滙整後即可得到延伸 概念偏好向量。

i i

i i

I I

I I

min max

I' min

= − (6)

(11)

Step3. 找尋包含關鍵字集合的網頁並找出每個網頁的延伸概念頻率向量

在此找尋網頁時,可以根據關鍵字集合或延伸概念集合二種,二者的差別在於關鍵 字集合所搜尋的結果跟過去類似,但利用延伸概念集合將可能找出更多不包含關鍵字但 語義也有相關的網頁,但考慮利用延伸概念找出的網頁相關性高低差很高並大大增加處 理的困難度,且使用者使用查詢想得到是關鍵字相關的資訊。所以在此本研究選擇將文 件聚焦在原本關鍵字集合找出的網頁,所以在這步驟中還不考慮延伸概念的部份。假設 找出 n 個網頁之後,統計每個網頁中每一個延伸概念所出現的次數並滙整成延伸概念頻 率向量,因此延伸概念頻率向量將會是個 r×n 維的向量。如(7)所示:

⎥⎥

⎥⎥

⎢⎢

⎢⎢

× =

n r r

r

n n

freq freq

freq

freq freq

freq

freq freq

freq

, 2

, 1

,

, 2 2

, 2 1

, 2

, 1 2

, 1 1 , 1

n r

, , ,

, , ,

, , ,

ECFV

K M

K K

(7)

公式中,freqi,j指的是第 i 個概念在第 j 個網頁中所出現的次數。利用延伸概念頻率 向量可以得知每個延伸概念在每個網頁中所出現的頻率。

Step4. 依偏好向量和頻率向量為每個網頁評分並依其排序

假設延伸概念偏好向量ECIV =[I1, I2,K, It]和第 j 個網頁的延伸概念頻率向量為

ECFV ,則該網頁所得到的評分為: j

T n r r n

n G I F

ECFV ECIV

GRADE( , )= 1× = 1× × * (8)

其中I 為第 i 個延伸概念的偏好度,因此我們便可算出所有網頁應有的評分,並將i 所有網頁依照評分排序之後輸出。

3.1 個人化排序舉例說明

下面用一個例子來解釋系統的如何執行個人化排序。下圖為某個使用者所擁有的個 人化知識本體,其中的數字代表著使用者對每一個概念的偏好值。現在當使用者輸入

「LEGO」的查詢後,系統將會以下面步驟開始執行:

(12)

圖9 、有關「LEGO」的延伸概念向量及概念偏好

Step1. 系統會從個人化知識本體中找出「LEGO」的延伸概念出來

根據「LEGO」在知識本體的位置可以找出其相關的延伸概念,從最底層的父概念

「Recreation & Sports」開始,再來是「Toys」到直屬父概念「LEGO」,和其二個子概念

「 Robots 」、「 Star Wars 」, 最 後 是 相 鄰 概 念 「 Tom Owad’s Lego Mac 」、「 LEGO Harpsichord」,根據先前提到的概念重要順序:關鍵字>子概念>父概念>鄰概念,依此順 序「LEGO」的延伸概念向量 ECV=[Recreation & Sports, Toys, LEGO, LEGO, Robots, Star Wars@, Tom Owad's Lego Mac, LEGO Harpsichord]。

Step2. 依「LEGO」的延伸概念向量求出延伸概念偏好向量

以延伸概念向量去找出所對應的延伸概念偏好度和權重,根據圖 9 所示,延伸概念 向量所對應的每個延伸概念偏好值為[3.5, 3, 2.8, 2.6, 1.7, 1.9, 2.1, 2.3],再依照先前提到 依延伸概念和關鍵字間的語義關係乘上相對應的權重,NS 是「LEGO」的子概念總數為 2、NN 是「LEGO」的鄰概念總數為 2。βS 、βP、βN在此設定為 0.7、0.5、0.3。所以 延伸概念偏好向量根據(5)可求得關鍵字的偏好度是關鍵字的概念偏好值(2.6)乘上 1,父 概念的偏好度為父概念偏好值(3.5, 3, 2.8)乘上影響參數βP(0.5),子概念的偏好度為子概 念偏好值(1.7,1.9) 乘上語義關聯的影響程度1 NS (1/2=0.5)再乘上影響參數βS(0.7),鄰概 念的偏好度為鄰概念偏好值(2.1, 2.3)乘上語義關聯的影響程度1 NN(1/2=0.5)再乘上影響 參數βN(0.3)。所以延伸概念偏好向量 ECIV=[3.5*0.5, 3*0.5, 2.8*0.5, 2.6*1, 1.7*0.5*0.7, 1.9*0.5*0.7, 2.1*0.5*0.3, 2.3*0.5*0.3]=[ 1.75, 1.5, 1.4, 2.6, 0.595, 0.665, 0.315, 0.345],再利 用(6)的正規化,其中向量的最大值為 2.6,最小值為 0.315,所以每個延伸概念偏好度套 入 方 程 式 後 可 以 求 得 ECIV=[0.628009, 0.5186, 0.474836, 1, 0.122538, 0.153173, 0, 0.013129]。

Step3. 以「LEGO」的延伸概念向量找出每個網頁的延伸概念頻率向量

系統會先找出許多包含關鍵字的網頁,再依照剛求得的延伸概念向量去檢視每個網 頁的相關性,並依照網頁上有的延伸概念所出現次數,可以求出該網頁應有的延伸概念 頻率向量。現假設某一個網頁上的延伸概念頻率向量 ECFV=[ Recreation & Sports, Toys, LEGO, LEGO, Robots, Star Wars@, Tom Owad's Lego Mac, LEGO Harpsichord]=[1, 2, 0, 3, 1, 0, 1, 0],其舉例來說,「Toys」的 2 則代表「Toys」在該網頁中出現了 2 次。

Step4. 根據先前的延伸概念偏好向量和每個網頁的延伸概念頻率向量進行評分 從先前的步驟可以求得「LEGO」的延伸概念偏好向量和每個網頁的延伸概念頻率 向量,再利用方程式(8)將二向量相乘便可得到預估使用者對該網頁應有的評分為 G = 0.628009*1 + 0.5186*2 + 0.474836*0 + 1*3 + 0.122538*1 + 0.153173*0 + 0*1 +

(13)

0.013129*0 = 4.787747,重複以上步驟直到找出所有網頁的評分後再將其做排序即可得 最後結果。

4. 結論

本研究利用知識本體本身較為緊密的語義關連產生延伸概念向量來解釋使用者的 查詢和所有的網頁,並利用個人化知識本體中使用者對每個概念的偏好,產生延伸概念 偏好向量來細微的分析使用者對每個網頁的偏好,因此更能找出使用者最需要的網頁。

因為個人化知識本體的建構是參考已存在的專家知識本體,所以,個人化知識本體只是 專家知識本體的部分概念所形成,如此更能將與使用者無關的概念排除在外而達到簡化 個人化知識本體資訊量的目的。個人化知識本體中的偏好度會隨著使用者的瀏覽行為而 改變,所以更能成功的描述使用者最近的偏好。在未來的研究中,我們將實作此一系統 並與相關研究方法做比較。另外,我們也將透過實作中的經驗,找出延伸概念向量所需 的一些參數值,並設計一個學習機制去找出適應不同類使用者所需的參數。

參考文獻

[1] 陳榮昌、蔡旺典(2006),建立個人化知識本體來輔助網路行為探勘,第十七屆國際 資訊管理學術研討會,義守大學,5 月 27 日(高雄,台灣)。

[2] 陳麴合(2001),超連結與關鍵字頻分析之搜尋引擎研究,國立屏東科技大學資訊管 理系碩士論文。

[3] 曾信誠(2004),以本體論為基礎之使用者喜好萃取、隱私權控管與側寫建構,國立 東華大學資訊工程學系碩文論文。

[4] 楊雅雯(2001),個人化數位圖書資訊環境 - 以 PIE@NCTU 為例,國立交通大學資 訊科學系碩士論文。

[5] Baeza-Yates, R. and Ribeiro-Neto, B. (1999), Modern Information Retrieval, Addison-Wesley, ACM Press, New York.

[6] Berners-Lee, T., Fischetti, M. and Dertouzos, M.(1999), Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web by Its Inventor, Harper San Francisco, 1st edition.

[7] Berners-Lee, T., Fischetti, M. and Lassila, O. (2001), The Semantic Web, Scientific American, pp. 34-43.

[8] Chakrabarti, S., Dom, B. E., Kumar, S. R., Raghavan, P., Rajagopalan, S., Tomkins, A., Gibson, D. and Kleinberg, J. (1999), Mining the Web Link Structure, Computer, 32(8), pp. 60-67.

[9] Cooley, R., Mobasher, B. and Srivastava, J. (1999), Data preparation for Mining World Wide Web Browsing Patterns, Knowledge and Information System, 1(1), February, pp.

5-32

(14)

[10] Gruber, T. R. (1993), A translation approach to portable ontology specifications, Knowledge Acquisition, 5(2), pp. 199-220.

[11] Haveliwala, T. H. (2002), Topic-Sensitive PageRank, Proceedings of the Eleventh International World Wide Web Conference.

[12] Jeh, G. and Widom, J. (2002), Scaling personalized web search, Stanford University Technical Report.

[13] Ke, Y. Deng, L. Ng, W. and Lee, Dik-Lun (2006), Web dynamics and their ramifications for the development of web search engines, Computer Networks: The International Journal of Computer and Telecommunications Networking, 50(10), pp.

1430-1447.

[14] Kuropka, D. (2004), Modelle zur Repräsentation natürlichsprachlicher Dokumente.

Ontologie-basiertes Information-Filtering und -Retrieval mit relationalen Datenbanken, In series: Advances in Information Systems and Management Science, 10th issue, Logos Verlag, Berlin, ISBN 3-8325-0514-8.

[15] Page, L., Brin, S., Motwani, R. and Winograd, T. (1998), The PageRank Citation Ranking: Bringing Order to the Web, In proceedings of the 7th International World Wide Web Conference, Brisbane, Australia, pp. 161-172.

[16] Pitkow, J., Schütze, H., Cass, T., Cooley, R., Turnbull, D., Edmonds, A., Adar, E. and Breuel, T. (2002), Personalized search, Communications of the ACM archive, 45(9), pp.50-55.

[17] Smith, B. and Welty, C. (2001), Ontology: Towards a New Synthesis, Proceedings of the international conference on Formal Ontology in Information Systems, Ogunquit, Maine, USA, pp. 3-9.

[18] Stumme, G., Hotho, A. and Berendt, B. (2006), Semantic Web Mining State of the art and future directions, Web Semantics: Science, Services and Agents on the World Wide Web, 4(2), pp.124-143.

[19] Sugiyama, K., Hatano, K., and Yoshikawa, M. (2004), Adaptive web search based on user profile constructed without any effort from users, Proceedings of the 13th international conference on World Wide Web, pp. 675-684.

[20] Budi Yuwono, and D.L. Lee, “Search and Ranking Algorithms for Locating Resources on the World Wide Web”, In Proceedings of the IEEE International Conference on Data Engineering, New Orleans, 1996

[21] Salton, G., and McGill, M., Introducing to Modern Information Retrieval, McGraw-Hill, New York NY, 1993

參考文獻

相關文件

了解電腦網路的原理,學習使用 個人網誌及簡易的網頁設計,具 備電子商務的觀念、網路安全以 及網路犯罪與相關法規.

實驗火箭使用固態火藥跟使用液態火藥相比,可以達到節省體積 與提昇安全性兩個很重要的目的;相對的,使用固態火藥所能達到的

④執行智能搜尋,當使用者在 Google 網頁上下指令後,便可以搜尋到網路的資料,再轉 發給使用者所有的資訊.. (4)

(A) 數學符號 (如方程式) 上網的問題: 對想要製作數學網頁的人, 數學符號一直是一個麻 煩, 更何況是中文數學網頁。 對於網頁負擔量輕的網站, 固然可以使用微軟 WORD 程 式中有限的方程式功能去

分離個體化階段是 Mahler

【定義2.2.2 】 順序尺度(ordinal scale) 其特性除了具有類別尺度的數字或代號性 質外,還可以依資料的重要性、等級或強

[7] Daisuke Kanjo, Yukiko Kawai, and Katsumi Tanaka, “A3: framework for user adaptation using xslt”, Proceedings of the 13th international World Wide Web conference on

石器的製造是判定人類智力進化的重要指標。人之所以異於禽獸,主要是兩者形體和