• 沒有找到結果。

研究方法與目標

第一章 緒論

第二節 研究方法與目標

本論文提出的個人化圖書館館藏推薦系統,同時採用協力式過濾 (Collaborative Filtering) 和內容導向過濾 (Content-Based Filtering) 這兩個推薦方法。

協力式過濾的方法是一種最典型的推薦方法,自從 1992 年由 Goldberg 等人在[14]

中提出後就被廣泛採用在一般的推薦系統中,甚至在 1997 年 Resnick 和 Varian 提出推 薦系統 (Recommender System) [23]這個名詞之前,協力式過濾就是推薦系統的代名詞。

協力式過濾主要的概念是使用者利用同儕對某物品既有的評價來預期自己對該物品可 能的評價。這個想法就好像當我們要做某樣決定之前,會事先詢問一些有經驗的人,以 他們的意見做為決定的參考。

本篇論文將協力式過濾的概念應用在圖書館上,希望使用者之間能互相分享資訊,

每個使用者都是過濾代理人 (Filtering Agent),可以幫忙篩選館藏,提供別人借閱書籍意 見參考。而圖書館中每個使用者的借閱歷史可視為是給別人的館藏推薦清單,使用者可

以參考這些推薦清單,來挑選自己有興趣的館藏,而不用從圖書館眾多的館藏中盲目地 尋找。

不過若一個圖書館有上千名使用者,如果要使用者從這上千份推薦清單中挑選自己 感興趣的館藏,事實上的意義跟使用者要直接從館藏中挑選自己需要的館藏一樣困難且 麻煩。而且這麼多的推薦清單中,其實並不是每一份都是適合自己需要的,因為每個人 的興趣或目的不同,所以會借閱不同的館藏,分別產生有不同的借閱歷史和推薦清單,

而其中可能只有某部分清單是真正符合使用者需要的。因此我們這套系統還必須事先幫 使用者決定那些推薦清單是使用者需要或感興趣的,而不需要使用者每次都從這上千份 推薦清單中挑選。

本論文用的方法是先? 使用者挑選和他有相同借閱興趣的其他使用者,稱之為“同 好” (Friends)。同好間因為借閱興趣類似,所以他們的借閱歷史,也就是本論文所認為 他們給其他同好的推薦清單,對使用者來說有比較高的參考價值。而認定有相同借閱興 趣的標準是依照使用者間借閱過相同館藏的數量,相同的館藏愈多時代表相同的借閱興 趣就愈高。當使用者相同的借閱興趣高過某一個標準時,我們就認定他們是“同好”。

找 出 有 相 同 借 閱 興 趣 同 好 的 方 法 , 主 要 是 採 用 資 料 探 勘 中 的 關 聯 規 則 探 勘 (Association Mining),並且? 了配合圖書館特殊的資料類型,同時也參考了乏析式資料 探勘 (Fuzzy Data Mining) [17], [18]的方法。在實作上,則是採用[3]中所提出的以前序樹 (Prefix Tree) 為 基 本 概 念 實 作 的 Apriori [2] 演 算 法 來 找 出 頻 繁 項 目 集 (Frequent Itemsets),也就是找出有相同借閱興趣的使用者群。

內容導向過濾事實上比協力式過濾更早被應用在篩選資料上,通常內容導向過濾根 據使用者輸入的關鍵字,由系統來篩選出符合這些關鍵字或者符合這些關鍵字語意概念 (Semantic Concept) 的資料。一般內容導向過濾的方法都會運用到資訊擷取 (Information Retrieval) 的技巧來萃取出資料中的內容[27]。顧名思義,內容導向過濾主要是根據資料 的內容來篩選資料。這一點和協力式過濾相比是很明顯的不同,因為協力式過濾主要利

用眾人的意見來篩選資料,完全跟資料的內容無關。但是內容導向過濾通常需要收集許 多系統中物件的內容資料,再利用一個模型 (Model) 根據物件的內容來替系統內的每個 物件建立各自的屬性表示式 (Representation),此模型通常是向量空間模型 (Vector Space Model),建出來的屬性表示式以向量表示。內容導向的方法因為實際考慮到物件的內容 屬性,所以系統中的物件利用各自的屬性向量表示式來比較彼此間相似度時,通常有相 當高的準確率。

但是在推薦系統中要找出一個適合的模型來描述整個系統,並且從每個物件中抽取 足夠的資訊來使系統中的每個物件都能各自的表示式並不容易。主因是在推薦系統中,

通常系統中的每個物件能提供的資訊並不充足。例如推薦書籍,可以獲得的資料只有作 者、出版社、出版日期、摘要等簡單的摘要資訊。只根據這些資料獲得的資訊很難建出 一個可以描述整個系統的模型,所以內容導向過濾的方法相對的比較難被應用在推薦系 統中。

在本論文提出的個人化圖書館館藏推薦系統中 ,採用的內容導向過濾是利用 Lawrence 等人在[8]中所提出來的方法來建立整個系統模型。[8]這篇論文主要目的是建 立一個超級市場中的推薦系統,? 每個消費者建立個人化的推薦清單當做購物時的參 考。[8]在建立內容導向過濾模型的作法是利用超級市場中的商品 分 類 樹 (Product Taxonomy) 為模型基礎,再探勘消費者的消費歷史資料,以找出分類樹中各個分類間的 關聯規則,藉此來替市場中每個商品和每個消費者建立各自的表示式。

超級市場的情境和圖書館頗為類似,在本論文中,我們利用圖書館中原本就有的書 目分類表為內容導向過濾的模型,再探勘使用者在圖書館的借閱歷史檔,找出書目分類 表中各個分類之間的關聯規則。這樣利用[8]中所提出的方法就可以替圖書館館藏推薦系 統中每本書和每個使用者找出各自的表示式。

找出每個物件的表示式後,接下來要找出系統內各個物件間的關係就相當容易,因 為系統中物件的表示式都在同一個空間中,所以要比較彼此間的關係通常只要一個計算 相似度的公式,就可以算出系統中物件間的相關程度。

因此在推薦系統中,若能夠建立使用者和推薦物品的屬性表示式分別代表使用者興 趣和物品屬性,就可以輕易地計算出使用者對推薦物品的喜好度,而不需要像協力式過 濾要參考其他人的意見。同時內容導向過濾也沒有像協力式過濾參考資料不足的問題,

因為在協力式過濾中需要的是眾人對推薦物品的評價,如果某物件太少人甚至根本沒有 人對其有評價,系統將無法為其做推薦。這個問題在內容導向過濾的推薦系統中不存 在,因為內容導向過濾的推薦系統中每個物件都是依照自己的屬性內容來建立表示式,

而要? 每個人找出推薦只要找出與使用者興趣符合度比較高的物件即可。而且因為以內 容導向過濾為主的推薦系統中每個人是以自己的興趣來建立個人的興趣表示式(興趣向 量),所以每個人的興趣向量都不盡相同,各有各自的特性,因此系統可以找出每個人 不同而只適合某個人的推薦,這使得採用內容導向過濾的推薦系統可以更具備個人化的 功能,推薦的東西更能符合個人的需求。

所以在本論文提出的個人化圖書館館藏推薦系統中,我們結合了協力式過濾和內容 導向過濾來產生推薦。利用協力式過濾? 使用者收集其他人的意見,幫助使用者篩選圖 書館的館藏,讓使用者可以更快速地找到有興趣的、甚至是以前從來沒想到或沒接觸過 的館藏。內容導向過濾則是用來進一步篩選之前以協力式過濾找出的推薦清單,藉以提 高推薦的準確度和使推薦具有個人化的功能;並且因為採用內容導向過濾的方法,所以 也能解決協力式過濾無法有效推薦新書[20]或冷門書的問題 (Cold-Start) [25]。

本論文提出的個人化圖書館館藏推薦系統的目標是希望能依據使用者的借閱歷史 來找出他們潛在的興趣,並依照興趣來替每個使用者推薦各自適合的館藏。期待經由這 樣一個新的圖書館服務,能吸引讀者更有效利用圖書館的資源,增加圖書館資源的利用 率,並且提高圖書館的價值。