• 沒有找到結果。

圖書館的圖書推薦與資料探勘

資料探勘大多使用於具有大量交易或歷史資料的應用情境,諸如零售業、網站書店等等,

由於資料都不具匿名性、可追蹤到單一客戶的偏好,因而能夠推薦個別使用者有興趣的物件。

對網路書店而言,推薦能夠提高顧客的回店誘因,進而促進消費;對圖書館而言則屬於經營 層次,能夠提高圖書資源的能見度,吸引讀者來館借閱,提高資源的利用率。

(一) 使用者導向之網路資源組織

卜小蝶以更Web 2.0 的方式,將應用在圖書館的推薦區分為「使用者導向之網路資源組織」

與「使用者導向之網路資源檢索」(卜小蝶 2007)。該架構以圖 10 表示如下。

圖 10 推薦方法分類。修改自資料來源:(卜小蝶 2007)

主題式資源指引網站(SG, Subject Gateway)是一種經過高品質篩選、並以各特定學科或 研究領域將網路資源分類的目錄索引。SG 通常由圖書館建置維護,由專業館員及學科專家 貢獻內容,故多以學術性見長,也符合圖書館要服務的目標讀者。國內目前建置有SG 的圖 書館包括了交通大學、台灣大學等校。

圖 11 交通大學學科資源網。資料來源:交通大學圖書館

交通大學圖書館採取自行建置的方案,提供分類目錄及搜尋的功能,現階段以人工處理 的方式建置,並以經營社群的方式鼓勵各學科專家無償貢獻內容。圖 11 即為交大學科資源 網的分類索引畫面。以交通大學圖書館而言,設有常態性的推廣活動鼓勵學生主動推薦學科 資源,以增加學生參與的誘因快速累積資源,是國內圖書館較少見的「虛實整合」的行銷案 例。台灣大學圖書館則與Yahoo!奇摩合作,以搜尋方式為應用主軸,同樣以社群方式鼓勵學 生主動推薦學術資源。

為了能解決人工建置SG 的成本及效率問題,國際上另在進行 SG 自動索引及分類的研 究計畫,包括INFOMINE、GERHARD 及 Scorpion。目前執行成果較佳的 INFOMINE 是由美 國加州大學河濱分校(UCR, University of California, Riverside)圖書館建置,已具有超過十萬 筆網路資源索引,其中約四分之三是機器自動產生、四分之一是人工建置。UCR 圖書館用來 建置INFOMINE 的開放原始碼軟體相關套件名為 iVia,主要功能是網頁的抓取(Crawling)

及詮釋資料自動編製(Metadata Assignment),UCR 圖書館也無償提供下載1

圖 12 賓州大學 PennTags。資料來源:賓州大學圖書館 PennTags 網站

1 iVia Project 網址 http://ivia.ucr.edu/

「社會性標記網站」(Social Tagging Web)則是圖書館較少參與的領域。一方面原因是 Web 2.0 的風氣與應用在 2000 後才陸續發酵,二方面圖書館對於標記的精確度與品質也持保 留態度,反倒是圖書館之外的網站對於tagging 的應用顯得更為熱中。

學術性的社會性標記網站有賓州大學圖書館的PennTags2(見圖 12),其標記目標較多 元,包括網頁、文件、書籍等,也與賓州大學圖書館相結合,可反查標記書籍是否可供借閱 及館藏地點等。LibraryThing 則是專注在書籍的標記與評價(見「與本研究相關的 Web 2.0 網站」一節,頁14),不能標記其他電子資源。

圖 13 交通大學圖書館讀者興趣屬性。資料來源:交通大學圖書館 PIE@NCTU 網站

「使用者導向之圖書分類關聯分析」為圖書館著力最多的部份。透過大量讀者的借閱歷 史,圖書館研究的目的在於分析讀者的借閱類別及數量,以便將有限的預算花費在最值得投 資的館藏中;或分析讀者的閱讀模式,以了解讀者中是否形成數個具有明顯特徵的族群,預 測其未來的借閱需求並提供推薦服務。技術上常採用關聯規則探勘或分群分析,找出書籍與

2 PennTags 網址 http://tags.library.upenn.edu/

書籍的關係、讀者與讀者的關係及圖書與讀者的關係等三種預期的結果。

戴玉旻就曾以交通大學圖書館借閱記錄作資料探勘(戴玉旻 2001)、找出圖書與圖書之間 的關係,並針對不同系所讀者找出相關規則。為了讓規則更容易使用,探勘結果導入交通大 學個人化數位圖書資訊環境PIE@NCTU 中(楊雅雯 民 90),讀者可以在網站上了解自己的興 趣屬性,如圖 13。

余明哲更將交通大學圖書館的推薦系統推進到了個人化的層次(余明哲 2003),以乏析式 的協力式過濾找出讀者間的關聯性並得出推薦清單,再以內容導向過濾排序,找出符合讀者 興趣的館藏。

(二) 使用者導向之網路資源檢索

「網路使用者之檢索行為」則指使用者自行輸入關鍵字查詢,從分類目錄瀏覽、全文網 頁搜尋到使用者導向排序,網路使用者歷經了Yahoo!早期、AltaVista 到 Google 等三個搜尋 時期的應用典範。關鍵字查詢的方式無疑是現今最容易使用且無需學習的檢索方式。

然而隨著使用者的多元發展,逐漸無法照顧到個別使用者的需要,搜尋引擎開始利用檢 索記錄分析(Log Analysis)的方法來記錄使用者的操作,並依此產生一些系統關鍵字來代表 使用者的興趣。楊雅雯應用在交通大學圖書館的PIE@NCTU 便是一套以智慧型個人化查詢 系統來處理查詢館藏的應用範例(楊雅雯 民 90)。當使用者查詢館藏資料時,系統會利用系統 判斷關鍵字、使用者自訂關聯字和使用者自選類別等三類資訊,過濾、排序出最需要的館藏 並得出清單。另外,此份個人興趣設定也同步套用到圖書館的新書通報功能上。當圖書館有 新書到館時,系統會過濾使用者的興趣,並發送符合條件的新書通告給讀者,如圖 14 的操 作畫面。

「網路圖像檢索行為」指的是搜尋目標為「圖像」而非文字,例如輸入關鍵字「林懷民」, 應該出現的結果是「林懷民」的圖像而不是文字資料。概念式的圖像檢索(Concept-based)

通常以圍繞在圖像旁邊的文字(Surrounding Texts)建立文字索引,而使用者輸入關鍵字後,

系統再以關鍵字查詢索引,這點與文字搜尋並無相異之處。圖像內容式的檢索(Content-based)

則與圖學有關,以顏色、形狀、樣式(Texture)、空間(Spatial)等特徵為主,利用圖像擷取 技術依此建立索引,使用者再利用這些特徵查詢圖像。

圖 15 圖像檢索示例。資料來源:GettyImages 網站

著名圖庫網站GettyImages 便使用概念式的索引方法為使用者建立品質較高(因為人工 處理)的圖像搜尋引擎。從圖 15 輸入 taiwan 回傳結果包含有台灣地圖、大中至正門、京劇 演員、台北101 等內容的多樣性看來,的確是圖像內容式檢索較難達成的效果。

以圖書館較偏重文字閱讀的發展方向而言,類似的圖像檢索較少見到實際應用。

「搜尋記錄於關鍵字推薦之應用」是一種利用關鍵字自動抽取(Keyword Extraction)及 互動式資訊檢索技術(Interactive Information Retrieval)發展的推薦方法,其推薦的方法是在 輸入關鍵字時、自動建議相關的關鍵字,而兩關鍵字經常能組合成一關鍵詞。利用此種方法,

能夠有助聯想並擴大檢索範圍。

圖 16 Google 的關鍵字推薦。資料來源:Google.com

Google 應是目前最好的關鍵字應用示範,圖 16 是輸入交通大學的畫面。Google 依據搜 尋的結果數量及PageRank 分數過濾並排序建議關鍵字清單。

圖 17 整理了目前交通大學圖書館提供的推薦服務,楊雅雯、戴玉旻與余明哲合力接續 研究發展的PIE@NCTU 為交通大學圖書館使用者導向之圖書分類關聯分析與智慧型檢索功 能奠下基礎;2007 新開放的交大學科資源網則為大學圖書館讀者建立了主題式資源索引的交

換分享平台;本論文實作的Abu 系統兼具社會性標記網站及使用者導向之圖書分類關聯分析 功能,補足了交大圖書館在「使用者導向之網路資源組織」上的功能。

圖 17 交通大學圖書館目前提供的推薦服務。資料來源:本論文