• 沒有找到結果。

利用資料探勘技術分析圖書館讀者個人化之書籍推薦

N/A
N/A
Protected

Academic year: 2021

Share "利用資料探勘技術分析圖書館讀者個人化之書籍推薦"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

利用資料探勘技術分析圖書館讀者個人化之書籍推薦

陳垂呈

戴良安

王筱薇

南台科技大學資訊管理研究所

E-mail: [email protected], { n9090023, m9390229}@webmail.stut.edu.tw

摘要

在讀者到圖書館借閱書籍的過程中,圖書館所 扮演的角色往往是被動的,如何以主動地推薦書籍 的方式來吸引讀者到館借閱,進而提昇書籍的借閱 率與利用率,是圖書館管理上必須思考的問題之 一。在本篇論文中,我們以讀者之借閱資料為探勘 的資料來源,每一筆借閱資料記錄有讀者曾經借閱 過的書籍項目,利用資料探勘(data mining)技術分別 從以下兩方面來探討如何發掘讀者個人化的書籍 推薦:一是考量書籍借閱無次序性,我們以某一讀 者之借閱資料X為探勘的目標,探勘前置項目組為 與X有相關的關聯規則Y→Z, Y⊆X、Y∩Z=∅,X、Y、 Z分別為包含一個或以上之書籍項目所形成的項目 組,從關聯規則所顯示出的傾向特徵,可發掘此一 讀者個人化最適性的書籍推薦。二是考量書籍借閱 有次序性,我們仍以某一讀者之借閱資料<X>為探 勘 的 目 標 , 探 勘 最 大 次 序 <U, V>, <U>⊆<X>、 <U>∩<V>=∅、<V>∩<X>=∅,<X>、<U>、<V>分 別為包含一個或以上之書籍項目所形成的有次序 項目組,從最大次序所顯示出的傾向特徵,可發掘 具有借閱次序之此一讀者個人化最適性的書籍推 薦。我們根據所提出的方法,設計與建置一個讀者 個人化最適性之書籍推薦系統。此探勘結果,對圖 書館在擬訂最適性之讀者個人化書籍推薦時,可以 提供非常有用的參考資訊。 關鍵詞:資料探勘、關聯規則、次序、圖書館、書 籍推薦。

1. 簡介

藉由資訊技術的支援,電子化圖書館的經營方 式也日漸成熟,圖書館所提供的服務也愈來愈多樣 化,電子圖書、網際網路、儲存光碟、多媒體等科 技媒體的出現,帶動了資訊儲存及檢索的新紀元。 圖書館改變以往傳統搜尋書籍資料的方式,利用國 內外網路上的豐富資源,配合各類電子媒介的輔 助,能使讀者能以最少的時間,即可享受到最大的 服務效益。但如何將傳統圖書館被動式的服務方 式,轉變成以主動積極的方式來吸引讀者到館借 閱,進而提昇讀者的借閱率及圖書館的利用率,是 圖書館經營與管理上必須探討的課題之一。 圖書館中每天均有相當大量的書籍被借閱,在 讀者曾經借閱過的書籍資料中,往往隱藏著書籍之 間的關聯性,例如讀者借閱了一本「C語言程式設 計」書籍,我們會發現其中也會有借閱「資料結構」 書籍、或是一些相關書籍的傾向。因此,如何從累 積數量龐大的借閱資料中,找出對讀者有用的資訊 或其他知識,即成為圖書館管理者必須思考的問題 之一。在圖書館服務的項目中,以讀者個人化為中 心的服務理念,是針對每一讀者個人化的資訊需 求,調整圖書館的讀者服務,把最適性的館藏資訊 主動告知讀者,進而提昇讀者的滿意度與對圖書館 的忠誠度。 在本篇論文中,我們以讀者之借閱資料為探勘 的資料來源,每一筆借閱資料包含有讀者曾經借閱 過的書籍項目,並以某一讀者之借閱資料為探勘的 目標,利用資料探勘(data mining)技術分別從以下兩 方面來發掘讀者個人化最適性的書籍推薦: (1) 考量書籍借閱無次序性:我們以某一讀者之借 閱資料X為探勘的目標,從借閱資料中探勘前置 項目組為與X有相關的關聯規則Y→Z, Y⊆X、 Y∩Z=∅,X、Y、Z分別為包含一個或以上之書 籍項目所形成的項目組。由於Y⊆X,表示關聯 規則與此一讀者有相關性,並由關聯規則所顯 示出的傾向特徵,可發掘出此一讀者個人化最 適性的書籍推薦。 (2) 考量書籍借閱有次序性:我們仍以某一讀者之 借閱資料<X>為探勘的目標,從借閱資料中探 勘最大次序<U, V>, <U>⊆<X>、<V>∩<X>=∅, <X>、<U>、<V>分別為包含一個或以上之書籍 項目所形成的有次序項目組。由於<U>⊆<X>, 表示最大次序與此一讀者有相關性,並由最大 次序所顯示出的傾向特徵,可發掘具有借閱次 序之此一讀者個人化最適性的書籍推薦。 經由上述兩種方法的探勘,我們可以發掘讀者 曾經借閱過之書籍間的關聯性及次序性。我們根據 所提出的方法,設計與建置一個讀者個人化最適性 之書籍推薦系統。此探勘結果,對圖書館在擬訂最 適性之讀者個人化書籍推薦,進而以主動積極的方 式來吸引讀者到館借閱,可以提供非常有用的參考 資訊。 本篇論文的架構如下:下一節中,我們介紹資 料探勘技術、及其在圖書館服務之應用的相關研 究;第3節中,我們考量書籍借閱無次序性,設計 一個演算法來找出與某一讀者之借閱資料有相關 的關聯規則,並藉此發掘此一讀者個人化最適性的 書籍推薦;第4節中,我們考量書籍借閱有次序性, 設計一個演算法來找出與某一讀者之借閱資料有 相關的最大次序,並藉此發掘具有借閱次序之此一 讀者個人化最適性的書籍推薦;第5節中,我們根 據所提出的方法,設計與建置一個讀者個人化最適 性之書籍推薦系統;最後,我們在第6節中做一結 論。

(2)

2. 相關研究

資料探勘(data mining)是從大量資料中找出潛 在有用的資訊與知識,其可完成以下工作或更多: 分類(classification)、關聯規則(association rules)、分 群 (clustering) 、 次 序 相 關 分 析 (sequential pattern analysis)、及預測(forecasting)等[6],其探勘結果對 企業在從事行銷決策及市場預測等活動時,可以提 供非常有價值的參考資訊[7]。對於圖書館的書籍借 閱而言,讀者往往必須在龐大的書籍資料中,找尋 有興趣或想要借閱的書籍資料,而圖書館卻只能被 動地等待讀者來借閱書籍。如此結果,不僅造成讀 者搜尋書籍資料的困擾,也造成書籍的借閱率不 佳。 利用資料探勘技術於圖書館經營服務之應用 的相關研究有:[1]曾利用k-means的方法來形成學 習社群,以支援電子圖書館之個人化服務;[2]曾利 用關聯規則於數位圖書館的個人化服務及管理;[3] 曾 提 出 利 用資 料 探 勘 技術 來 發 掘 讀者 的 社 群 關 係,進而達到吸引讀者借閱書籍,以提昇圖書館之 借閱率與讀者忠誠度等目的;[4]曾利用資料探勘技 術來找出讀者與圖書之間的一般化關聯規則,做為 讀者之新書推薦的依據;[5]曾以模糊理論(fuzzy)與 資料探勘技術來分析讀者的借閱資料,進而提供相 關的書籍推薦給讀者參考。因此,如何貼切地提供 讀書個人化的書籍推薦,已成為提昇圖書館之經營 與服務最重要研究的課題之一,也是資料探勘技術 重要的應用主題之一。 Agrawal等人[8]首先提出擷取關聯規則來顯示 出項目之間的關聯性,關聯規則的定義說明如下: 假設I是所有項目的集合,T是全部交易資料的集 合,一筆交易資料Tj,Tj∈T,是由一個或以上項目 所組成的集合,稱之為項目組(itemsets) ,若一個項 目組包含有k個項目,稱之為k-項目組(k-itemsets), 以itemsetk表示之,k ≥1。在項目組X與Y之間有一關 聯規則被表示成X→Y,X、Y⊆I且X∩Y=∅,其中X 稱之為前置項目組,Y稱之為後置項目組。有兩個 參 數 s 與 c 分 別 為 支 持 度 (support) 與 信 賴 度 (confidence),用來決定關聯規則是否成立;支持度 s的定義為:在所有的交易集合中,同時包含有X∪Y 的比率值,即s=(同時包含有X∪Y的交易數量)/(總交 易數量);信賴度c的定義為:在包含有X的交易集合 中,也同時包括有Y的比率值,即c=(同時包含有X∪Y 的交易數量)/(包含有X的交易數量)。擷取出來的關 聯規則,其支持度與信賴度必須大於或等於所指定 的最小支持度與最小信賴度,這樣的關聯規則才成 立。 在眾多擷取關聯規則的方法中,以Apriori演算 法[9]是最具代表性,其探勘過程主要分成兩個階 段:首先,找出滿足最小支持度的所有項目組,這 些 滿 足 最 小支 持 度 的 項目 組 就 稱 之為 大 項 目 組 (large itemsets),若某k-項目組滿足最小支持度,即 稱之為大k-項目組(large k-itemsets),k ≥1,以largek

示之;然後,就根據前階段所找出的大項目組及以 最小信賴度為條件,計算出所有符合的關聯規則。 例如ABC為大3-項目組,假如關聯規則AB→C滿足 最小信賴度,則此關聯規則成立,擷取關聯規則的 相關研究可參考[10, 11]。 我們說明Apriori演算法[10]擷取關聯規則的步 驟如下: (1) 找出largek-1,k>1,若為∅,則停止執行。 (2) 由(1)中組合任兩個有k-2項目相同的largek-1,形 成itemsetk(3) 判 斷 由 (2) 所 找 出 的 itemsetk其 所 有 包 括 的 itemsetk-1之子集合是否都出現在(1)中,假如成 立就保留此itemsetk,否則就刪除。 (4) 再檢查由(3)所擷取的itemsetk是否滿足最小支 持度,假如符合就成為largek,否則就刪除。 (5) 計算largek所形成的關聯規則,若滿足最小信賴 度,則關聯規則成立。 (6) 跳至(1)找largek+1,直到無法產生大項目組為 止。 傳統關聯規則只考量其項目是否出現,並未考 量項目出現的次序性,但考量現實的交易情形往往 是包含了購買時間的前後關係。次序相關分析是在 一群有次序的交易資料中,找出會時常出現的次序 型樣(sequential pattern),藉此可分析消費者有次序 性的購買行為,其特點在於型樣中每個項目的前後 位置為型樣的識別特徵之一,也就是型樣中的項目 之間是含有次序性,因此在尋找循序樣式時,會有 一個用以決定項目先後次序的衡量方式,如時間, 所有的項目或項目集合依據該衡量方式做次序排 列,而尋找次序型樣就是要在這些有次序的資料 中,找出有趣的規則。例如,某一讀者在時點1借 閱了A-書籍,在時點2又借閱了B、C兩本書籍,在 時點3又借閱了D-書籍,經過排序與分析所有讀者 的借閱資料之後,如果ACD是找出的次序型樣,表 示許多讀者在借閱了A-書籍之後,會有借閱C、D-書籍的傾向。次序相關分析的相關研究可參考[12, 13]。 在本篇論文中,我們以讀者之借閱資料為探勘 的資料來源,並以某一讀者之借閱資料探勘的目 標,利用資料探勘技術分別從下兩方面來探討如何 發掘讀者個人化最適性的書籍推薦:一是考量書籍 項目之借閱無次序性;二是是考量書籍項目之借閱 有次序性。藉由找出的規則型樣所顯示出的傾向特 徵,可發掘此一讀者個人化最適性之書籍推薦、及 發掘具有借閱次序之此一讀者個人化最適性的書 籍推薦。

3. 發掘讀者個人化之書籍推薦

在此一章節中,我們以讀者之借閱資料為探勘 的資料來源,每一筆借閱資料包含有讀者曾經借閱 過的書籍項目,其中的書籍項目都已事先排序過, 並以某一讀者為探勘的目標,利用資料探勘技術做 為發掘讀者個人化之書籍推薦的依據。此章節共分 為兩小節如下:第3.1節中,我們設計一個演算法來 發掘讀者個人化最適性的書籍推薦;第3.2節中,我 們以一實例做說明。 3.1 擷取與某一讀者有相關的關聯規則

(3)

假設目前欲探勘之某一讀者的借閱資料為X,X 為包含一個或以上之書籍項目所形成的項目組,我 們必須找出以下形式的關聯規則: Y→Z, Y⊆X、Y∩Z=∅,Y、Z為包含一個或以上 之書籍項目所形成的項目組,Y∪Z是大項目組。 其顯示出的借閱傾向為:若讀者曾經借閱過Y書 籍,則也會有借閱Z書籍的傾向。由於Y⊆X,表示關 聯規則與此一讀者具有相關性,且若Y愈相似於X, 則關聯規則的相關性愈強,其借閱的傾向性也愈 強。因此,藉由關聯關規則的傾向性,可做為發掘 此一讀者個人化之書籍推薦的依據。 以下是我們為了配合探勘的需要及避免計算 與X無關的項目組,而修改Apriori演算法,直接組 合X中之項目與非X中之項目而形成的項目組,並判 斷這些項目組是否為大項目組,擷取的過程說明如 下: (1) 從X中及非X中找出large1,且必須至少各包含有 一項。 (2) 由(1)中,組合包含於X中之任一large1與非包含

於X中之任一large1而形成itemset2,檢查itemset2

是否滿足最小支持度,假如符合就成為large2, 否則就刪除。 (3) 找出所有的largek-1,k>2。 (4) 由(3)中,組合任兩個有k-2項目相同的largek-1形成itemsetk(5) 判斷由(4)所找出的itemsetk,其所包括的所有子 集 合 itemsetk-1是 否 都 有 出 現 在 (3) 中 ( 若 itemsetk-1∩X=∅、或itemsetk-1∩非X=∅,則不列 入考慮),假如成立就保留此itemsetk,否則就刪 除。 (6) 檢查由(5)所找出的itemsertk是否滿足最小支持 度,假如符合就成為largek,否則就刪除。 (7) 計算largek所形成的關聯規則,其形式為:Y→Z, Y⊆X、Y∩Z=∅,Y∪Z是∈largek(8) 跳至(3)繼續找出largek+1,直到無法產生大項目 組為止。 從以上演算法的(2)步驟開始,我們所擷取出的 largek,必定為largek∩X≠∅,表示與此一讀者之借 閱資料有相關性,計算大項目組所形成的關聯規則 Y→Z, Y⊆X,若滿足最小信賴度,則我們做成以下 的定義:藉由關聯規則Y→Z所顯示出的借閱傾向, Z為此一讀者個人化最適性之書籍推薦,且Y愈相似 於X,則借閱的傾向性也愈強。 3.2 實例說明 我們以表1的借閱資料庫D來進行分析,I={A, B, C, D, E}為所有書籍項目的集合,R={R1, R2, R3, R4, R5}為5筆讀者之借閱資料的集合,最小支持度為 40﹪(即最小支持數量為2),最小信賴度設為60%。 假設目前欲探勘之讀者為R5,其借閱資料為BC,以 下我們說明發掘此一讀者最適性之書籍推薦的探 勘過程。 表 1 借閱資料庫 D 借閱資料 書籍項目 R1 ACD R2 BCE R3 ABCE R4 BE R5 BC 擷取與 BC 有相關之大項目組的過程如下:

itemset1 itemset1 出現次數 large1 出現次數

B B 4 B 4 C C 4 C 4 A A 2 A 2 D D 1 E 3 E 掃瞄 D E 3 ≥2

itemset2 itemset2 出現次數 large2 出現次數

AB AB 1 BE 3 BE 掃瞄 D BE 3 ≥2 AC 2 AC AC 2 CE 2 CE CE 2

itemset3 itemset3 出現次數 large3 出現次數

BCE BCE 2 BCE 2

ACE 步驟(5)、(6) ACE 1 ≥2 無 4-項目組 我們以大 3-項目組 BCE 為例,計算形成的關 聯規則 BC→E,其信賴度為 2/3=67%,滿足最小 信賴度,因此,此一讀者最適性之書籍推薦為 E。

(4)

4. 考量具有借閱次序之讀者個人化的

書籍推薦

對於讀者在不同時間下借閱過之書籍項目,往 往也反映出書籍被借閱的次序性,其可能顯示讀者 在需求上或是書籍專業上的次序性。在此章節中, 我們以讀者之借閱資料為探勘的資料來源,每一筆 借閱資料包含有曾經借閱過的書籍項目,其中的書 籍項目都依借閱的時間事先排序過,並以某一讀者 為探勘的目標,利用資料探勘技術做為發掘具有借 閱次序之讀者個人化的書籍推薦的依據。此章節共 分為兩小節如下:第4.1節中,我們設計一個演算 法來發掘具有借閱次序之讀者個人化最適性的書 籍推薦;第4.2節中,我們以一實例做說明。 4.1 擷取與某一讀者有相關之最大次序 我們說明一些名詞的定義如下: (1) 次序(sequence):為有次序性之k個項目組所組 成的集合,k≥1,以sequencek表示之,例如一 讀者先借閱A-書籍與B-書籍,然後再借閱C-書籍、D-書籍與E-書籍,則以<AB, CDE>來表 示一個次序,任何一讀者有次序性之借閱資料 可視為一次序。 (2) 次序支持度=包含有某一次序之交易資料的數 量/全部交易資料的數量。若某一次序的支持 度大於或等於最小次序支持度,則稱之為大次 序(large sequence),一大次序若包含有k個項目 組,則稱為大k-次序,以Lsequencek表示之。 (3) 最大次序(maximal sequence):若一大次序<X1, X2, …, Xn>包含於另一大次序<Y1, Y2, …, Ym>

中 , 則 X1⊆Yi1, X2⊆Yi2, …, Xn⊆Yin, 其 中

i1<i2< …<in≤m,例如一大次序<A, CD>包含

於另一大次序<AB, CDE, F>中。若一大次序不 包含於任何的大次序中,則稱此大次序為最大 次序。 次序相關分析的目的,就是要找出所有能滿足 最小支持度的最大次序之集合,並分析最大次序中 的項目集合,以找出項目的先後次序關係。此一小 節的目的就是:從讀者有次序性的借閱資料中,找 出滿足最小次序支持度的最大次序,並從最大次序 所顯示出的借閱傾向特徵,來發掘具有借閱次序之 讀者最適性的書籍推薦。 假設欲探勘之讀者的借閱資料為<X>,<X>為 一次序,根據次序的定義,我們必須找出以下形式 的最大次序:

<U, V>:<U>⊆<X>, <U>∩<V>=∅, <V>∩<X> =∅, <U>、<V>皆為一次序,<U, V>為最大次序。 其顯示出的借閱傾向為:若讀者曾經借閱過<U>書 籍,則接下來也會有借閱<V>書籍的傾向。由於 <U>⊆<X>,表示最大次序與此一讀者具有相關 性,且若<U>愈相似於<X>,則最大次序的相關性 愈強,其借閱的傾向性也愈強。因此,藉由最大次 序的傾向性,可做為發掘具有借閱次序之此一讀者 個人化之書籍推薦的依據。 以下是我們為了配合探勘的需要及避免計算 與<X>無關的項目組,而修改次序相關演算法的步 驟[12, 13],直接組合<X>中之項目與非<X>中之項 目而形成的項目組,並判斷這些項目組是否為大次 序,擷取的過程說明如下: (1) 對所有讀者之借閱資料中的書籍項目,依借閱 時間做遞增或遞減的方式排序。 (2) 從<X>中及非<X>中找出Lsequence1,且必須至 少各包含有一項。 (3) 從(2)中組合兩個Lsequence1形成Lsequence2,其 中前面項目⊆<X>,而後面項目⊄<X>。 (4) 找出Lsequencek-1,k>2。 (5) 由 (4) 中 排 列 組 合 任 兩 個 有 k-2 項 目 相 同 的 Lsequencek-1,形成sequencek且其中前面項目 ⊆<X>。 (6) 判 斷 由 (5) 所 找 出 的 sequencek其 所 有 包 括 的 sequencek-1之子集合是否都出現在(4)中,若 sequencek-1∩<X>=∅ 、 或 sequencek-1∩ 非 <X>=∅,則不列入考慮,假如成立就保留此 sequencek,否則就刪除。 (7) 再檢查由(6)所擷取的sequencek是否滿足最小次 序支持度,假如符合就成為Lsequencek,否則就 刪除。 (8) 跳至(4)找Lsequencek+1,直到無法產生大次序為 止。 (9) 確認Lsequencek之最大化,即若一大次序包含於 另一大次序中,則刪除掉。 從以上演算法的(3)步驟開始,我們所擷取出 的sequencek,其型樣必定為<U, V>且<U>⊆<X>,

表示與此一讀者之借閱資料有相關性,且在(5)步 驟中所排列組合形成的sequencek,可以產生不同的 項目次序。我們計算最大次序所形成的型樣<U, V>,做成以下的定義:藉由最大次序<U, V>所顯 示出的借閱傾向,<V>為具有借閱次序之此一讀者 個人化最適性的書籍推薦,且<U>愈相似於<X>, 則借閱的傾向性也愈強。 4.2 實例說明 我們以表 2 的借閱資料庫D來進行分析,I={A, B, C, D, E}為所有書籍項目的集合,R={R1, R2, R3, R4}為 4 筆讀者之借閱資料的集合,設定最小次序 支持度為 50﹪(即最小支持數量為 2)。假設目前欲 探勘之讀者為R4,其借閱資料為<A, B>,以下我們 說明發掘具有借閱次序之此一讀者最適性書籍推 薦的探勘過程。 表 2 借閱資料庫 D 借閱資料 書籍項目 R1 <A, BC, E> R2 <A, C, D> R3 <A, BC, D, E> R4 <A, B>

(5)

擷取與<A, B>有相關之大次序的過程如下:

sequence1 sequence1 出現次數 Lsequence1 出現次數

<A> <A> 4 <A> 4 <B> <B> 3 <B> 3 <C> <C> 3 <C> 3 <D> <D> 2 <D> 2 <E> 掃瞄 D <E> 2 ≥2 <E> 2 <BC> <BC> 2 <BC> 2

sequence2 sequence2 出現次數 Lsequence2 出現次數

<A, C> <A, C> 3 <A, C> 3 <A, D> <A, D> 2 <A, D> 2 <A, E> <A, E> 2 <A, E> 2 <A, BC> <A, BC> 2 <A, BC> 2 <B, C> <B, C> 2 <B, C> 2 <B, D> <B, D> 1 <B, E> 2 <B, E> 掃瞄 D <B, E> 2 ≥2

sequence3 sequence3 出現次數 Lsequence3 出現次數

<A, C, D> <A, C, D> 2 <A, C, D> 2 <A, C, E> <A, C, E> 2 <A, C, E> 2 <A, B, C> <A, B, C> 2 <A, B, C> 2 <A, D, E> <A, D, E> 1 <A, BC, E> 2 <A, BC, E> <A, BC, E> 2

≥2

<A, B, E> 2 <A, B, E>

步驟(6)、(7)

<A, B, E> 2

sequence4 sequence4 出現次數 Lsequence4 出現次數

<A, C, D, E> <A, B, C, E> 2 <A, B, C, E> 2 <A, B, C, D> 步驟(6)、(7) ≥2 <A, B, C, E> 無sequence5。 刪除被包含於其他大次序的大次序,可得到最 大次序為:<A, B, C, E>及<A, C, D>。我們以最大 次序<A, B, C, E>為例,其所顯示出的傾向特徵, 可發掘出具有借閱次序之讀者R4個人化最適性的 書籍推薦為<C, E>。

5. 讀者個人化最適性之書籍推薦系統

我們利用前面章節所描述的方法,應用到探勘 讀者個人化最適性之書籍推薦的系統實作上。我們 以 C#為撰寫的程式語言,在不失一般性的條件 下,假設書籍項目全部有 26 項,分別以 A, B, C, …, Z 來表示之,以亂數隨機產生每一讀者的借閱資 料,共產生 200 筆借閱資料,以下為此一系統探勘 過程的執行畫面。圖 1 為系統的借閱資料,包含有 「讀者編號」與「曾經借閱過的書籍」等欄位資料。 圖1 借閱資料 圖2為探勘畫面,其中包含有兩項功能選項: 「發掘讀者個人無次序性之書籍推薦」與「發掘讀 者個人有次序性之書籍推薦」。假設目前點選「發 掘讀者個人無次序性之書籍推薦」功能,在「輸入 欲探勘之讀者編號」欄位中填入欲探勘的讀者編 號,並分別輸入「最小支持度」及「最小信賴度」 等數值,經由第3章節演算法的探勘過程,可在「關 聯規則」欄位中顯示出找到的關聯規則,並在「個

(6)

人化最適性的書籍推薦」欄位中顯示出探勘的結 果,如圖2。 圖2 發掘讀者個人化最適性之書籍推薦的 執行畫面 若點選「發掘讀者個人有次序性之書籍推薦」 功能,則可在「個人化最適性的書籍推薦」欄位中 顯示出包含有借閱次序之書籍推薦的探勘結果,如 圖 3。 圖3 發掘具有借閱次序之個人化最適性的 書籍推薦的執行畫面

6. 結論

圖書館除了蘊藏豐富的書籍與其他多樣的資 料,也儲存了大量讀者借閱書籍的記錄,如何有效 利用這些大量的借閱資料,找出對讀者有用的資 訊,進而以主動積極的方式來吸引讀者到館借閱, 是圖書館管理者必須考量的問題之一。在本篇論文 中,我們以讀者之借閱資料為探勘的資料來源,並 以某一讀者為探勘的目標,利用資料探勘技術分別 從以下兩方面來探討如何發掘此一讀者個人化的 書籍推薦:一是考量書籍借閱無次序性;二是考量 書籍借閱有次序性。我們從探勘出的關聯規則及最 大次序,可分別發掘出此一讀者個人化最適性的書 籍推薦、及發掘具有借閱次序之此一讀者個人化最 適性的書籍推薦。探勘的過程中,從資料的蒐集、 分析、方法的設計、及結果的推導,可顯示出我們 所設計之方法的有用性及創新。本篇論文之探勘結 果,對圖書館在擬訂讀者個人化最適性的書籍推薦 時,必可提供非常有用的參考資訊。

參考文獻

[1] 陳慶瑄。學習社群對電子圖書館個人化服務之 影響。國立中正大學資訊管理研究所碩士論 文,2000。 [2] 孫冠華。應用資料探勘技術於數位圖書館之個 人化服務及管理。南華大學資訊管理學研究所 碩士論文,2003。 [3] 吳安琪。利用資料探勘的技術及統計的方法增 強圖書館的經營與服務。國立交通大學資訊科 學研究所碩士論文,2001。 [4] 洪志淵。圖書流通記錄之一般化相關規則找尋 之研究。國立中山大學資訊管理研究所碩士論 文,2001。 [5] 張苑菁。以模糊理論建構之圖書推薦系統。淡 江大學資訊工程研究所碩士論文,2001。 [6] M. S. Chen, J. Han, and P. S. Yu, “Data Mining:

An Overview from a Database Perspective,” IEEE Trans. on Knowledge and Data Engineering, pp. 866-883, 1996.

[7] M. J. A. Berry and G. Linoff, Data Mining Techniques for Marketing, Sales, and Customer Support, New York: John Wiley, 1997.

[8] R. Agrawal, T. Imielinski, and A. Swami, “Mining Association Rules between Sets of Items in Very Large Database,” Proceedings of the ACM SIGMOD Conference on Management of Data, pp. 207-216, 1993.

[9] R. Agrawal and R. Srikant, “Fast Algorithms for Mining Association Rules in Large Database,” Proceedings of the 20th International Conference on Very Large Data Bases, pp. 487-499, 1994. [10] J. S. Park, M. S. Chen. and P. S. Yu, “Using a

Hash-Based Method with Transaction Trimming for Mining Association Rules,” IEEE Transactions on Knowledge and Data Engineering, Vol. 9, No. 5, pp. 813-825, 1997. [11] R. Srikant and R. Agrawal, “Mining Generalized

Association Rules,” Proceedings of the 21th International Conference on Very Large Data Bases, pp. 407-419, 1995.

[12] R. Agrawal and R. Srikant, “Mining Sequential Patterns,” Proceedings of the International Conference on Data Engineering (ICDE), 1995. [13] R. Srikant and R. Agrawal, “Mining Sequential

Patterns: Generalizations and Performance Improvements,” Proceedings of the Fifth International Conference on Extending Database Technology (EDBT), 1996.

參考文獻

相關文件

“Transductive Inference for Text Classification Using Support Vector Machines”, Proceedings of ICML-99, 16 th International Conference on Machine Learning, pp.200-209. Coppin

Parallel dual coordinate descent method for large-scale linear classification in multi-core environments. In Proceedings of the 22nd ACM SIGKDD International Conference on

Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp.298-306.. Automatic Classification Using Supervised

Core vector machines: Fast SVM training on very large data sets. Using the Nystr¨ om method to speed up

Core vector machines: Fast SVM training on very large data sets. Multi-class support

A dual coordinate descent method for large-scale linear SVM. In Proceedings of the Twenty Fifth International Conference on Machine Learning

Core vector machines: Fast SVM training on very large data sets. Multi-class support

in Proceedings of the 20th International Conference on Very Large Data