• 沒有找到結果。

中 華 大 學 碩 士 論 文

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學 碩 士 論 文 "

Copied!
95
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

應用群組化之行動圖書推薦系統 應用群組化之行動圖書推薦系統 應用群組化之行動圖書推薦系統 應用群組化之行動圖書推薦系統

T he stu dy o f g ro u p b a sed bo o k s r e c o m m e n d e r s y s t e m

系 所 別:資訊管理學系碩士班 學號姓名:M09710021 陳弘霖 指導教授:吳玫瑩 博士

中 華 民 國 九十九 年 七 月

(2)

應用群組化之行動圖書推薦系統 應用群組化之行動圖書推薦系統 應用群組化之行動圖書推薦系統 應用群組化之行動圖書推薦系統

學生:陳弘霖 指導教授:吳玫瑩 博士 中華大學資訊管理學系碩士班

摘要

隨著無線網路環境的發展,圖書館網站的瀏覽方式漸漸由傳統的電腦平台,

轉變為透過行動商務技術來提供顧客更即時的資訊。雖然無線網路瀏覽的服務提 供了使用者多元及多樣化的互動及資訊,卻也產生了大量的資訊並造成資訊超載 的現象,因而需要推薦系統來解決此問題。

推薦系統是網路商店上常運用的技術,主要用來提高顧客的購買慾望。我們 將此技術應用在圖書館上,希望能藉由個人化館藏推薦系統推薦給讀者圖書館中 其有興趣的館藏,幫助讀者使用圖書館資源。我們會先透過使用者基本資料中的 學院別的將使用者的身分做有效的區隔,接著利用關聯規則建立不同讀者群的圖 書借閱關聯性,再去做較符合使用者的推薦,近而改善推薦的準確率,同時也希 望圖書館這個新的館藏推薦服務能增加館藏的利用率,並提高圖書館的價值;而 為了因應行動商務的發展,本系統將建構於行動平台中,方便使用者透過網路在 任何地點去操作系統。

本研究期望推薦機制的推薦結果,能減輕使用者在瀏覽時可能因過多且不精 確的資訊所必須承受的負擔以及時間,而使用者也可使用行動平台的操作,更能 快速的去借閱、找尋書籍,透過實作評估中可以看在推薦結果上有較佳的 F-measure (皆高於 44%),可以知道利用分群推薦有較佳的準確度,同時為了瞭 解使用者使用行動圖書推薦系統之後的感受,本研究另進行使用者滿意度的評 估。其研究對象係以中華大學校區附近的使用者為主。從結果中顯示,因素對行 動圖書推薦系統服務滿意度的模型解釋能力為 32%。而資訊品質和知覺有用性對 使用者滿意度有顯著的影響。可以知道使用者使用行動推薦系統對於資訊的滿意 度有相當的要求,此後設計類似系統可以以此為方針作設計。

關鍵詞 關鍵詞 關鍵詞

關鍵詞::::書籍推薦系統、關聯規則探勘、使用者滿意度

(3)

The study of group based books recommender system

Student:Chen, Hung-Lin Advisor:Dr. Wu, Mei-Ying

Department of Information Management Chung Hua University

Abstract

The browsing way to library web site was transferred from the traditional PC platform to the mobile commerce at any time and any where via wireless. Too many information was also emerged, and thus a recommender system was proposed to reduce the information overload to help users finding their books.

In this study, 20 user preferences via the questionnaire were summarized and clustered by similar user preferences. The aim is to target user precisely. Association rule technique was then used to build the frequent itemsets and to recommend related books to users that never borrowed. To evaluate the usage behavior of readers, a user satisfaction derived from information success model and TAM model was used to evaluate the system. The explanatory power to factor and all variables is about 32%

and 38%, respectively. Overall, that information quality and perceived usefulness are important to users.

Keywords: Books recommender system, association rule mining, user satisfaction

(4)

誌謝

首先得感謝我的指導教授─施雅月老師,在我步入碩士求學生涯時,指引我 一個明確的方向,在我跌跌撞撞,在研究上整理不出一個頭緒時,給我鼓勵、幫 助與指導,使我能產生新的思路,並且費心地檢視我的論文與問卷,力求達到完 美,最後才能完成我的論文。其次要感謝胡建勳老師與吳玫瑩老師,擔任我的口 試委員,給予我明確且寶貴的建議,使我的論文更加的完善,在此致上我最誠摯 的謝意。另外還有小閑學姊,費心地幫我校正論文的初稿,並在研究上給予我許 多的建議。

在進入研究所後,我感受到研究生的身分與大學時代時的身分不一樣,因此 在態度上需要經過一番改變與環境的適應,感謝我的父母對我的理解與支持,在 我遇到挫折時給我鼓勵,使我有勇氣面對所有的困難。還有跟我同甘共苦的秉 翰,以及其他許多許多的同學與朋友,謝謝你們的支持與鼓勵,讓我的求學生涯 變得多采多姿,變得更有意義。

經過了兩年的碩士生活,使我成熟許多,也認識了許多的朋友,而今我將邁 向下一個階段,再次感謝我的師長與朋友,謝謝你們的支持與幫助,使我能飛得 更高、更遠。

陳弘霖 謹致於中華大學

中華民國九十九年七月

(5)

目錄

摘要 ... i

Abstract ...ii

目錄 ... I 圖目錄 ... III 表目錄 ...IV 第一章 緒論 ... 1

1.1 研究背景與動機 ... 1

1.2 研究目的 ... 3

1.3 論文架構 ... 5

第二章 文獻探討 ... 7

2.1 關聯規則探勘 ... 7

2.1.1 Apriori 演算法 ... 8

2.1.2 資料探勘於圖書館應用 ... 9

2.2 推薦系統 ... 11

2.2.1 內容導向過濾(Content-based filtering) ... 15

2.2.2 協同式過濾(Collaborative filtering) ... 16

2.2.3 混合式過濾(Hybrid filtering) ... 19

2.3 條碼 ... 21

2.3.1 條碼簡介 ... 21

2.3.2 條碼的種類 ... 21

2.3.3 EAN 商品條碼 (European Article Number) : ... 22

2.3.4 條碼的應用 ... 23

2.4 使用者滿意度 ... 24

2.4.1 使用者滿意度 ... 24

2.4.2 科技接受模式 ... 26

第三章 研究方法 ... 28

3.1 研究架構 ... 28

3.2 研究流程 ... 29

3.2.1 建立分群模組 ... 29

3.2.2 系統設計及實作 ... 30

3.2.3 群組推薦模組 ... 31

3.2.3.1 分群推薦 ... 31

3.2.3.2 推薦方法 ... 31

3.2.3.3 準確度評估 ... 32

3.3 滿意度評估 ... 32

3.3.1 滿意度研究模型 ... 32

(6)

3.3.2 問卷設計 ... 36

3.3.3 分析方法 ... 37

3.3.3.1 基本敘述統計分析 ... 38

3.3.3.2 因素分析 ... 38

3.3.3.3 信度與效度分析 ... 38

3.3.3.4 迴歸分析 ... 38

3.4 開發工具與平台 ... 39

3.4.1 系統開發工具及執行環境 ... 39

3.4.2 資料探勘工具 ... 40

3.4.3 行動裝置 ... 41

第四章 實證與分析 ... 42

4.1 資料前處理 ... 42

4.1.1 資料來源 ... 42

4.1.2 資料清理與轉換 ... 42

4.2 資料統計 ... 43

4.2.1 各學群借閱率 ... 43

4.2.2 圖書類別借閱分析 ... 47

4.2.3 資料取樣與分割 ... 48

4.3 評估與比較 ... 52

4.4 系統流程 ... 57

4.5 系統實作 ... 58

4.6 滿意度問卷分析 ... 62

4.6.1 敘述性統計 ... 62

4.6.2 因素分析 ... 64

4.6.3 信度與效度分析 ... 66

4.6.4 迴歸模型分析 ... 67

4.7 實作評估分析 ... 70

4.7.1 準確度評估 ... 70

4.7.2 迴歸分析結果評估 ... 71

第五章 結論及建議 ... 73

5.1 研究結論 ... 73

5.2 研究與建議 ... 74

5.3 限制及未來發展 ... 75

參考文獻 ... 77

附錄 A ... 84

(7)

圖目錄

圖 1-1:論文架構圖 ... 6

圖 2-1:協同過濾推薦程序 ... 18

圖 2-2:ISBN 條碼 ... 23

圖 3-1:研究架構 ... 29

圖 3-2:系統架構圖 ... 31

圖 3-3:滿意度初步研究模型 ... 33

圖 3-4:滿意度指標研究模型 ... 36

圖 4-1:未分群評估結果數據圖 ... 53

圖 4-2:財經學群評估結果數據圖 ... 54

圖 4-3:經營管理學群評估結果數據圖 ... 55

圖 4-4:人文社會學群評估結果數據圖 ... 56

圖 4-5:F-measure 評估結果數據圖 ... 57

圖 4-6:使用者登入畫面 ... 58

圖 4-7:平台功能選單 ... 58

圖 4-8:手動輸入 ISBN ... 59

圖 4-9:影像辨識 ISBN ... 59

圖 4-10:書籍資料 ... 60

圖 4-11:推薦採購書籍 ... 60

圖 4-12:選擇專業推薦群組 ... 60

圖 4-13:專業書籍推薦類別 ... 60

圖 4-14:借閱率較高之書籍 ... 61

圖 4-15:書籍預約保留 ... 61

圖 4-16:查詢預約書籍 ... 61

圖 4-17:已預約書籍 ... 61

圖 4-18:模型一的路徑分析圖 ... 68

圖 4-19:模型二的路徑分析圖 ... 70

圖 4-20:單用關聯規則和本論文的 F-measure 比較圖 ... 71

(8)

表目錄

表 2-1:各種條碼規格特性比較表 ... 22

表 2-2:最新應用案例 ... 24

表 2-3:滿意度的定義 ... 26

表 3-1:操作性定義 ... 33

表 3-2:研究問項設計 ... 36

表 3-3:軟硬體需求表 ... 39

表 3-4:測試用行動裝置規格表 ... 41

表 4-1:各項資料處理描述表 ... 43

表 4-2:主要資料表的統計資料 ... 43

表 4-3:一般生各學群統計資料 ... 43

表 4-4:研究所、進修部各學群及其他統計資料 ... 44

表 4-5:整體學群統計資料 ... 44

表 4-6:財經學群各系所一般生借閱率 ... 44

表 4-7:經營管理學群各系所一般生借閱率 ... 45

表 4-8:人文社會學群各系所一般生借閱率 ... 45

表 4-9:財經學群各系所進修部借閱率 ... 46

表 4-10:經營管理學群各系所進修部借閱率 ... 46

表 4-11:人文社會學群各系所進修部借閱率 ... 46

表 4-12:研究所各系所借閱率 ... 46

表 4-13:借閱次數前二十項圖書類別 ... 47

表 4-14:樣本統計表 ... 48

表 4-15:訓練資料和測試資料借閱數前十名類別 ... 48

表 4-16:訓練資料和測試資料在各系所的分布情形 ... 49

表 4-17:各系所的的借閱類別數 ... 50

表 4-18:訓練資料和測試資料於各分類的借閱情形 ... 51

表 4-19:分類矩陣表 ... 52

表 4-20:未分群評估結果 ... 53

表 4-21:財經學群評估結果 ... 54

表 4-22:經營管理學群評估結果 ... 55

表 4-23:人文社會學群評估結果 ... 56

表 4-24:滿意度問卷之基本資料 ... 63

表 4-25:滿意度問卷內容之敘述統計 ... 63

表 4-26:滿意度問卷內容之敘述統計(續) ... 64

表 4-27:構面、因素及指標 ... 65

表 4-28:因素信度 ... 66

表 4-29:區別效度分析表 ... 67

(9)

表 4-30:模式一路徑假設顯著性結果 ... 67

表 4-31:模式二路徑假設顯著性結果 ... 69

表 4-32:單用關聯規則和本論文的 F-measure 比較表 ... 71

表 4-33:具顯著性假設整理 ... 72

表 5-1:研究模型解釋能力 ... 73

(10)

第一章 第一章

第一章 第一章 緒論 緒論 緒論 緒論

本章內容共分為三節,第一節敘述本研究之背景與動機,第二節說明研究之 目的,第三節為研究流程。

1.1 研究背景與動機 研究背景與動機 研究背景與動機 研究背景與動機

近年來因網際網路 (Internet) 與全球資訊網 (World Wide Web;WWW)的蓬 勃發展,使得越來越多人會藉由網際網路的搜尋與檢索去獲得有用的資訊,因此 網際網路已經成為多數人資訊來源的重要管道。

而 網 際 網 路 的 連 線 方 法 有 相 當 的 多 種 ( 如 透 過 電 話 撥 接 、 xDSL、 Cable modem、專線、ISDN 或行動網路之用戶),其中以透過手機行動上網的市場潛 力越來越大,像是市調機構 comScore 的調查顯示,美國上網人數裡已有三分之 一的人使用手機上網。

根據國家通訊傳播委員會(NCC)提供的資料顯示,2010 年第一季台灣的 行動通信用戶數為 2,720 萬戶,手機門號人口普及率為 117.6%,也就是說每 100 位台灣民眾就持有 118 個手機門號。而根據財團法人資策會 FIND 的調查顯示,

2010 年第一季台灣的行動電話用戶數為 2,720 萬戶,其中開通行動上網功能之總 用戶數本季約為 1,855 萬戶,佔行動通信用戶比例提升至 68.2%,由此我們可以 得知有越來越多使用者,會藉由手機行動上網的功能去做資訊的交流,因為行動 上網所帶來的高便利性與高即時性,人們也會更加依賴使用行動上網的功能。

隨著電腦運用的普及與網際網路的蓬勃發展,資訊可以藉由電子化的方式存 取,來源豐富且數量成長迅速,而且根據Horizon Report(2008),隨著行動通訊技 術躍進,行動上網已是不可擋的趨勢,為了滿足甚至超出使用者的需求,資訊先 進國家的一些圖書館追求「維持性創新」(Sustaining Innovation),而為了因應 人們在尋求資訊模式上的改變,圖書館的所提供的服務也朝著數位化的方向邁 進。透過新的資訊技術的引進,讓讀者可以快速且便利的尋求所需的資料,也讓 館員可以提升館藏編目、檢索、統計、資料調閱等速度與精確性。

(11)

讀者對圖書館最大的體驗就是能否感受到圖書館所提供的讀者服務,如何積 極有效的增進圖書館與讀者間的關係,在於讀者是否滿意圖書館的服務,此項工 作尤為圖書館經營上的最大問題。因此,將讀者與館藏(或資訊)結合起來,應 該是圖書館的中心目標。根據大學及獨立學院圖書館標準中,第一條至第四條已 明白的指出,大學圖書館設立之宗旨及任務,是為了使大學圖書館有效的完成支 援教學、培養學生閱讀習慣及啟發學生研究興趣、推廣社區文化與學術發展之任 務,館方需要研擬出一套有效的經營策略及辦法,以利於達成印度圖書館學家阮 甘納薩(Ranganathan S. R.)在圖書經營管理與服務上的五大法則:(1)圖書是 為使用而生(books are for use)(2)每位讀者有其書(every reader, his book)

(3)每冊書有其讀者(every book, its reader)(4)節省讀者時間(save thetime of the reader)(5)圖書館是一個成長的有機體(a library is a growingorganism)。

從圖書館五律中我們可以清楚的了解,圖書館就是要在最短的時間內將館內的資 源提供給讀者,使讀者在接受圖書館服務時可以獲得最大的滿足。

以往圖書館的館藏多以紙本為主,但隨著資訊科技的提升,現在圖書館的館 藏更加豐富,除了原本的書本以外,還多了電子資源利用、影片欣賞、書籍光碟 等。而為了滿足不同的人知識之需求,圖書館都會不斷的增加館藏,但是在這些 豐富的館藏中並非每一本都能有效的被利用,甚至部份館藏可能都不曾被借閱;

1979 年美國匹茲堡 (Pittsburgh) 大學的調查報告中發現,圖書館的館藏資源只 有少數被有效的利用 (Ezeife and Su, 2002) ,因而更帶動圖書館對於館藏資源被 有效利用的重視性。然而,讀者在面對這些龐大的館藏時,往往不知道哪些館藏 符合自己的需求,而無法有效的尋找到自己所需的資料,面對館藏量日漸龐大,

讀者又不知如何利用這些資源,另一方面,互動不足也是原因之一,因為圖書館 往往扮演著被動者的角色,而無法主動提供相關的書籍資訊給使用者,造成使用 者無法有效率的善用資源。此時個人化的圖書推薦服務能協助讀者運用館藏資 源,並且適時的給予讀者適當的建議,將可以改善上述的情形,並且能充份的利 用每一項館藏。

而無線網路及行動通訊技術的蓬勃發展,雖然可以讓使用者經由網路取得大 量的資訊,但是這些資訊常常都含過多的未精練資訊,而龐大且未精鍊的資訊往 往造成使用者迷失了他們的主要目標,隨著網路的資訊過載,這種情形更日趨嚴 重。所以當面對龐大的資訊流要如何去篩選,給予使用者最恰當的資訊,提供使 用者更方便、更明確的產品資訊內容,讓使用者能夠輕鬆地選擇所需要的產品,

便是許多學者所關注的問題,因此有學者提出相關解決方法,例如推薦系統 (Recommender system)便是解決問題的方法之ㄧ。透過推薦系統的輔助,使用者 不僅克服了龐大資訊流的問題,也可以從中得到系統對於產品的推薦,讓使用者 能更輕易的選取他們理想中的產品。

(12)

而以往的推薦大都是以熱門書籍推薦或相關書籍推薦,較少有探討到像大學 生以學群不同時,因所學的課程不同,則所需的書籍類別便會不同,則做出的推 薦也會不同,所以想要針對這一問題提出探討。而目前的圖書推薦系統大都是以 不可攜式的平台為主,應用在手機行動推薦上就較為缺少,因此這也是本研究的 主要動機。

1.2 研究目的 研究目的 研究目的 研究目的

由於之前所提及的研究背景與動機,本研究會以圖書館的讀者歷史借閱記錄 為樣本。藉由過去讀者的歷史借閱記錄進行書籍推薦,這些資料中包含讀者的借 閱習慣,並針對讀者的借閱行為進行分析,以獲得讀者借閱館藏的關聯性,並挖 掘出更多隱含的關聯規則,提供讀者進行館藏查詢時呈現其他相關的資訊,希望 能引導讀者更有效的利用圖書館的資源。本論文研究目的嘗試提出一個研究模型 去針對行動推薦系統的推薦方法做出改善,可以明顯的提升推薦系統的準確率,

因此本論文提出下列的研究目的:

1. 即時性的館藏查詢

透過智慧型手機,讓讀者可以在各大書局或圖書館中都能透過智慧型手機的 照相功能,拍攝書籍的國際標準書號(International standard book number;ISBN) 條碼後進行館藏查詢。使用者不僅可以省下購書之費用,還能在任何地點、任何 時間透過智慧型手機連至此平台進行館藏查詢;另一方面,能結合未來行動上網 無線化的好處來提升館藏資源的使用率。透過主動的方式,打破以往被動等待讀 者上門借書的模式,把適當的館藏資訊經由主動的方式推薦給適當的讀者,藉此 找出館藏中讀者可能有興趣,但是卻從未借閱過的館藏,也可以協助讀者在眾多 的書籍中尋找到更多相關的書籍,希望能藉由這樣的推薦方式鼓勵讀者借閱書 籍,不僅能提高圖書的借閱率,同時也可以增加圖書館的附加價值。

2. 提供適當的書籍推薦

透過個人化的館藏推薦,依據讀者的借閱歷史資料找出讀者的潛在興趣,讀 者可以直接在各大書局或圖書館內透過智慧型手機的照相功能,拍攝書籍ISBN 條碼進行館藏查詢,依據關聯規則及使用者群組區隔後,推薦讀者與所查詢的書 籍相關之類別,並在每個類別中推薦熱門之書籍以供讀者參考,讀者可以參考這 些推薦的書籍至館內進行閱覽或借閱,透過這種方式可以省去讀者購書之費用,

也能提供讀者更多樣化的服務方式,亦可以改善目前圖書館WebPAC館藏查詢介 面不易於透過智慧型手機進行查詢之困擾,並期望能增進圖書館資源之使用率及 服務品質。

(13)

3. 推廣圖書館館藏

利用讀者借閱紀錄分析出不同群組的讀者對於圖書借閱的關聯規則,提供圖 書館對於圖書流通管理上的建議。將讀者依照學院別變數做有用的群集,根據不 同區隔間的讀者描述其特性,使圖書館可以針對每一個群集訂定各別的圖書推廣 行銷策略,去提高讀者對於圖書館的利用率。

4. 提高行動書籍推薦系統準確度

因為國內相關行動書籍推薦系統的研究較少,而所提出的方法還可以有更大 的進步空間,像林佳純(2009)提出的應用資料探勘技術於行動商務之個人化圖書 推薦系統這篇論文,所提到的方法是以部份群組的資料跑出的關聯規則去做全盤 的推薦,但這種方法所做出的推薦,當套用在其他不屬於這個群組的使用者身上 時,就可能無法推薦出適合他的書籍,而為了改善這個方法,因此本研究想透過 群組推薦模式,去做較適合各群組的推薦,去提高行動書籍推薦系統的準確度,

並會在其研究中去比較其他行動書籍推薦系統的滿意度,期望此系統可以提升其 行動書籍推薦系統的準確度,而使使用者有更高的滿意度。

綜合上述,本研究為了應因行動上網的普及化與行動裝置的可攜性優勢,將 經過分析後所得到的推薦結果結合科技所帶來的便利性,提供讀者不論在圖書館 內或各大書局中皆可透過智慧型手機進行館藏查詢,讀者只要經由手機連至本研 究所開發的平台後,透過照相的功能拍攝書籍ISBN 條碼後便可以進行查詢,並 結合歷史借閱資料所分析出的結果,將適當的館藏推薦給讀者以提供讀者參考,

讓讀者可以利用行動裝置輕鬆完成查詢。

(14)

1.3 論文架構 論文架構 論文架構 論文架構

本研究論文主要架構如下圖1.1 所示,將各章內容分別說明如下:

一、緒論:

擬定研究背景與動機、研究目的、論文架構。

二、文獻探討:

利用各項電子參考資源蒐集相關文獻,包括電子期刊、紙本圖書、紙本期刊 論文等。分析相關文獻之理論,進行整理、歸納與探討資料之內容,並加強相關 領域知識與技術,再廣泛接觸現有圖書館個人化資訊,以擴大研究基礎知識,累 積學習能量。

三、研究架構與方法:

依據文獻探討及研究目的確立本研究之研究架構與方法,訂定探勘的資料來 源及開發智慧型手機平台的相關工具。

四、實證與分析:

將推薦結果、資料分析、平台開發、智慧型手機平台實作畫面及系統操作滿 意度問卷評估所得成之果進行整理與分析。

五、結論與未來發展:

彙整本研究相關資訊,提出結論及未來研究方向,以提供相關人員之參考。

(15)

圖 1-1:論文架構圖

確定研究問題及目的

相關文獻回顧與探討 一、 關聯規則探勘

二、 推薦系統 三、 條碼

四、 使用者滿意度 研究背景與動機

第一章

第二章

第三章

研究架構與方法 一、 研究架構

二、 研究流程 三、 開發工具與平台

研究結果與分析 一、 圖書類別借閱分析 二、 準確率分析 三、 系統實作 四、 滿意度問卷分析 五、 實作評估分析

結論及建議 一、 研究結論

二、 未來研究與建議 三、 研究限制

第五章 第四章

(16)

第二章 第二章

第二章 第二章 文獻探討 文獻探討 文獻探討 文獻探討

本章依據研究所需,分析探討國內外各項相關之文獻,加深對各項主題的認 知與理解。此章節要討論的內容分為四個部份。首先,於2.1 節介紹關聯規則探 勘,接下來於2.2 節將說明推薦系統建置的目的、應用、推薦的機制以及進行推 薦時所使用的方法,;其次於2.3 節介紹群聚分析之背景、行動通訊及行動商務 相關之應用;再針對一維條碼於2.4 節做相關介紹,以做為本研究之發展基礎。

2.1 關聯規則 關聯規則 關聯規則 關聯規則探勘 探勘 探勘 探勘

關聯規則最早是由 Agrawal 提出(Fayyad,1996),主要在協助尋找資料庫中 資料與資料間的相互關係。關聯規則探勘經常運用在商店的交易記錄,針對使用 者交易行為作關聯性分析,藉由交易商品的關聯性決定搭配促銷商品、商品架位 等行銷策略,以提高購買率,增加商店業績。例如:“20%買牙刷的顧客也會同 時買牙膏、毛巾和香皂”就是一個典型的相關規則。本篇論文將關聯規則探勘應 用在圖書館上,探討讀者借閱館藏及借閱類別的關聯性問題。其定義如下:

令 I= {i1 , i2 ...im} 成為 所有 項 目所成 的 集合 , D 是 所有交 易 記錄 T

(Transaction T)的集合,T 是項目集I 的子集合,每筆交易記錄給予一個識別 碼,稱為TID。

令A 是數個項目所成的集合。假設A 與B 都是項目的集合,並且都包含在 交易記錄T 之內,則一個關聯法則是:

A→B

A ⊂ I、B ⊂ I 及A∩B=Φ

一、關聯法則A→B 在交易記錄集D 中,有著Support(支持度)S,S 表示在交 易記錄集D中,A∪B的機率,寫成P(A∪B)。

二、關聯法則A→B 在交易記錄集D 中,有著Confidence(信心度)C,C 表示 在交易記錄集D 中,A∪B 的機率,寫成P(A | B)。

也就是說,可得到下列的關聯法則:

Support(A→B)=P(A∪B)

Confidence(A→B)=P(A | B)

P 表示Probability(機率)

(17)

舉例來說:假設有60﹪的讀者借閱BASCE 入門,有75﹪的讀者借閱Java進 階,有40﹪的讀者同時借閱BASCE 入門及Java 進階,則依上述關聯法則的定義 可得出以下的規則。

BASCE 入門→Java 進階〔40﹪,60﹪〕

2.1.1 Apriori 演算法演算法演算法演算法

Apriori 演算法(Agrawal & Srikant,1994)是著名的關聯規則探勘的演算方 法,其基本精神是使用前一個階段所發掘的高頻項目集來產生下一個階段的高頻 項目集。也就是先找出所有高頻1-項目集L1,再利用L1 找出L2,然後利用L2 找 出L3,依此類推下去,直到下一個階段無任何高頻項目集產生為止。

Apriori 演算法使用“一個高頻率項目集的任何子集合也必定是高頻率項目 集”的性質產生候選項目集(candidate itemsets),候選項目集的產生程序主要包 含”聯結(join)”與”刪除(prune)”兩個歩驟(曾憲雄等2005)。

i. 聯結(join):結合高頻(k-1)-項目集(L k-1)來產生候選k-項目集(Ck)。

令X1 和X2 是兩個高頻(k-1)-項目集,以Xi〔j〕代表項目集Xi 中的第j 個 項目。Apriori 演算法假設項目集中的項目已依遞增的方式排序完成。若X1

和X2 的前k-2 個項目皆相同,且X1〔k-1〕<X2〔k-1〕,則X1 和X2 將被結 合成一個候選k-項目集,亦即 { X1 〔1〕,X1 〔2〕,…,X1〔k-1〕,X2

〔k-1〕}。其中,結合條件X1〔k-1〕<X2〔k-1〕的目的是為了避免產生重 複的候選k-項目集。

ii. 刪除(prune):刪除不滿足Apriori 性質的候選項目集。Ck 包含Lk,但不一 定和Lk 相等,也就是說,Ck 中的項目集有可能不是高頻項目集。假設X屬 於Ck,Apriori 演算法在讀取資料庫中的每一筆交易時,若交易支持項目集

X,則X 的支持個數將會增加1。因此,當Ck 包含的項目集很多時,計算的

時間將會增長。應用Apriori 性質來減少Ck 的大小,若項目集X 有任何一個 大小為k-1 的子集合不是高頻(k-1)-項目集,則X 必定不是高頻k-項目集,

因此就可以將X 從Ck 中刪除。

Apriori 演算法,其中包含了兩個重要的步驟:

(1)反覆的產生候選項目組和搜尋整個資料庫,直到找出所有的高頻項目組。

(2)利用歩驟(1)所找出的高頻項目組,推導出所有的相關法則。

(18)

在Apriori 演算法中,subset(Ck,t)函式用來判斷部分交易項目t 是否包含 在候選項目組Ck 內,也就是在判別t 是否為Ck 的子集合。

而apriori-gen()副函式主要的動作,就是將Lk 的項目組合,經過聯結(join)

之後,產生下一階段的候選項目組Ck+1,以提供主函式繼續往下搜尋資料庫的項 目組之用。

在 歩 驟 ( 1 ) 產 生 高 頻 項 目 組 的 過 程 中 , Apriori 演 算 法 由 單 一 項 目 組

(1-itemset)開始,逐層產生相關項目組。此過程分為兩個階段,第一個階段為 產生新的項目組,若相關項目的長度為k,則稱為候選k-項目組(candidate k-itemset),記為Ck;第二階段為搜尋資料庫中Ck 的支持度是否大於使用者最初 設定的最小支持度門檻值的限制,符合條件的項目組Ck 便稱為高頻項目組(large k-itemset),記為Lk,而不符合最小支持度限制的Ck 項目組則刪除。

根據以上的步驟,而後再由Lk 與Lk 的聯集產生下一層的新候選項目組 Ck+1,並再搜尋資料庫以產生L k+1。如此反覆遞迴產生下一層級的候選項目組與 高頻項目組,直到資料庫中所有的高頻項目組均被搜尋出來為止。

2.1.2 資料探勘於圖書館應用資料探勘於圖書館應用資料探勘於圖書館應用資料探勘於圖書館應用 一、關聯規則分析的應用

王毓菁(2002)期望協助館藏資料能有效率地分類收藏,進一步的因地因時 因人不同,提供館藏發展計畫一個有力的參考,以增進圖書資源的使用率及圖書 經費預算的有效分配。因此由客戶關係管理的概念出發,根據不同館藏資料的分 類,閱覽者的基本資料,及閱覽者借閱館藏資源的借閱記錄,使用關聯規則分析 探勘圖書館讀者資訊需求的特徵,做為圖書館發展時的參考依據。羅子文(2009) 用資料探勘 (Data Mining) 的協力式過濾 (Collaborative Filtering) 得出個別讀者 的推薦清單,再經由讀者們對書籍難易度的評價、與個別讀者設定難易度的等 級,過濾出難易適中的推薦書籍。

藉由讀者借閱記錄,依個人館藏借閱習慣、興趣,分析讀者借閱的關聯規則,

進而主動推薦相關館藏給讀者,除滿足讀者借閱需求外,更進一步提供讀者潛在 興趣的館藏可供借閱資訊,以提升圖書館館藏的使用率,並增加讀者的滿意度。

Hang & Lin(2003)利用圖書館圖書流通記錄檔,並配合資料探勘技術可以發掘 過去年度裡,讀者的主要需求為何,以做為未來年度預算分配參考依據。Wu

(2003)認為圖書館流通記錄檔中可以切合需要,以資料探勘技術可以發掘讀者 實質需求,依此建立一應用的模式(data mining based model ,簡稱DMBA),

讓圖書館在預算分配上有一個可茲依循的參考。

(19)

卜小蝶(2002)以分類號第三層000~999作關聯規則分析,利用相似性比對 方法,推估相似借閱行為所反映出的圖書類號,以做為圖書推介的依據。柯皓仁、

楊雅雯、吳安琪、戴玉旻(2002)將圖書館的所有讀者視為一個大社群,從中了 解成員在館藏借閱的共同性與順序性。然而,讀者背景與學科領域可能會影響到 其借閱行為,因此先將讀者分群(如根據系所、學院、性別、年級等分群),再 針對每一群讀者探索其借閱的共同性和循序型,使資料探勘的結果更能切合讀者 的需求。C. Porcel et al. (2009) 提出一個模型,利用模糊語言去和資料探勘去建 構一個推薦系統,幫助大學數位圖書館的使用者能夠多去訪問他們的研究資源。

該系統專門的研究人員建議和互補的資源,以便發現合作的可能性,形成多群化 的群體。

二、分類分析的應用

Neumann等人(2003)提到對於圖書館而言,讀者借閱行為推薦服務是非常 大有可為的,以資料探勘技術對自動化系統中的圖書借閱記錄檔與讀者搜尋記錄 檔進行資料的分析,如此一來便可輕的建立一個像亞馬遜(amazon.com)一樣的 顧客導向式的入口網站。同時,讀者也可減少搜尋和評估資訊的時間,不僅是增 進讀者服務效能,更可以對圖書館員在管理圖書館上有很大的助益。而林勇順 (2006) 整合讀者個人多方面特性資料(非圖書館自動化系統之讀者資料),並 依據研究主題需求,萃取、彙整與轉換資料,建立相關資料倉儲,以「圖書」、

「讀者」與「時間」三個面向透過資料彙整交叉分析與資料探勘技術之群集分析、

分類分析與關聯規則分析等,探討讀者使用圖書館之行為。以館藏借閱的共同性 來說,興趣相同的讀者往往會借閱類似的館藏,若能發掘出館藏借閱的共同性,

當有某位讀者借閱某館藏時,便可推薦給他借過此館藏的讀者亦曾借閱的其他館 藏。

三、群集分析的應用

陳建佑(2008)以讀者借閱資料為探勘的資料來源,其中每一筆借閱資料皆 為讀者書籍借閱的記錄,並改良k-means演算法,去探勘讀者適性化推薦書籍:

其中考量借閱興趣度的情況下和未考量借閱興趣度的情況下,以某一讀者為探勘 目標改良典型的k-means演算法,使分群結果不受離群值影響,並讓那些可能被 忽略的重要資訊更容易 被探勘出來,以探勘出其興趣加權個人適性化推薦書 籍。卜小蝶(2007)探索借閱記錄中隱藏的重要規則,包括圖書與讀者、讀者與 讀者、圖書與圖書間的關係。圖書館欲主動推薦相關新書或特定讀者輸入關鍵詞 查詢出相關圖書時,可根據借閱記錄,分析有興趣的類號,並透過分類號群集、

相似系所分類號群集,以及重要分類號與系所關聯等,進一步將圖書重新排列加 以推薦。

(20)

四、次序相關分析的應用

曾勇森(2002)利用時間順序的觀念,將所有書籍的借閱次序先行予以排列,

求出滿足最小支持度之高頻項目集合,再將所有高頻項目集合進行最大化次序之 確認,完成最大化確認後之高頻項目集合,即是所有書籍之借閱次序集合。此時 只須找出各書籍適合之讀者或讀者適合之書籍,並予以推薦,即完成利用次序相 關分析中找尋書籍適性化之讀者,或找尋讀者適性化之書籍並加以推薦之動作。

莊宛螢(2005)應用循序樣式探勘技術中著名的AprioriAll演算法,從歷史借閱記 錄中找出讀者在不同時間點所借閱的書籍之先後關係,其中加入加權移動視窗的 觀念,讓使用者可以自行決定相關參數,並將 “同好” 的觀念加入探勘所得到的 推薦結果中,將可為圖書借閱者提供最大的效益。

Neumann等人(2003)利用亞馬遜網站推薦系統來探討應用在科學圖書館的 使用者分析上。藉由所發展的「推測性可能購買模式」,並運用再次購買的理論 推測模式,作為科學圖書館使用者行為模式的分析,將讀者讀書借閱順序做一分 析,以得到使用者行為基礎模式。柯皓仁等人(2002)則針對讀者可能會依據一 定的順序來借閱(例如先借入門,再借進階),因此若發現許多讀者都按照一定 的順序來閱讀某些館藏,那麼當有某位讀者借閱這些館藏中的某一本時,便可建 議他按照順序來閱讀相關書籍。

2.2 推薦系統 推薦系統 推薦系統 推薦系統

推薦系統的主要目的在於解決使用者面對過於龐大資訊時,如何快速的去得 到有用的資訊,在現實中我們可以發現已經有許多推薦系統應用在其中,例如 Amazon.com、e-Bay、博客來等,另外還有 Goldberg 等人提出的郵件推薦系統 (Goldberg et al.,1992),電影推薦系統(Hill et al.,1995)、新聞及電影的推薦系統 (Konstan et al.,1997)以及文章搜尋的推薦系統(McNee et al.,2002)等,而在行動裝 置 上 亦 有 許 多 學 者 已 經 提 出 許 多 相 關 研 究 , 例 如 Critique-based mobile recommender system (Ricci & Nguyen,2007) 、 MONER (Lee & Sung Joo Park,2007)、MALCR(Yuan & Tsao, 2003)、定位推薦系統 (Chen et al.,2008)等行動 推薦機制。推薦系統會依據使用者的偏好或特徵,幫助使用者在眾多且雜亂的資 訊中過濾出有用之資訊,以推薦符合使用者期待的商品或服務。

推薦系統主要可以分為三個部份:輸入與輸出(Functional I/O)、推薦的方法 (Recommendation method)、以及其他設計元素(Other design issues)(Schafer et al., 2001),依序介紹如下:

(21)

一. 輸入與輸出:

推薦系統的運作流程主要為需要哪些資訊(使用者資訊)的輸入以及資 訊如何輸出(推薦結果呈現給使用者),在資訊輸入的部分則可以分為目 標顧客的輸入(Targeted customer inputs)及群體資訊的輸入 (Community inputs)。

1. 目標顧客的輸入

目標顧客輸入係指顧客的動作或顧客長期的喜好紀錄,這些資訊能 透過顧客刻意或不經意的輸入來取得,可以分為顯性(Explicit)及 隱性(Implicit)兩種方式。

i. 顯性:

系統在建立推薦系統前,會要求使用者輸入某些條件,系統根 據使用者所輸入的條件來做為推薦的依據,例如網站利用填寫 問卷調查的方式,調查使用者的個人資料及感興趣的產品,或 者是讓使用者對推薦的項目進行評分等作法。

ii. 隱性:

以收集或觀察使用者的行為,去察覺使用者可能的喜好,例如 收集使用者在瀏覽器裡的瀏覽紀錄、使用者的網路書籤或使用 者的查詢紀錄去找出使用者感興趣的網站或資料類型等。

2. 群體資訊的輸入

群體資訊的輸入目的在取得物品的屬性資訊,分為下列數種方法。

i. 物品屬性(Item attribute)

包含物品的種類及分群的結果。

ii. 商品熱門程度(External item popularity) 用以表示產品在顧客群中的熱門程度。

iii. 群體的購買紀錄(Community purchase history) 藉由個人購買紀錄,找出商品之間的關聯規則。

iv. 意見與評價(Text comments, ratings)

團體對於商品的評價與意見,需要大量的個體顧客評價與意見 才夠公正。

(22)

輸出的部份指的是將推薦的結果呈現給顧客,其結果可以分為建議 (Suggestion)與預測(Prediction)。建議是指將所有推薦清單呈現給顧客,並讓 顧客自行檢視符合他們所需的商品。預測是指將過濾、排序後的推薦清單呈 現給顧客,商品清單內容會依照顧客的喜好程度來排列,或依照群體的喜好 程度來排列。

二. 推薦的方法:

推薦的方法是指推薦系統用來找出顧客可能感興趣的商品並給予推薦的 方法,常用方法如下所示。

i. 基本檢索(Raw retrieval)

利用關鍵字的輸入來搜尋所感興趣的產品,系統將列出含有關鍵字 的商品。

ii. 人工挑選(Manually selected)

藉由人工列出商品清單,並給予一則評論,顧客可以藉由評論瞭解 所推薦的商品並選取自己感興趣的商品,但是此種方法的缺點是需 要長期維護,無法及時更新。

iii. 統計分析(Statistical summaries)

藉由統計分析群體的選擇趨勢來產生推薦清單。

iv. 屬性導向(Attribute-based)

分析顧客的興趣屬性與商品屬性間的關聯性,依此決定推薦清單。

v. 商品之間的關聯性(Item-to-item correlation)

分析商品之間的關聯性並分類,當顧客選擇某一項商品時,系統會 一併推薦其關聯性高的其它商品。

vi. 使用者之間的關聯性(User-to-user correlation)

將興趣相同的使用者分到同一群組內,當一名使用者選擇了個推薦 商品,同群組內對此商品可能感興趣的其他使用者,也將一倂收到 此推薦清單。

(23)

三. 其他設計元素

在其他設計元素的部份,包含個人化程度(Degree of personalization)與傳 遞(Delivery)。

1. 個人化程度

推薦系統會因不同的個人化程度給予不同的推薦方法,主要分為三 種個人化的程度,依序為無個人化、短期個人化及長期個人化。

i. 無個人化

利用統計分析的方式來產生推薦,所有類型的顧客都會以同樣 的推薦方式來進行推薦。如網路購物網站、當某一件產品被購 買量居於總產品的 Top-N,該產品將被列為熱門產品並推薦給 所有顧客,此種推薦只統計商品的販售量來做為推薦的依據。

ii. 短期個人化

短期個人化是根據顧客的瀏覽記錄以及點選的商品,來推論顧 客可能需要的商品,此類的方法大多根據商品之間的關聯性與 商品的屬性、利用內容過濾法或資料探勘的方式來進行推薦。

iii. 長期個人化

長期個人化的作法是長期追蹤顧客的興趣,屬於更深入的個人 化方式,主要的推薦方式是從顧客的歷史記錄中找出顧客之間 的關係以及屬性,或在長期偏好的商品中找出商品之間的關聯 性、並利用協同式過濾法來進行推薦。

2. 傳遞(Delivery)

送達是指將推薦結果送達給顧客的方法,主要可以分為主動傳送 (Push)、等候選取(Pull)以及被動產生(Passive)三種方式。主動傳送 是系統主動將推薦內容傳送給顧客,優點是顧客能及時收到訊息,

缺點是當顧客對該推薦訊息不感興趣時容易造成垃圾訊息的產 生。等候選取是不主動將推薦清單傳送給顧客,而是等待顧客選擇 後才將內容呈現。被動產生則是當顧客選擇一項商品時,系統根據 商品屬性及顧客的互動來推薦關聯性高的商品。

在 個 人 化 推 薦 系 統 中 , 主 要 能 分 成 三 種 推 薦 的 方 法 , 協 同 式 過 濾 法 (Collaborative filtering)、內容導向過濾(Content-based filtering)以及混合式過濾法 (Hybrid filtering)三種方法,詳細內容如下列介紹。

(24)

2.2.1 內容導向過濾(Content-based filtering)

內容導向過濾的推薦方式,主要是透過資訊擷取(Information retriveal)的技術 所延伸出來的,著重於商品( Item )的分析,藉由分析商品的屬性特徵後,依據使 用者的偏好設定檔(Preference profile),分析其與商品之間的關聯性,進而判斷並 找出哪些商品可能符合使用者偏好,將適合的商品推薦給使用者。雖然內容導向 過濾是由系統來進行分析,決定是否將該商品推薦給使用者,但在與協同式過濾 法及混合式過濾法兩種推薦方法相比之下其成效較差。

內容導向式推薦方法可以針對已知的使用者偏好,基於該偏好資訊給予使用 者推薦,然而此種方法包含了一些缺失,例如當使用者欲搜尋一篇關於「手機」

的文章,因此當系統在找尋適合推薦的文章時,只會依其條件為找出文章內含有

「手機」的單字的文章做推薦,因此系統中不論增加幾筆與「手機」相關但不一 定內含這個字的新文章,使用者都只會接收到系統推薦含有單字「手機」的文章,

則與「手機」有相關聯卻不包含「手機」這個關鍵詞的文章將不被作為推薦,如 此作法將造就成效不佳的狀況發生。

以下是內容導向過濾方法相關研究的介紹:

1. News weeder (Lang, 1995)

News weeder 是一套網頁新聞的過濾系統,透過網頁瀏覽器來提供使用 者進行網頁新聞文章評比的界面,系統收集使用者的評比資料整理分析 並建立使用者的偏好檔(profile),根據建立好的偏好檔,推薦使用者尚 未閱讀過的但可能會感興趣的新聞文章。

2. InfoFinder(Krulwich & Burkey, 1996)

InfoFinder是透過訊息資料集(Sets of messages)或是網頁文件,來分析學 習使用者資訊喜好類別,進而推薦使用者可能會喜愛的網頁文件。

InfoFinder 的特點在於使用 heuristic 搜尋技巧來取得有意義的片語,

此法的優點在於不需要很多文件樣本就可以正確取得使用者的興趣所 在。

3. PRES(Meteren & Someren, 2000)

PRES(Acronym for personalized recommender system)為透過建立一個動 態連結(Dynamic hyperlinks)的網站,讓使用者能更簡單的找到感興趣的 商品,並改善系統與使用者之間的互動。

(25)

雖然使用內容導向的過濾方式,可以依據使用者過去的偏好,推薦出符合使 用者偏好的項目,但在 Shardanand(1995)的研究中指出此方式有仍有一些限制,

其限制的說明如下:

1. 內容導向式推薦方法可以透過文字比對使用者喜好與商品屬性是否符 合,所能分析的商品內容僅限於能夠用一系列的屬性集合來表示,無法 有效處理聲音、圖片、藝術品與影像等媒體的屬性。

2. 內容導向式推薦方法僅能推薦使用者過去曾經看過或類似的商品項 目、無法找出使用者未曾嘗試但可能感興趣的潛在性商品。

3. 無法處理品質、風格或觀點,以文章為例,當有兩篇文章的主題相同,

但是兩篇的內容品質有很大的差異,內容導向過濾方法並不能有效的分 辨它們的差異性。

由於內容導向過濾的方法擁有上述的缺點,為了改善這些缺點,有學者提出 了協同過濾式推薦的方法,以補足內容導向式推薦方法的不足。以下將針對協同 過濾式推薦方法做詳細的介紹。

2.2.2 協同式過濾(Collaborative filtering)

協同式過濾法是 1992 年由 Goldberg 所提出並運用在 Tapestry (Goldberg et al., 1992)之上的方法,此方法利用具有相似興趣成員的資訊作為推薦的參考項目。

當使用者想選購尚未使用過的產品,便必須仰賴其他使用者的意見,此時推薦系 統將從資料庫中找出適合的推薦者,並根據他們的意見來進行推薦,由於資料庫 中所含的使用者資料可能過於龐大,因此必須將每位使用者歸類到不同的群組 裡,再從適當的群組中選擇適合的意見來推薦。

協同式過濾法常見的作法是形成一個 M * N 的顧客與商品的矩陣,矩陣中記 錄著顧客對商品的評分值,從矩陣中可以計算出顧客之間的相似度,進而找出最 接近目標顧客的鄰居,最後設計出計算推薦分數的方法,藉由顧客之間的相似度 以及鄰居顧客對商品的評分,算出目標顧客對未評分商品的喜好程度。其由 Sarwar (2000)所提出的傳統式協同式過濾作法應包含資料表示、族群的建立、以 及產生推薦等三個部份,如圖 2-1 所示,以下將針對各個部份作說明。

一. 資料表示(Representation)

將顧客的交易消費行為利用一個 M * N 的相關矩陣來表示,M 為顧客 集合,N 為商品集合,矩陣中為顧客對商品所給予評分的值。

(26)

二. 族群的建立(Neighborhood formation)

計算各顧客之間的相似度,設定族群大小,藉由顧客之間的相似程度高 低,找出目標顧客的鄰居。為了找出目標顧客的鄰居,必須先計算出使 用者之間的相似度,其計算相似度的公式有 Resnick (1995)等人提出的 關聯性法則及向量相似度(Salton & McGill,1983)等。其詳細說明如下:

1. 關聯性法則(Pearson correlation similarity)

=

=

=

= t

a

j a j t

a

i a i t

a

j a j i a i

R R R

R

R R R R j

i sim

1

2 , 1

2 , 1

, ,

) (

) (

) )(

( )

,

( (2-1)

其中,

sim ( j i , )

:使用者 i 與 使用者 j 之間的相似度

R

i,a:使用者 i 對 Item a 的評比

R

j,a:使用者 j 對 Item a 的評比

R

i :使用者 i 的平均評比

R :使用者 j 的平均評比

j

2. 向量相似度(Vector similarity)

=

=

=

=

t

a t

a a j a j t

a a i a i

v v v

j v i sim

1

1 2

, ,

1 2

,

) ,

,

( (2-2)

其中,

sim ( j i , )

:使用者 i 與 使用者 j 之間的相似度

a

v

i, :使用者 i 對 item a 的評比

a

v

j, :使用者 j 對 item a 的評比

三. 產生推薦(Recommendation generation)

設計推薦分數的方法,從同一族群中,相似度較高的顧客,找出較受歡 迎的商品推薦給目標顧客。

(27)

資料來源:Sarwar et al, (2000)

圖 2-1:協同過濾推薦程序

協同式過濾至今在推薦系統中仍然是常用的方法之ㄧ,其在運用上亦有許多 研究以及案例,如 2007 年 Trujillo (2007)結合了多種特徵,如顧客的基本資料、

興趣領域、曾經下載過的文件,並根據這些特徵來計算顧客間的相似度並進行推 薦。在 2008 年則有 Chen (2008)提出的研究,其作法是針對整個群集來做推薦而 非個人化的推薦方式。在現有的網站中則有 MovieLens 電影推薦網站,MovieLens 會要求每個使用者在使用系統功能前必須先給予至少 14 則的電影評分,藉此產 生個人化的使用者偏好檔(Profile),然後系統透過所產生的使用者檔案進行群組 的分配並進行推薦,除了上述的應用之外還有 Patrick (2006)將 FCA(Formal Concept Analysis)的概念運用於協同式過濾之上。

協同過濾法所使用的演算法,可以概分為以下二種類別(Breese et al., 1998):

1. Memory-based collaborative filtering

進行推薦時,利用使用者的歷史記錄,與資料庫中使用者的歷史記錄做 相似度計算,找出與目標使用者偏好相似的鄰近族群,常見的方法為最 近鄰居法。

2. Model-based collaborative filtering

主要將使用者的歷史記錄,透過統計或機械學習的方法來建構出使用者 的偏好模型,再利用此偏好模型對使用者推薦,較常見的方法有,潛在 語意索引(Latent Semantic Indexing;LSI)、關聯式法則(Association rule)、貝式網路(Bayesian network)或迴歸分析(Regression analysis)

等。

(28)

雖然協同式過濾的技術被廣泛使用在推薦系統之中,但是它仍然存在著一些 先天上的限制,如以下所示:

(1) 新使用者問題(New User Problem)

一個剛進來的使用者,在系統上完全沒有任何使用的紀錄,就會導致沒有 辦法正確且有效率的推薦。

(2) 稀疏化問題(Sparsity Problem)

推薦系統通常都會利用對於相當龐大的產品或物件來作為評價與推薦,但 是使用者所接觸到的物件大部分都只佔系統非常小的比例。當產品的數量 大於使用者,或兩者的比例差距十分懸殊時,系統就沒有辦法找到適合的 推薦者來進行推薦。

(3) 新物件問題(New Item Problem)

一個新的物件或產品,沒有人使用過,普遍大多數的人都不是很願意當白 老鼠去做實驗,在原始的合作推薦機制中,這種類型的物件他被推薦得機 會不高,因為沒有人敢使用,系統不去推薦,如此一來的惡性循環只會更 糟。

(4) 冷啟始問題(cold start)

冷啟始的問題就是當系統中的產品或商品沒有任何評價或資訊時,這樣的 產品就沒有辦法讓使用者在系統內找到類似的其他使用者,這麼一來就沒 有辦法產生推薦。當一樣新的商品被店家加入推薦系統,這個時候並沒有 任何的使用者用過或對此商品做過任何的評價,推薦系統自然就沒有辦法 找到推薦者來做推薦,這樣的情形就稱為冷啟始問題。

2.2.3 混合式過濾(Hybrid filtering)

由於在2.1.1節與2.1.2節中所敘述的內容導向式推薦和協同過濾式推薦機制 皆各有其限制與缺點,故後續有許多學者提出混合式推薦方法(Hybrid approach recommendation)(Kim & Kim, 2001)來互補其缺失。此作法不僅可以保有兩種推 薦方法優點,且推薦之品質亦比內容導向式和協同過濾式之個別模式來得較佳。

黃維良(2007)提到運用混合式過濾式的推薦系統,可分為下列四種方式:

(29)

1. 分別實行協同式與內容過濾的推薦方法,然後結合兩者預測做出推薦。

2. 將一些內容過濾式的特性整合入協同式的推薦方法。

3. 將一些協同式的特性整合入內容過濾式的推薦方法。

4. 整合協同式及內容過濾式兩者的特性,以建立一個整體的統一模式。

在推薦上,利用混合式推薦方法的推薦系統有:Fab (Balabanovic & Shoham, 1997),Fab 主要的推薦內容為網頁,首先,透過收集代理人(Collection agent)進 行不同類型網頁的收集,並將網頁傳送給可能感興趣的使用者,使用者在瀏覽過 網頁後將給予評比,這些評比會回傳至收集代理人更新資料,並且收集代理人會 將評比較高的網頁傳送給偏好相似的其他使用者,同時使用者的評比紀錄將回傳 給選擇代理人紀錄為使用者的喜好資訊並作為使用者偏好學習的依據,在此系統 中協同式過濾法的部分為收集代理人,主要負責某個主題的網頁收集,以及更新 使用者對於網頁的評比資料並且將評比較高的網頁傳給同好者,而內容導向的部 分則為選擇代理人(Selection agent),主要為記錄每個使用者的喜好資訊,建立使 用者偏好檔。除了 Fab 之外,亦有其他學者提出混合式推薦系統,如 INFOS (Mock

& Vemuri,1997)

在推薦的機制上分為:相似產品推薦、最新商品推薦以及 Top-N 商品推薦以 上三種,以下將分別說明。

1. 相似產品推薦

使用者在進行商品購買時,系統會根據所購買的商品,推論出使用者可 能需求的相關產品,應用的技術如關聯式規則(Association rules),此方 法將使用者可能需要購買的次產品做為考慮推薦給使用者,其運用關聯 式規則來產生推薦的有智慧型個人化多媒體推薦系統 (劉崇汎等,2005)。

2. 最新商品推薦

當新商品推出,推薦系統會根據使用者的偏好、興趣,找出適合接收此 一資訊的使用者進行推薦,避免使用者對於不適合的資訊而感到反感。

3. Top-N 商品推薦

系統計算出使用者對於商品的喜好評比後,根據評比分數高低對商品加 以排列,產生 Top-N 個商品呈現給使用者,爾後根據使用者對於商品的 評價,回饋給系統,讓系統能更準確的學習使用者偏好。Yuan (2003) 提出的方法中亦是利用 Top-N 方法來進行推薦。

(30)

2.3 條碼 條碼 條碼 條碼

2.3.1 條碼簡介條碼簡介條碼簡介 條碼簡介

1930 年末期,美國的生活方式與社會形態因日用品商店的服務方式,由原 本傳統的小商店轉變為便利商店的形式。當時商店為了提高結帳的效率,因此產 生了各類型的解決方案。直到1970 年初期烏德蘭教授擔任IBM 工程部主管時,

為了因應商家的需求,致力於條碼的開發,因此被錄取成為UPC/EAN 碼規的基 礎,而條碼便是在這個轉變時期所產生的。美國超級市場公會最早推出條碼 (BarCode)的使用,在1973 美國統一編碼協會(Uniform code council;UCC)選用 UPC 碼建立了條碼系統,並取名為"統一商品條碼"(Universal product code;

UPC),制訂了相關的標準,並在食品業以UPC 碼做為標準碼推廣使用,適用於 美、加地區,以便在百貨公司或超市節省大量人力物力。由於UPC 在美加地區 造成一股熱潮,於是歐洲也引進條碼的觀念及技術,初期以歐洲為主體,於1977 年才正式成立非營利機構EAN(European article numbering association;EAN),並 訂定可以與UPC 相容的EAN 條碼標準,將條碼觀念散佈到其他地區,條碼系統 因此開始步入國際化領域中 (經濟部商業司,1996;條碼科技網)。

條碼是一種代替鍵盤將數字與字母,經過掃描器的掃描,交由電腦解碼後,

可以準確又快速的將數據輸入至電腦的相關位置。使用人工直接手動輸入是最原 始的方法,但這種方法輸入的速率慢,且會造成人為錯誤的發生,因此許多便利 的方式便因應而生,例如信用卡或提款卡後面的磁帶、到處可見的商品條碼、感 應式門禁卡都是一些很好的例子。

現今社會中隨處都可見到條碼的蹤跡,再任何一家商店都可見到其商品上的 條碼,在結帳時經過讀碼機的判讀後,可以快速的輸入至商家的電腦,去抓取商 品的名稱或價格,藉此還可去管理商品庫存,所帶來的效益不僅只有改善作業速 度還有提升正確性、生產力、明確責任歸屬和改善服務品質。而相較於使用手寫 記帳單、貼上價格標籤、手動輸入到電腦中的速度有如天壤之別。一維條碼出現 得早相關設備較為齊全,操作也十分簡便,並且已經成為世界通用的規格,堪稱 是最受歡迎的自動識別方法。

2.3.2 條碼的種類條碼的種類條碼的種類 條碼的種類

台灣商品條碼推廣組織,是由中華民國商品條碼策進會於1986 年加入EAN 組織,並於1986 年EAN 國際組織通過台灣入會並申請取得商品條碼國家代號 471(GS1 Taiwan) 。目前世界上大約有225 種以上的一維條碼,我們常見的便利 商店及圖書雜誌中所使用的圖書條碼皆為一維條碼,每種都有自己的編碼規格。

(31)

編碼的方式是藉由許多寬度不一的黑線條 (Bar) 及空白 (Space) 的組合,

來表示出各種不同的碼 (Code) ,其碼可以是字母、數字及文數字等規格 (陳學 源,2007) 。由於一維條碼只能儲存15 個文數字,每條黑白線條粗細的意義不 同,所以掃描時與黑白直線任一垂直橫線皆可解讀。其依規格之不同另有 UPC-A、UPC-E、EAN-8、EAN-13、Code 39、Code 128 碼……等,各種條碼規 格特性如表2.5 所示。因種類會依不同的發展單位而有所不同,以下針對ISBN 所 使用的EAN 碼進行介紹 (經濟部商業司,1996;GS1 Taiwan;EAN 條碼) :

表 2-1:各種條碼規格特性比較表

可表示 字串長度

使用 檢查碼

使用 寬度數目

分散/連續式 可表示型態

EAN-13 13 4 連續式 數字(0~99)

EAN-8 8 4 連續式 數字(0~99)

UPC-A 12 4 連續式 數字(0~99)

UPC-E 6 4 連續式 數字(0~99)

Code 39 可變 可有可無 2 分散式 能表示44種字元

Code 128 可變 4 連續式 能表示106總字元

2.3.3 EAN 商品條碼商品條碼商品條碼 (European Article Number) :商品條碼 :

EAN碼的全名為歐洲商品條碼(European Article Number),源於西元1977年,

由歐洲十二個工業國家所共同發展出來的一種條碼。目前已成為一種國際性的條 碼 系 統 。 EAN 條 碼 系 統 的 管 理 是由國際 商 品條碼總會 (International Article Numbering Association)負責各會員國的國家代表號碼之分配與授權,再由各會員 國的商品條碼專責機構,對其國內的制造商、批發商、零售商等授予廠商代表號 碼。目前已有30多個國家加盟EAN。編碼部份考慮成為國際性的條碼規格,因此 前三碼為國家代碼,用以辦別出某一產品是出自哪一個國家。

一、 EAN-13商品條碼

由 13 個位元所組成的條碼,包含:國際 EAN 協會授與的國家代碼3位數 字、廠商代碼4位數字、產品代碼5位數字、檢查碼1位數字(國家代碼1-3碼、廠 商代碼4-7碼、產品代碼8-12碼、檢查碼13碼)及2-5位數字的附加碼,在圖書中附 加碼被用來表示書本的價格,如圖2-2所示。2007年起,ISBN 號碼也將由10 碼 全面改為13碼,因此,圖書及期刊雜誌的 ISBN條碼是屬於 EAN-13 (圖書類開 頭為978-979;期刊雜誌開頭為977) ,其編碼方式與 EAN-13 商品條碼完全相 同,惟此項字串間沒有連字號或空格。

(32)

圖 2-2:ISBN 條碼

1. 國家代碼:EAN-13 碼中最前面 3 位數字,是由國際商品條碼協會所核發 給各會員國之代號,用以區別商品條碼之使用國家或管理單位,台灣之國家 代碼為 471。

2. 廠商代碼:為各國商品條碼之管理機構所核發給廠商之號碼,共 6 位數。

3. 商品代碼:商品代碼為 3 位數,由廠商自行編定,按照一物一號的原則,

不同的商品給予不同的序號,若包裝、材質、尺寸、顏色等不同,均應視為 不同之商品,並給予不同之序號。

4. 檢查碼:檢核碼為依照”10 法則”的方式計算求得。

二、 EAN-8商品條碼

由EAN-13碼變化而來的,只能用來表示八位數字。與UPC-E相似之處是兩 者都應用在零售業上,適用於較小包裝的產品。包含:國家代碼3位數字、產品 代碼4位數字、檢查碼1位數字(國家代碼1-3碼、產品代碼4-7碼、檢查碼8碼)與 EAN-13碼最大的不同是沒有廠商代碼,因此廠商要申請EAN-8 碼時,必須一項 一項產品各別進行申請,是以產品為單位;而EAN-13碼則是以廠商為單位來申 請的。

2.3.4 條碼的應用條碼的應用條碼的應用條碼的應用

在全球各地,已有逾 110 萬企業會員,25 個行業,超過 1500 億的全球商品 品項,且目前仍以每天逾 50 億的更新、新增品項,持續擴大條碼應用領域。

台灣已經成功推廣到 23 個行業,特別是 超市、超商、量販店、書店、藥局、

服飾店、家用五金、連鎖店、3C 賣場等 ,我們成功為知名企業如 滾石唱片、

7-11 、家樂福、寶僑、屈臣氏等導入相關系統。目前,條碼在台灣商品的普及 度,在日常用品、食品、書籍、CD 卡帶已逾 99% ,玩具、文具、服飾、3C 商 品、成藥、家飾品、家用五金等也有 80%以上,各行各業的普及度仍持續攀升中。

(33)

條碼符號能讓資料存取及識別作業自動化,達到正確、快速簡單又方便的效 果,且編碼具全球唯一性、安全性及絕對性,可以作為溝通及追蹤的唯一代碼。

而與快速回應系統(QR/ECR)結合,可落實品類管理、快速捕貨等資訊流及物流 的應用物流運籌管理系統結合,除了可達到作業效率化、精確化之外,更方便於 商品或物流的追蹤管理(Tracing & tracking)。而表 2-2 為現今最新的運用。

表 2-2:最新應用案例

行業 運用

FMGG 樂活新生活運動-有機商店之條碼應用實例。

食品生產履歷採用追蹤識別碼與資料傳遞媒介說明。

味全與台灣康師傅公司在生產自動化中的條碼應用。

健康醫療 業

生物科技公司實施條碼案例。

永信藥品公司追縱管理用GS1-128條碼。

杏一醫療連鎖自動化管理的現況與未來。

改善用藥安全與物流效率化 醫療專案。

農牧漁業 台灣第一條有身分證的健康魚。

條碼在卜蜂企業的生產管理。

3C產業 日本 BEST 電器期望導入共用條碼。

條碼在 3C 供應鏈的應用。

零售業 上新聯晴 POS 使用國際條碼。

全國電子期待產業條碼一致化。

2.4 使用者滿意度 使用者滿意度 使用者滿意度 使用者滿意度

2.4.1 使用者滿意度使用者滿意度使用者滿意度使用者滿意度

使用者滿意度 (User satisfaction;US) 最常被運用來衡量資訊系統成功與否 的指標 (Gelderman, 1998) 。Ives et al. 將使用者滿意度定義為使用者認為資訊系 統符合其資訊需求之程度,使用者滿意度則是取決於使用者的主觀或認知判斷,

經由此方式可以測試出使用者如何看待資訊系統,而非只是關注於系統的技術品 質 (Ives et al., 1983) 。

使用者滿意度的概念最早於 1963 年由Cyert and March 兩位學者在他們合 著的「公司的行為理論」 (Behavioral theory of the firm) 書中提出,兩位學者主 張資訊系統若可以提供符合使用者需求之服務,即可強化資訊使用者的滿意度;

相反的,若未能符合使用者的需求時,則會讓使用者產生不滿的情形 (Cyert andMarch, 1963) 。

參考文獻

相關文件

(三)使用 Visual Studio 之 C# 程式語言(.Net framework 架構)、Visual Studio Code 之 JavaScript 程式語言(JavaScript framework 架構) ,搭配 MS

國立高雄師範大學數學教育研究所碩士論文。全國博碩士論文資訊網 全國博碩士論文資訊網 全國博碩士論文資訊網,

  SOA 記錄裏,記載著關於該 域名權責區域的一些主 要網域名稱伺服器 ( primary DNS server) 和其它 相關的次要名稱伺服器 ( secondary DNS server)

例如 : http ( 網頁伺服器所用的協定 ) 定義了 client 如何向 server request 網頁及 server 如何 將網頁及其中的各種內容回傳給 client 。. 提供服務給 application layer

港大學中文系哲學碩士、博士,現 任香港中文大學人間佛教研究中心

RMI,及 DCOM 這些以專屬 binary 格式傳送資料所不及之處,那 就是對程式語言、作業平台的獨立性--由於是純文字 XML 格 式,

The purposes of this research are to find the factors of raising pets and to study whether the gender, age, identity, marital status, children status, educational level and

T-test on the emphasizing degree with different factors according to grouping by genders shows that girls and boys attribute differences to the factors, such as close friends,