碩士論文 Department of Information Science and Management Systems National Taitung University Master Thesis 國立臺東大學資訊管理學系

(1)

國立臺東大學資訊管理學系碩士論文

Department of Information Science and Management Systems

National Taitung University Master Thesis

以關聯規則建構博物館導覽推薦系統之研究 A Study of Constructing Museum Guide Recommender System using Association Rules

研究生：林清欽

Graduate Student: Ching-Chin Lin 指導教授：謝明哲博士 Advisor: Ming-Che Hsieh, Ph.D.

中華民國一○四年六月

June, 2015

(2)

(3)

(4)

(5)

致謝

感謝老師多年來的包容與引導，讓我能在研究期間盡可能的探索各種可能的研究方向，且在許多關鍵之處給予方向，讓我不斷精進自己不足之處，也對自己的界限有更深刻的認識。

感謝口試委員吳仁和教授、黃恊弘教授給予的寶貴建議，讓我能對於研究中的盲點有更清楚的認知。

感謝過程中家人的各種關心及催促，過程中不免擔心無法完成研究，但是最後還是達成任務。

在許多年的研究過程中得到的是許多始料未及的驚喜，也體驗到學海無涯及浩瀚，雖然過程中有遭遇到許多困境與問題，但都一步一步的突破，最終堅持到底所得結果仍是豐盛的。

感謝過去從事史前館研究的學長姊們，因著過去的努力所得之結果，使我能夠做更進一步的研究，探討不同技術與領域間的結合。

感謝資管系行政上的許多幫助，讓我可以在過程中不被行政流程所困，能夠順利地進行論文口試。

要感謝的人與事太多，我想還是感謝上天吧!

林清欽僅誌于國立臺東大學資訊管理學系

(6)

I

摘要

目前在國立史前文化博物館中尚無一套推薦模式提供觀眾作為導覽推薦使用，觀眾在參觀的過程中較容易有資訊超載的問題。雖然推薦系統可解決資訊超載問題，但傳統推薦系統中多使用於虛擬的網際網路中，與實體的博物館中參觀有所差異。觀眾著眼的並非只有尋找相似的物品，還需要找出展廳間所隱藏的關聯，使觀眾透過展廳間的關聯來找到可前往展廳參觀。故本研究中結合關聯規則與推薦系統來作為解決方案。

本研究使透過情境感知技術收集觀眾停留時間資料與定位，並以此進行關聯規則的挖掘，試圖找出可能的展廳關聯。再將找出的規則與個人停留時間結合來建構線上的推薦引擎，並計算可推薦的展廳。而在推薦成功率則使用精確度來進行評估。

研究結果分為二部分，第一是透過關聯規則所挖掘的出規則，有展區分別的現象，不同的展區間較難產生關聯，展區內之展廳彼此產生關聯規則。第二是線上的推薦引擎計算結果，透過關聯規則與觀眾停留時間建立推薦清單，其結果是在系統初期可以使用關聯規則達成推薦，但推薦的次數不多時成功率較低，但是當推薦系統推薦的次數到達 6 次時最為顯著。並且推薦的展廳較集中在史前文化展區內。

關鍵字：推薦系統、博物館導覽、關聯規則

(7)

II

Abstract

Currently at the National Museum of Prehistory there is no set of recommendation system provided for visitors, which leads to information overload problem while visiting. Even though the preferred system able to solve the problem, the traditional recommendation system is more likely to be used in the virtual Internet, for the museum entity varies. Visitors focus is not only to find similar articles, but also the need to find hidden associations between items through the exhibition halls. Therefore, this study combine the association rules with recommended system to create a solu- tion.

The research led by context-aware technology collects visitors dwelling time and location data, conduct the mining related rules as well as trying to find possible linked exhibition. Furthermore, it integrates the rules with personal time to construct online recommendation engine and calculate recommendable hall. The success rate in the recommended system used to evaluate the accuracy.

Study results are divided into two parts, the first is through the association rule digging out the rules. There is the phenomenon of the exhibition respectively, which is a difficulty to produce association rules within each differently related exhibition hall.

The second part is the recommended engine results. The establishment of a list of recommended association rules with visitors through their residence time resulting the system that can be used in the initial association rules to achieve the recommendation.

However, the recommendation number of small success rate is low, but it would be significant when the recommendation system reach six times. The recommendation will focus more in the prehistoric cultural exhibition.

Keyword: recommender system, museum guide, association rule

(8)

III

圖次

圖 1.1 史前館二樓展廳... 2

圖 1.2 史前館地下一樓展廳... 2

圖 2.1 推薦系統類型圖... 7

圖 2.2 推薦系統建置流程... 13

圖 2.3 資料採礦三階段... 16

圖 3.1 推薦模式... 18

圖 3.2 停留時間與關聯規則挖掘... 19

圖 3.3 資料前處理... 20

圖 3.4 關聯規則產生... 21

圖 3.5 推薦清單產生... 22

圖 3.7 推薦清單處理流程... 25

圖 3.8 推薦方法判斷... 25

圖 4.6 關聯規則篩選條件... 27

圖 4.7 自然史展區關聯規則相依性網路... 32

圖 4.8 臺灣史前文化展區關聯規則相依性網路... 33

圖 4.9 南島民族展區關聯規則相依性網路... 33

圖 5.1 各展廳推薦成功率... 43

圖 5.2 RSRR ... 44

(11)

VI

表次

表 2.1 協同式過濾技術概述表... 10

表 2.2 混合式推薦系統方法... 12

表 2.3 推薦系統評估類型... 14

表 2.4 推薦系統評估演算法... 14

表 4.1 展廳代號表... 26

表 4.2 項目集為 1 的結果... 28

表 4.3 項目集為大小為 2 之結果... 28

表 4.4 展廳關聯規則... 31

表 4.5 關聯規則之增益值... 34

表 4.6 自然史展區 Quality 分數... 34

表 4.7 臺灣史前文化展區 Quality 分數... 35

表 4.8 臺灣南島民族展區 Quality 分數... 35

表 4.9 觀眾於展廳中停留時間較長人數... 35

表 4.10 Quality 與規則... 36

表 4.11 Quality 推薦項目 ... 36

表 4.12 推薦預測分數... 37

表 5.1 單一觀眾的推薦成功率... 39

表 5.2 各展廳推薦成功率... 43

表 5.3 推薦次數與成功率... 44

(12)

1

第一章緒論

1.1 背景與動機

導覽是博物館中的重要服務，根據牛津辭典中之釋義為「在博物館中引導觀眾的工作者」，其字義起源於拉丁文「docere」，意思是教導。

在博物館中各種不同的類型的觀眾，賴明洲（1998）依據群眾可分為民眾、

學生、研究人員三種，一般民眾相對於學生及研究人員較屬於走馬看花，不論在參與、學習、研究上都較弱。但是若想要發揮博物館中的教育價值，只有走馬看花是較為不足的。

除了觀眾類型，陳筱筠（2002）提出成人背景類型與博物館空間之關係，大部分的觀眾類型屬於喜歡反思觀察的類型且受教育程度較高之外，還希望能夠快速融入陌生博物館的環境中，並強調導覽人員及手冊的重要性。而在博物館中的導覽方式是相當多樣的，除了傳統的導覽員導覽，還有文字、語音、多媒體互動等。

本研究研究對象為國立臺灣史前文化博物館（簡稱史前館），史前館為一考古類型博物館。徐宏仁（2008）針對國內外考古類型博物館進行研究，考古類博物館會針對時間或空間順序進行場館設計，並對於每個展廳進行主題規劃，在主題展示中交互使用證據展示、情境生態展示、情境互動展示。但是吸引觀眾上，

需要有較大型展示單元或在主要動線上才具有吸引力，如果要讓觀眾持續觀看則需要使用互動的方式。但是史前館在展場設計上有展廳過於相似的問題存在、導覽動線也標示不清，且由於場館之特殊設計，入館中的觀眾可能會有走迷宮的感覺（如圖 1.1、圖 1.2）。

(13)

2

圖 1.1 史前館二樓展廳，引用自史前館網站

圖 1.2 史前館地下一樓展廳，引用自史前館網站

(14)

3

目前史前館當中有提供定時導覽與 PDA 語音導覽。定時導覽是由導覽員執行，導覽對象大多為團體，曾令全（2010）發現史前館導覽員雖然能較為生動的描述，但缺點是較難照顧到所有觀眾的需求，可能因「觀眾注意力轉移」、「部分觀眾看不見」及「觀眾聽不懂講解」三種因素造成導覽上的困難。PDA 語音導覽可以讓散客自行於博物館中參觀時輸入號碼來領聽語音導覽，但缺點是語音導覽不一定能符合觀眾的需求。

史前館中的現有問題有二，一是博物館參觀時間問題，二是博物館參觀行為問題。依據 98、100 年所收集到的之問卷資料，顯示史前館觀眾於博物館中的停留時間在 15 分鐘至 40 分鐘左右，觀眾平均停留的展廳數是 8 間。由於史前館的常設展廳規模遍及三層樓 16 個展廳，若想在短時間內參觀所有展廳將會遭遇資訊超載（Information overload）的問題，導致觀眾的興致降低。Farhoomand 和 Drury (2002)認為人們面對過多資訊時，所需要的不只是經過過濾的資訊，而是需要更多針對該議題的有用資訊。

針對資訊超載問題可以使用推薦系統（Recommender System）作為解決方案。

推薦系統於 1992 年開始被應用於網際網路的環境中，從 2001 年至 2011 年期間，

推薦系統成功被應用於電子商務網站中，其他領域如各種商品、新聞、影音網站、

社群網站、工作亦有所發展，但在文化領域著墨較少(Park et al. ,2012)。在推薦系統中最廣為人知的是商業網站 Amazon 在協同式過濾上之應用，推薦系統透過評分（Rating）機制來訂定商品的評分。但是傳統協同式過濾在應用上容易產生二種問題，第一，對於剛進入館中參觀的觀眾無法提供推薦服務。第二，顯性評分問題，顯性評分會對觀眾造成干擾。

推薦模式中 Alabastro et al. (2010)等人建構博物館推薦系統時比較內容導向式、內容導向式與情境感知結合、協同式過濾、協同式過濾與情境感知結合，在

(15)

4

計算時協同式過濾與情境感知結合可以達到 94%的預測準確。但在線上計算的部分就不及內容式過濾，但協同式過濾在資料覆蓋率上較內容導向式結果佳。

除了透過資訊過濾來將資料篩選外，可進一步透過資料採礦（Data Mining）

技術將資料中有特殊價值的規則挖掘出來，在史前館中有於展廳的設計內容較為相似，故只有計算展廳近似度是較為不足的，還需要嘗試找出可能的展廳參觀路徑。

在博物館中可以結合不同的推薦模式來提供給使用者相關的知識項目，而在數位學習上可以使用關聯規則或混合式推薦系統的方式作為推薦計算基礎，在旅遊導覽上可以使用行動導覽與網際網路結合的進行 (Lu, Wu, Mao, Wang, &

Zhang, 2015)。

現今博物館經營上比過去更為艱難，雖然博物館對於人類文明及文化之影響深遠，但在資訊發達的世代中需要更為個人化的解決方案。

1.2 研究目的

本研究想藉由隱性評分機制來降低對觀眾參觀博物館時的影響，但過去的協同式推薦模式中使用的是顯性評分，若要使用顯性評分則需要利用情境感知技術記錄觀眾之展廳停留時間，避免對觀眾之影響，以此改善傳統協同式推薦系統顯性評分的問題。另一點，協同式過濾推薦模式是屬於近似度計算，藉此找到相似的項目，但在博物館中參觀的目的並非尋找相似的物品，而是要將主題或項目進行有順序性的介紹，而史前館本身之設計也相當注重有脈絡的介紹，故需要找到隱藏於展廳間的順序關係，故在本研究中使用資料採礦中的關聯規則方法，將觀眾於個別展廳中的停留時間進行關聯規則挖掘，試圖找出其中隱藏的展廳關聯。

(16)

5

但由於每個觀眾對展廳之興趣不同，所以需要針對觀眾之喜好進行調整，故將以關聯規則為基礎，與展廳停留時間結合後再推薦展廳給觀眾。

1.3 研究流程

本研究第一章探討背景與動機，第二章探討過去的文獻及所使用的解決方案，

第三章進行研究方法的描述，第四章進行實驗系統設計，第五章對系統進行評估，

第六章為結論與討論。

(17)

6

圖 1.3 研究流程圖第一章背景與動機

第二章文獻探討

第三章系統設計

第四章系統展示

第五章系統評估

第六章結論與討論

(18)

7

第二章文獻探討

2.1 推薦系統定義

推薦系統係由資訊過濾（Information Filtering）技術發展而來，藉由資訊過濾將大量的資料雜訊（Noise）消除後，將過濾後資訊推薦給使用者。

第一個推薦系統 Taspestry 使用時並非使用推薦系統命名，而是使用協同過濾表達之，Resnick 和 Varian (1997)基於二種理由定義何謂推薦，第一：推薦者與受推薦者可能是不明確地合作，第二：推薦要建議有特別興趣的項目，除此之外的項目都應該被過濾，此為推薦系統命名之由來。Ricci et al. (2011)等人認為推薦系統是一種對使用者使用上提供項目建議的軟體工具或技術。

2.1.1 推薦系統類型

網頁推薦系統為早期發展的方法，由於網頁的數量極為龐大，單靠搜尋引擎蒐集資訊是很沒有效率的行為，故使用推薦系統進行過濾。推薦系統自 1994 年發展以來已有數種推薦系統方法。Pazzani (1999)將推薦系統分為內容導向式過濾、

協同式過濾、混合式過濾、人口統計式。而後又增加了基於知識推薦。以下介紹各推薦系統類型。（如圖 2.1）

圖 2.1 推薦系統類型圖，本研究整理推薦系統類型

內容過濾式協

同式過濾人

口統計式基

於知識混

合式推薦

(19)

8

1. 內容導向式推薦（Content-based Filtering Recommender）

Pazzani 和 Billsus, (2007)等人定義內容導向式推薦是根據使用者輪廓（User Profiles）來提供推薦項目給予使用者。使用者輪廓範圍包含對項目的評分、歷程記錄、興趣…等。根據使用者過去的行為來過濾出相似的項目並推薦。較為簡單的方式是記錄使用者對於有評分的項目，並找到與該項目的相似的項目。這裡將會出現解釋上的分岔，倘若內容式的推薦策略中包含歷史評分，則會被認為是協同式過濾的一種類型，但如果不計算歷史評分只計算內容則可以視為非協同式過濾。

內容導向式過濾有二個主要議題，第一：尋找重要的文件；第二：推薦尚未被發掘的文件。

在內容導向式推薦系統中較常使用的有 TF-IDF 演算法，TF-IDF 是透過字詞進行過濾篩選，將文件中的字詞出現頻率高的項目及太少出現的項目去除。

2. 協同式過濾推薦（Collaborative Filtering）

Breese et al. (1998)定義協同式過濾推薦系統是建立在假設上，它是種藉由有興趣的內容找到也有相似興趣的人們，並且將相似人們也喜好的項目推薦的方法。

Schafer et al. (2007)定義協同式過濾是一種使用其他人們的評價過濾或評估項目的程序。

在協同式過濾推薦系統中有三個主要角色，第一：使用者、第二：項目、第三：評分。評價在協同式過濾中扮演連結使用者與項目角色，並能產生使用者與項目的評分矩陣，而評分的性質可分為顯性（Explicit）與隱性（Implicit）二種，

顯性的評價著重於使用者所提供相關資料或購買資訊，而隱性評分則是觀察使用者的行為。顯性較容易影響使用者觀感，而隱性較不會影響使用者觀感。

協同式過濾推薦系統藉由近似度來計算使用者相似的使用者或項目，並且將

(20)

9

相關程度高的項目推薦給使用者。例如：Resnick et al. (1994)等人發展文章推薦系統 GroupLens，以協助使用者在網路上搜尋資料時對資料進行過濾，方便人們尋找。

Su 和 Khoshgoftaar (2009)說明協同式過濾針對評分計算可分為基於記憶與基於模式二類。

(1) 基於記憶（Memory-based）

使用使用者評分資料或權重計算使用者與項目間的相似分數，並且根據相似分數進行預測及推薦。而這種方法被應用於電子商務網站中，例如：Amazon。

基於記憶可分為二種計算，分別是基於使用者（User-based）、基於項目

（Item-based）。基於使用者是計算使用者間的近似度，基於項目是計算項目間的近似度。基於項目較常使用的計算方法有調整後的餘弦近似度（Adjusted Cosine Similarity）、基於餘弦近似度（Cosine-based Similarity）、基於相關的近似度三種

（Correlation-based Similarity）。

(a) 基於使用者

假設有二名使用者𝑢和𝑣，而sim(𝑢, 𝑣)為其近似度分數，𝑟為其評分， 𝑟̅為所有評分的平均（平均計算時要忽略沒有評分的項目），則可以表示為方程式 2.1。

sim(𝑢, 𝑣) = ^{∑ (𝑟}^𝑖∈𝐼 ^𝑢,𝑖^−𝑟̅^𝑢^)(𝑟^𝑣,𝑖^−𝑟̅^𝑣⁾

√∑ (𝑟_𝑖∈𝐼 _𝑢,𝑖−𝑟̅_𝑢)²√∑ (𝑟_𝑖∈𝐼 _𝑣,𝑖−𝑟̅_𝑣)²

(2.1)

其解釋為當使用者 U_i相似於某一族群 G 的使用者時，如果 G 族群對 Ij 有興 趣，則猜測 Ui也能對項目 Ij 有興趣，故推薦項目 Ij 給使用者。步驟為收集使用者評分、計算使用者近似度、提出推薦結果清單。

(b) 基於項目

(21)

10

假設某使用者𝑢在項目𝑖和𝑗有評分，而sim(𝑖, 𝑗)為其近似度分數，𝑟為其評分，

𝑟̅為所有評分的平均（平均計算時要忽略沒有評分的項目），則可以表示為方程式 2.2。

sim(𝑖, 𝑗) = ^∑^𝑖∈𝐼^(𝑟^𝑢,𝑖^−𝑟̅^𝑖^)(𝑟^𝑢,𝑗^−𝑟̅^𝑗⁾

√∑ (𝑟_𝑖∈𝐼 _𝑢,𝑖−𝑟̅_𝑖)²√∑ (𝑟_𝑖∈𝐼 _𝑢,𝑗−𝑟̅_𝑗)²

(2.2)

其解釋為當使用者 Ui對項目 Ij有興趣，某群體 G 對項目 Ij有興趣之外，也 對項目 I_x有興趣，則推測 Ui 對 I_j有興趣外也可能對 I_x有興趣 Sarwar et al. (2001) 比較皮爾森相關、餘弦近似度、調整後的餘弦近似度發現，基於項目的演算法較基於使用者的演算法效能較佳，且能夠在同一單位時間中提供更好的品質。

(2) 基於模式（Model-based）

由於基於記憶的方法在遭遇資料稀疏問題時會推薦項目稀少。故發展出基於模式的方法，基於模式是指使用純評分資料進行評估與計算，例如：使用資料採礦或機器學習演算法。

然而協同式過濾推薦系統之優點在於不需要知道使用者之背景，只需知道其評分即可計算，資料收集較為容易但也有缺點，就是無法得知較為詳細的個人資料內容（如表 2.1）。

表 2.1 協同式過濾技術概述表，引用自 (Su & Khoshgoftaar, 2009)

代表技術優點缺點

基於記憶 1. 基於鄰近協同式過濾 2. 基於項目、

基於使用者

1. 容易實現 2. 容易新增資料 3. 不需確定被推薦

的項目內容 4. 容易評分

1. 根據人們的評分 2. 資料稀疏時推薦

效果降低 3. 不能推薦新使用

者與項目

4. 資料庫擴充限制

(22)

11

基於模式 1. 貝式網路 2. 群集分析 3. MDP 4. 語意網路 5. SVD 6. PCA

1. 較能克服稀疏性及擴充性問題 2. 改善預測效果 3. 提供較為直覺的

推薦理由

1. 建置昂貴 2. 因減少維度會犧

牲有用的資訊

協同式過濾推薦系統建置過程需要經過三個階段，第一：近似度計算、第二：

預測及推薦、第三：剪枝。

3. 人口統計式推薦（Demographic Filtering Recommender）

人口統計式係指使用預先定義好的資料格式提供使用者選擇。例如：性別、

年齡、郵政號碼、教育程度、員工與否等。人口統計式是預先得知使用者的相關資料，如此不必再花費額外的計算來猜測使用者的相關資料，但由於有隱私問題要取得個人資料並不容易。

4. 基於知識的推薦（Knowledge-based Recommender）

Burke (2000)認為除了內容式推薦和協同式過濾推薦之外，還有一類是基於知識的推薦，基於知識的推薦是以使用者與產品之領域知識作為推薦系統之計算依據，推論使用者需要的產品。其與前面幾種推薦系統最大差異在於不用特別蒐集大量的使用者及項目資料，就是先定義使用者與項目的近似度，如此甚至能避免推薦系統冷啟動（Cold Start）。並且此推薦類型也能與其他類型的推薦系統做結合成為混合式推薦系統。

5. 混合式推薦（Hybrid Recommender System）

混合式推薦系統是透過結合 2 種以上的推薦系統方法來解決單一推薦系統無法解決的問題。早期有Balabanović 和 Shoham (1997)結合內容導向式過濾和協同式過濾二種方法發展出 Fab 推薦系統。Burke (2002)整理了混合式推薦系統的

(23)

12

方法，可分為權重的、交換式、混合、特徵結合、瀑布式、特徵放大、元層級。

（表 2.2）

表 2.2 混合式推薦系統方法，引用自 (Burke, 2002)

混合式方法描述

權重（Weighted）其分數是經由數種技術結合而成並產生單

一推薦結果。

交換（Switching）根據現況切換推薦技術

混合（Mixed）同一時間中經由不同的推薦系統提供推薦

特徵結合（Feature combination）將不同特徵的推薦資料來源結合成單一推薦演算法

串聯（Cascade）由一個推薦中提煉出而出另一個推薦

特徵放大（Feature augmentation）將一種技術用於輸出時亦用於其他計算時輸入

元層級（Meta-level）將學習到的推薦系統模型做為輸入到另一個

2.1.2 推薦系統建置與評估

1. 推薦系統建置流程

推薦系統建置需要的要素有三，一是使用者、二是項目、三是推薦方法。建置推薦系統的過程中，首要是分析問題，再者是選擇適當的方法進行運算，三是進行預測，最後才進行結果的推薦。Adomavicius 和 Tuzhilin (2005)提到要建立推薦系統的商業模型需要幾個要件，第一：維護推薦系統的成本，第二：利用廣告，

透過推薦系統的能夠看到顧客的需求細節、第三：要建立評估項目的抽傭模型。

推薦需要公平公正，不能有偏見的參雜，應該著重於商業流程中項目及使用者參與的過程。

(24)

13

Bobadilla et al. (2013)認為推薦系統建立需要參考八個條件，分別是是否有可利用資料庫、使用何種演算法、基於何種模式發展、是否使用其他技術、資料稀疏性及擴充性問題、推薦系統效能表現、評價所尋找的目標、尋找搜尋結果的品質。

推薦系統建置時要先建立模型，應用上節所提之方法，等到相關項目分數計算完畢時，會出現很長的過濾清單，此時便需要進行剪枝的步驟。常用的演算法有 Top-N 或關聯規則演算法。

由此可以將推薦系統的建置分為幾個階段，第一：問題定義、第二：尋找適當的推薦系統類型、第三：尋找適合的演算法、第四：預測項目與推薦項目、第五：評估推薦系統、第六：使用者回饋。

圖 2.2 推薦系統建置流程，本研究整理

2. 推薦系統評估

推薦系統評估是重要的環節之一，一般會針對推薦的準確度（Accuracy）進行量測，若準確度越高則代表推薦有效，而準確度測量又可分為評分準確度及分類準確度。但單純只靠準確判斷並不完全，故又增加了覆蓋率（Coverage）。

Tintarev 和 Masthoff (2007)提出判斷推薦系統的好壞可以依照幾個指標，包含資料的透明度、資料辨識度、推薦是否能讓人信任、推薦結果是否具有說服力、

推薦是否有用、推薦系統效率高低、選擇尺度、使用者滿意度。而在計算評估分

使用者資料推薦系統演算法預測結果列出推薦清單

使用者回饋

(25)

14

數時 Lü et al. (2012)整理現有推薦系統評估方法，除了既有的準確度、覆蓋率還增加了多樣性（Diversity）、新奇度（Novelty）、驚奇度（Surprise）量測。綜合上文可形成表 2.3。

表 2.3 推薦系統評估類型，本研究整理

推薦系統類型內容說明

準確度測量推薦系統給予的推薦項目推薦正確的比例。

覆蓋率在所有實際項目中，被預測到的項目比率。

多樣性因推薦結果過於單一，故需要展示更多的項目，測量項目間的

差異程度。

新奇度測量使用者對於推薦項目間認知的差異程度。

驚奇度驚奇度是針對使用者是否得到超出預期的結果進行量測。

Vozalis 和 Margaritis (2003)認為在評估預測品質時可分為準確度、覆蓋率。

評估推薦品質時可使用統計工具，例如：平均絕對誤差（MAE）、系統精確度

（Precision）、回饋率（Recall）、Precision 和 Recall 之加權計算 F1 等演算法。

表 2.4 推薦系統評估演算法，本研究整理

演算法名稱說明

MAE 在推薦系統中，透過平均絕對誤差測量使用者實際給予項目的

評分與系統預測評分的誤差值，若數值越小代表預測越精準。

Recall 是指在所有正向結果測試樣本中，擊中的數量有多少，在推薦

系統中使用時針對提供推薦項目被使用者點擊或購買。

Precision 在所有正向預測推薦清單中，推薦正確的比例。

F1 將 Recall 與 Precision 用調和平均的方式加總起來。

(26)

15

Coverage 在所有實際項目中，被預測到的項目比率。

2.2 關聯規則

2.2.1 關聯規則定義

關聯規則是資料採礦技術的一種，其目的在於尋找具有特殊規則的項目集合，

透過關聯規則所得到的結果有三，一是有效的特殊規則，例如：啤酒與尿布，二是有效地但是業界老手都知道的規則，三是無效規則。

在篩選項目集方法中可使用 Apriori 演算法，Apriori 演算法為 Agrawal 和 Srikant (1994)所提出，透過最小支持（Minimum Confidence）度及最小信賴度

（Minimum Support）找出符合條件的項目集及規則，支持度為項目 A 與項目 B 之聯合機率，而信賴度是包含項目 A 的時候也包含 B 的條件機率。經由項目集產生的關聯規則的表現形式為 AB，其意義是當使用者對 A 項目有興趣時也會對 B 項目產生興趣。

但如果只有找出關聯規則仍有所不足，規則仍需要進一步驗證，以防假規則的出現，由於挖掘出的規則需要進一步驗證，可使用 Lift 增益來進行驗證。增益意指一條規則的預測結果與隨機發生的結果之差異。假設規則 AB 之增益值若大於 1 則標示預測結果比隨機結果好，反之若小於 1 則檢驗比隨機結果差。

而在本研究中言對對象為博物館，假設有一資料庫 D，其中有觀眾 U 名、

展廳 N 間，則會有 V 次參觀次數，平均每個展廳會被參觀 V/N 次，故 Avg/V 為平均展廳參觀次數所佔的比例，得支持度為 1/N。信賴度由館方自行決定。

2.2.2 關聯規則與推薦系統

Amatriain et al. (2011)認為資料採礦技術應用於推薦系統中可以達到更為精

(27)

16

確的效果。而在進行資料採礦時是以離線計算（off-line）的方式進行，而推薦系統則是以線上計算（on-line）的方式進行。

在資料採礦的與推薦系統結合時可以將系統分為資料前處理、資料分析、資料解釋三階段。資料前處理是相當關鍵的階段，若資料前處理出現問題，則分析及解釋的結果都將無效。資料分析是利用各種計算方法將結果計算出來。資料解釋的階段是將結果的意義呈現出來（如圖 2.3）。

圖 2.3 資料採礦三階段，引用自 Amatriain et al.，2011

關聯規則在推薦系統中被歸類在協同式過濾推薦模式中的基於模式類型，透過數學模型將原來協同式過濾中的缺點進行改善。

Tyagi 和 Bharadwaj (2012)將推薦系統與關聯規則結合，透過關聯規則進行離線計算，利用已知的使用者背景探採可能的評分，再將評分結合規則品質分數作為推薦之預測分數 (Lin, 2000)，如此解決過去協同式過濾的冷啟動問題。

2.3 博物館導覽與推薦系統

博物館導覽方面，過去有李紹永（2009）利用無線定位技術，紀錄觀眾之地點及停留時間，透過停留時間來找出熱門參觀路徑。

而現今的推薦系統與博物館導覽系統做結合時強調個人化導覽學習的方式，

透過推薦系統的使用可以減少人力的負擔，並且提供個人化的功能，經由推薦讓使用者遭遇資訊超載的情況減少。Zhou et al. (2009)針對博物館資訊超載問題發展博物館推薦系統，利用顯性及隱性方法了解觀眾有興趣的展品資料與觀眾行為並進行事前預測。Huang et al. (2012)則使用混合式推薦系統來減少博物館學習時

資料前處理資料分析資料解釋

(28)

17

資訊超載的問題。若針對使用者類型作分類能夠改善傳統協同式過濾的問題，

(楊莛莛（2009）利用生活型態對觀眾作預先的分類，解決傳統協同式過濾推薦系統因資料稀疏性而導致的冷啟動的問題。李俊毅（2010）使用關聯規則作為演算基礎，除了能夠快速找到觀賞的物品焦點，還能提供個人化的推薦項目，但缺點是當資料量時較難分析出結果。

2.4 情境感知與推薦系統

情境感知是無所不在運算或普式運算的延伸，藉由收集使用者相關資訊、實體相關資訊進行分析，Schilit et al. (1994)認為「情境」在意的是你是誰？跟誰在一起？附近有什麼資源等。Adomavicius 和 Tuzhilin (2011)等人從資料採礦、個人化電子商務、資訊過濾、無所不在運算及行動運算中分析情境感知之定義，在推薦系統中，情境感知著重於項目及使用者間的關係，故需要使用情境感知項目例如：時間、區域或其他客戶。情境感知對使用者決策及系統使用上能產生影響，

但此方法缺點為假設錯誤時將無法產生有效的結果。

情境感知應用與推薦系統時，常結合不同的推薦模式，以混合式推薦系統的方式呈現。情境感知相較於使用者資料有較高的動態，且容易藉由行為取得資料，

比起取得使用者個資容易。 (Woerndl & Schlichter, 2007)

在應用方面，Sarkaleh et al. ( 2012)等人利用情境感知收集使用者的知識水平、

語言、行為、時間、行動裝置資訊，並以此進行個人化推薦。在教育方面 Wang 和 Wu (2011)應用 RFID 來對學員進行定位紀錄，並以協同式過濾與關聯規則建構推薦系統，藉由使用者所回饋的資料給與個人化學習的結果。Chen 和 Huang (2012)利用行動裝置紀錄時間及位置，發展博物館學習推薦系統，除了學生的認可外亦可實際提升學習效果，並且可以提供新的學習經驗。

(29)

18

第三章系統設計

3.1 系統架構

本研究之推薦模式分為三個階段，其中第一階段是離線進行，第二階段及第三階段是以線上的方式進行。（如圖 3.1）

圖 3.1 推薦模式，本研究整理

第一階段是收集使用者位置與停留時間資料後，將參觀完畢後的參觀資料進行資料清理及資料轉換，並以離線的方式進行關聯規則挖掘，並將規則儲存至規則資料庫中。

第二階段是推薦引擎的計算，將離線計算時產生的關聯規則轉換為關聯規則品質分數，並與使用者於每個展廳中的展廳流留時間進行加權計算。

關聯規則挖掘推薦引擎

推薦清單

展廳停留時間

觀眾停留時間資料庫

展廳規則資料庫

(30)

19

圖 3.2 停留時間與關聯規則挖掘，本研究整理

第三階段是推薦清單產生，推薦清單必須要將推薦引擎所產生的預測分數進行比較，並且將分數最高的結果推薦給觀眾，但是如果觀眾已經參觀過該展廳的時候，就必須將該展廳刪除，以此避免重複推薦參觀展廳。

3.2 關聯規則挖掘

依據前文中資料採礦在推薦系統中的應用於所區分的階段，本研究將離線關聯規則產生分為資料清洗、資料分析、資料解釋三階段。（如圖 3.2）

1. 資料清洗

步驟一：刪除極端資料

由於極端資料會影響資料分析結果，所以必須要在資料清洗階段，先將停留時間異常的資料 𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒_{𝑎𝑏𝑛𝑜𝑟𝑚𝑎𝑙}項目刪除，由於不同的博物館會有不同的觀賞方式，應由各博物館自行依經驗法決定停留在該展廳中低於 𝑇𝑖𝑚𝑒_𝑚𝑖𝑛秒的項目及高於 𝑇𝑖𝑚𝑒_𝑚𝑎𝑥秒的項目。

觀眾於當下展廳之停留時間

觀眾展廳停留時間資料庫

關聯規則挖掘

關聯規則資料庫

(31)

20

𝐷𝑎𝑡𝑎𝐶𝑙𝑒𝑎𝑟(𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒_{𝑎𝑏𝑛𝑜𝑟𝑚𝑎𝑙}) = {𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒_{𝑎𝑏𝑛𝑜𝑟𝑚𝑎𝑙} < 𝑇𝑖𝑚𝑒_𝑚𝑖𝑛 (𝑠𝑒𝑐) 𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒_{𝑎𝑏𝑛𝑜𝑟𝑚𝑎𝑙} > 𝑇𝑖𝑚𝑒_𝑚𝑎𝑥 (𝑠𝑒𝑐) 步驟二：資料轉換

由於觀眾的停留時間並非固定的數值，若資料量太少則會有資料稀疏性的問題產生，故需要將資料轉換以利分析，本研究中將展廳停留時間高於平均值者定為停留時間較長，展廳停留時間低於平均值者定為停留時間較短。

𝑇𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚(𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒) = { 𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒 < 𝑎𝑣𝑔 𝑡𝑖𝑚𝑒, 𝑙𝑜𝑛𝑔 𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒 > 𝑎𝑣𝑔 𝑡𝑖𝑚𝑒, 𝑠ℎ𝑜𝑟𝑡

在關聯規則挖掘前，首先是資料前處理階段，必須將資料清洗，在將清洗完畢的資料進行資料轉換，然後再進入 SQL Server 中（如圖 3.3）。

圖 3.3 資料前處理，本研究整理

2. 資料分析

在關聯規則挖掘過程活動有，設定最小支持度、項目集產生、設定最小信賴資料清洗

資料轉換

匯入 SQLServer

資料前處理資料庫

(32)

21

度、規則產生（如圖 3.4）。

圖 3.4 關聯規則產生，本研究整理

在本研究中使用關聯規則進行資料探採，由清洗後之觀眾展廳停留時間資料庫中尋找關聯規則，透過展廳停留時間探採可能的展廳組合。並以經驗法則設定支持及信賴之門檻值 𝑆及 𝐶， 𝑆及 𝐶設定後，再以 Apriori 演算法找出候選項目集，找到的項目集規則 𝑅𝑢𝑙𝑒 = (𝑆, 𝐶)。

前文提到關聯規則挖掘的原則，在本節中近一步說明本研究中的關聯規則演算步驟。本研究中試圖找到所有的有效規則，並以規則為基礎進行計算。資料庫所產生的規則每 N 個月更新一次，更新頻率由管理者決定。

在博物館中的停留時間必須至少經過或停留次數 1 次才能列為頻繁項目。假設展廳停留時間資料庫𝐷中有𝑈_𝑚個觀眾，𝑅_𝑛個展廳數，則會有∑𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒_𝑈𝑚筆展廳停留時間資料。則支持度為1/𝑅_𝑛，而信賴度則由館方自己決定。

𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝐴 → 𝐵) = 𝑃(𝐴 ∩ 𝐵) 𝐶𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒(𝐴 → 𝐵) = 𝑃(𝐵|𝐴) 設定最小支持度

設定最小信賴度

產生項目集為 1 的集合

產生項目集為 2 的集合

產生關聯規則

(33)

22

透過 Apriori 演算法找出所有高頻項目組，並且從高頻項目組中推導關聯規則。首先要找出頻率較高的候選項目集，再對項目集進行組合，透過不斷重複項目集與組合直到找不到為止。其所有找出的規則需要滿足所訂定的最小支持度與最小信賴度。

假設在觀眾停留時間資料庫中有 k 個項目組，每個項目組是由 i 個項目組成的集合。若項目組滿足最小支持度則該項目組為高頻項目組，若為高頻項目組則其項目也必為高頻項目。

在挖掘出規則後仍需要對規則進行進一步的驗證，以避免出現無效規則。在展廳對展廳的規則中。

𝐿𝑖𝑓𝑡(𝐴 → 𝐵) =𝑃(𝐵|𝐴)

𝑃(𝐵) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐴)𝑃(𝐵) 3. 資料解釋

資料解釋是相當重要的環節，此即為結果產出之描述，依前文所述，由推薦系統中所得知結果需要讓觀眾明白推薦之涵義，而關聯規則的解釋相當容易理解，

其語意表達為「買了項目 A 的人也會買項目 B」，並且關聯規則之解釋與相關分析不同，相關分析不在意順序，只在意雙方關係即可，但關聯規則重視的是特殊的組合關係。本研究之資料解釋為「對本展廳有興趣的人也會去看 B 展廳」。

3.3 推薦引擎

圖 3.5 推薦清單產生，本研究整理

展廳停留時間關聯規則資料庫推薦引擎

推薦清單

(34)

23

1. 推薦引擎

關聯規則品質分數為關聯規則之支持度與信賴度之乘積，以此表示大眾所偏好的規則及分數，支持度與信賴度越高的者則總乘積分數也會較高。

而每個展廳的停留時間是代表該觀眾的偏好，透過實際的行為展生的結果。

以此作為加權分數來做為個人化的預測推薦分數。

推薦引擎是媒合觀眾於當下展廳之停留時間𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒_𝑛𝑜𝑤與關聯規則分數，

在系統尚未被觀眾使用前，可以藉由關聯規則先行產生推薦展廳。而所挖掘出的展廳規則根據 Lin( 2000)所提出的演算法方法，給予每條關聯規則品質分數，將支持度與信賴度相乘後之結果以𝑄𝑢𝑎𝑙𝑖𝑡𝑦_{𝑟𝑢𝑙𝑒}表示。

𝑄𝑢𝑎𝑙𝑖𝑡𝑦_{𝑟𝑢𝑙𝑒} = 𝑆𝑢𝑝𝑝𝑜𝑟𝑡 × 𝐶𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒

線上計算是針對參觀中的觀眾𝑈_𝑎進行推薦，假設觀眾當下於展廳 A 中的停留時間為𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒_𝑛𝑜𝑤，當參觀的展廳數量夠多時，則推薦系統將可以找出具有關聯性的規則，假設關聯規則之每條規則品質分數為𝑄𝑢𝑎𝑙𝑖𝑡𝑦(𝑟𝑢𝑙𝑒)，進行加權平均後則可得推薦展廳的推薦值𝑃𝑟𝑒_𝑎。倘若展廳之重要性越高，則越有可能被推薦。

𝑃𝑟𝑒_𝑎 =∑_{𝑟𝑢𝑙𝑒}𝑄𝑢𝑎𝑙𝑖𝑡𝑦(𝑟𝑢𝑙𝑒) × 𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒_𝑛𝑜𝑤

∑_{𝑟𝑢𝑙𝑒}𝑄𝑢𝑎𝑙𝑖𝑡𝑦(𝑟𝑢𝑙𝑒)

在推薦引擎中，必須要同時計算 Quality 分數及展廳停留時間，所以任何一方都必須要等待，等條件達成才能計算並產生規則的預測分數（如圖 3.6）。

(35)

24

圖 3.6 推薦引擎規則分數產生，本研究整理 2. 推薦清單產生

本研究利用 Top-N 演算法找出預測分數最高的項目，並給予觀眾推薦。剪枝的目的在減少推薦之項目，將不必要或者不要出現的推薦項目從請單中刪，進而可以產生推薦項目的分數列表，假設 A 展廳已經參觀過了，則推薦系統需要將展廳由推薦項目中刪除，藉由 Top-N 演算法將預測分數最高的項目列入推薦清單中，並且去除所有次要的推薦項目。可分為三步驟，步驟一：列出所有推薦引擎產生的清單項目，步驟二：刪除已參觀過的展廳，步驟三：篩選出預測分數最高的展廳。

在推薦清單，比較產生的規則大小後，將分數較高的結果列為推薦項目（如圖 3.7）。

產生規則預測分數

Quality 分數展廳停留時間

(36)

25

圖 3.7 推薦清單處理流程，本研究整理

在第一次展廳推薦項目產生時，由於尚無相關資料，故使用關聯規則之 Quality 分數作為比較大小的依據，當第二次推薦時，就能參考第一次推薦時的展廳停留時間及 Quality 分數（如圖 3.8）。

圖 3.8 推薦方法判斷，本研究整理比較規則分數大小

選擇分數最高的規則

顯示推薦的展廳

Quality 推薦推薦引擎計算分數

第一次被推薦第二次之後被推薦

(37)

26

第四章系統展示

4.1 情境設定

情境設定對象為第一次參觀博物館之觀眾，由於觀眾在史前館參觀時容易弄不清參觀方向，在沒有導覽人員帶領的情況下，對於參觀方向較無概念，此時可以使用推薦系統讓觀眾了解過去參觀之觀眾群體有何特殊偏好，作為參考使用。

本研究使用史前館於 98、100 年所收集之問卷資料，資料內容包含觀眾之背景及在每個展廳中所停留的時間，但是在使用前需要進行資料清洗的動作，故將展廳資料中有空值的無效資料、背景資料刪除及平均停留時間小於 60 秒者刪除。

展廳停留時間資料由 544 筆刪減至 441 筆，並預留 30%資料作為實際案例測試時使用，測試案例共有 132 筆資料，故使用於資料探採之資料為 309 筆。接著再將 309 筆資料轉換為較長停留時間及較短停留時間二種資料型態。在關聯規則挖掘方面使用的工具是 SQL Server 2012，將以轉換完畢的 309 筆資料匯入 SQL Server 中進行關聯規則挖掘。並且將挖掘出的規則匯入資料庫 ruleDB 中。

4.2 結果展示

在進行關聯規則挖掘前先將展廳進行編號，在史前館中共有 14 個常設展廳，

在史前館除了常設展廳，另外設有人類的演化展覽區域，其形式是以通道的方式進行展覽介紹，在本研究中也將其視為一展廳加入關聯規則挖掘中，而宏館新藏是在展示廳旁的通道中進行展示，在本研究中也將其視為一展廳加入關聯規則挖掘中，而服務台雖然有一些展示，但在本研究中不將其視為展廳故將其排除，在地下一樓的中庭區也有介紹不過在本研究中尚無相關資料故將其排除，各展廳以代號表示（如表 4.1）

表 4.1 展廳代號表，本研究整理

(38)

27

id 展廳編號展廳名稱

1 A1 誕生

2 A2 冰期

3 A3 新世代

4 A4 人類的演化

5 A5 臺灣史前序幕

6 A6 臺灣史前人的生活

7 A7 臺灣史前陶器

8 A8 臺灣史前人與海洋

9 A9 卑南遺址的卑南文化

10 A10 巨石與祭祀

11 A11 臺灣史前石器與玉器

12 A12 鐵器時代

13 A13 宏館新藏

14 A14 社會人群關係

15 A15 工藝、生計與社會

16 A16 祭儀與精靈觀念

在關聯規則挖掘中訂定基本條件，所有資料筆數為 309 筆，觀眾至少應該出現 N 次停留在展廳 A 及展廳 B 的情況，展廳項目集的頻繁度至少需要 30 名觀眾樣本支持，故設定最小支持度次數為 30 次，亦即 10%，最小信賴度設定為 50%，

產生的最小項目集中至少要有 1 個項目，至多 2 個項目。

圖 4.6 關聯規則篩選條件，本研究整理

利用 Apriori 演算法產生候選項目集，項目集為 1 時共有 16 筆項目達到標準。

(39)

28

也就是說所有的展廳皆達到最低門檻的標準（如表 4.2）。

表 4.2 項目集為 1 的結果，本研究整理

Num Frequency itemset

1 132 A2

2 130 A7

3 127 A6

4 127 A8

5 126 A3

6 115 A9

7 109 A15

8 108 A10

9 106 A1

10 106 A5

11 103 A4

12 99 A14

13 94 A13

14 86 A16

15 68 A11

16 67 A12

第二輪，設定項目大小為 2 時，將第一輪中次數達到 30 次之項目進行組合，

再將項目組合數達到 30 次之組合保留，其篩選結果共有 85 個項目集產生。

表 4.3 項目集為大小為 2 之結果，本研究整理

Num Frequency itemset

1 96 A6, A7

2 90 A8, A7

3 85 A8, A6

4 80 A9, A7

5 80 A3, A2

6 74 A9, A6

7 69 A9, A8

8 67 A5, A6

9 63 A5, A7

(40)

29

10 61 A10, A9

11 59 A8, A2

12 59 A10, A7

13 59 A10, A8

14 56 A6, A2

15 56 A14, A15

16 56 A7, A2

17 55 A4, A2

18 55 A4, A3

19 54 A16, A15

20 53 A10, A6

21 52 A13, A8

22 51 A5, A8

23 49 A4, A6

24 48 A9, A2

25 48 A5, A9

26 47 A15, A8

27 47 A15, A2

28 47 A3, A7

29 46 A3, A6

30 46 A14, A2

31 45 A3, A8

32 45 A13, A9

33 45 A1, A6

34 45 A1, A8

35 45 A15, A3

36 45 A9, A3

37 44 A10, A2

38 44 A13, A7

39 44 A5, A2

40 44 A1, A7

41 44 A4, A7

42 43 A16, A14

43 43 A4, A5

44 43 A15, A6

45 43 A13, A6

(41)

30

46 43 A4, A8

47 42 A5, A10

48 42 A13, A2

49 42 A15, A7

50 41 A14, A7

51 41 A4, A9

52 41 A1, A9

53 40 A14, A8

54 40 A1, A10

55 39 A16, A3

56 38 A10, A3

57 38 A14, A3

58 37 A1, A15

59 37 A13, A5

60 37 A5, A3

61 37 A4, A10

62 36 A16, A8

63 36 A13, A4

64 36 A16, A6

65 35 A16, A2

66 35 A5, A1

67 35 A11, A6

68 35 A11, A8

69 35 A11, A10

70 34 A1, A3

71 34 A10, A15

72 34 A15, A9

73 34 A14, A10

74 34 A14, A9

75 34 A16, A7

76 34 A14, A6

77 33 A13, A10

78 33 A16, A9

79 31 A12, A15

80 31 A11, A7

81 31 A13, A3

(42)

31

82 30 A13, A15

83 30 A4, A15

84 30 A14, A1

85 30 A13, A1

篩選項目集後可進一步了解項目集中的關聯。藉由信賴度來篩選及產生關聯規則，本研究中產生的關聯規則有 31 條。規則中最小支持度為 10%，最大為 60%，

信賴度最低為 50%，最高為 76%。如果按照進入展廳編號較小且預測展廳編號較大之結果，會有 11 條規則符合。

表 4.4 展廳關聯規則，本研究整理

Id Confidence Importance Rule

1 0.76 0.60 A6 -> A7

2 0.74 0.62 A7 -> A6

3 0.71 0.50 A8 -> A7

4 0.70 0.42 A9 -> A7

5 0.69 0.52 A7 -> A8

6 0.67 0.46 A6 -> A8

7 0.67 0.46 A8 -> A6

8 0.64 0.37 A9 -> A6

9 0.64 0.34 A3 -> A2

10 0.63 0.33 A5 -> A6

11 0.63 0.40 A16 -> A15

12 0.62 0.49 A7 -> A9

13 0.61 0.36 A2 -> A3

14 0.60 0.30 A9 -> A8

15 0.59 0.25 A5 -> A7

16 0.58 0.41 A6 -> A9

17 0.57 0.35 A14 -> A15

18 0.57 0.32 A10 -> A9

19 0.55 0.20 A13 -> A8

20 0.55 0.19 A10 -> A7

21 0.55 0.21 A10 -> A8

22 0.54 0.33 A8 -> A9

23 0.53 0.15 A4 -> A2

(43)

32

24 0.53 0.19 A4 -> A3

25 0.53 0.34 A9 -> A10

26 0.53 0.38 A6 -> A5

27 0.52 0.23 A11 -> A10

28 0.52 0.13 A11 -> A6

29 0.52 0.13 A11 -> A8

30 0.51 0.37 A15 -> A14

31 0.50 0.30 A16 -> A14

本研究進行資料採礦後結果得到三個關聯規則群，第一個群體中的展廳分別是冰期展廳與新世代展廳，此二展廳位於自然史展區內，而連接自然史展區與臺灣史前文化展區的是人類的演化展廳。

圖 4.7 自然史展區關聯規則相依性網路，本研究整理

第二個關聯規則群是史前文化展區，由地下一樓的展廳所組成，圖 4.2 中以史前館現有展區設計按位置對展廳進行排列，分別是臺灣史前序幕展廳、臺灣史前人的生活展廳、臺灣史前陶器展廳、臺灣史前人與海洋展廳、卑南遺址的卑南文化展廳、巨石與祭祀展廳、臺灣史前石器與玉器展廳、鐵器時代展廳、宏館新藏展廳（如圖 4.2），可以發現展廳推薦較集中於左側及下方。

(44)

33

圖 4.8 臺灣史前文化展區關聯規則相依性網路，本研究整理

第二個群集裡三個展廳，分別是有祭儀與精靈觀念展廳、工藝、生計與社會展廳、社會人群關係展廳。三個展廳皆隸屬於南島族群展區內。（如圖 4.3）

圖 4.9 南島民族展區關聯規則相依性網路，本研究整理

在關聯規則產生後即使用增益計算採礦模型對展廳的預測效益。本研究使用 SQL Server 2010 中的增益功能對展廳進行測量，本研究資料採礦模型在預測各展廳所需的母體樣本數及預測機率（如表 4.5）。

本研究之關聯規則採礦模型是需要預測可能在該展廳中停留時間較久的觀眾，例如：目標對可能會在臺灣史前人生活展廳中停留較長時間的觀眾，本研究模型在母體擴展達 46%時，理論上可推薦給所有目標觀眾，但實際上推薦正確的

(45)

34

觀眾只有約 79%，而每次預測中有 71%的機率能預測成功。

表 4.5 關聯規則之增益值，本研究整理

展廳所有觀眾可能在該展廳中停留較長理想值預測機率

A1 0.28 0.6857 1 0.8298

A2 0.4 0.5 1 0.5724

A3 0.45 0.6491 1 0.5461

A4 0.4 0.38 1 0.3344

A5 0.34 0.4651 1 0.5039

A6 0.46 0.7931 1 0.7107

A7 0.4 0.7 1 0.7244

A8 0.45 0.7544 1 0.7008

A9 0.34 0.5581 1 0.6772

A10 0.26 0.3333 1 0.5455

A11 0.28 0.2571 1 0.2274

A12 0.24 0.4333 1 0.204

A13 0.3 0.2703 1 0.3077

A14 0.37 0.5319 1 0.5347

A15 0.38 0.5417 1 0.5595

A16 0.28 0.2571 1 0.2809

在推薦引擎部分，以前文中隨機抽取 30%觀眾作為測試案例，透過觀眾的參觀過程中的停留時間進行加權計算後產生推薦分數。

使用在關聯規則中的最小支持度與信賴度之乘積建立 Quality，Quality 參數以矩陣的方式表示可表示為 A16*A16 展廳關聯規則表，由於本研究中只列出有產生結果的部分（如表 4.6、表 4.7、表 4.8）。

表 4.6 自然史展區 Quality 分數，本研究整理

A2 A3

A2 0.22

A3 0.22

A4 0.08 0.1

(46)

35

表 4.7 臺灣史前文化展區 Quality 分數，本研究整理

A5 A6 A7 A8 A9 A10

A5 0.21 0.15

A6 0.2 0.45 0.3 0.24

A7 0.46 0.36 0.3

A8 0.3 0.35 0.18

A9 0.24 0.3 0.18 0.18

A10 0.1 0.11 0.18

A11 0.07 0.07 0.12

A13 0.11

表 4.8 臺灣南島民族展區 Quality 分數，本研究整理

A14 A15 A16

A14 0.2

A15 0.19

A16 0.15 0.25

在 132 名測試樣本中，臺灣史前人與海洋展廳人數最多。由於博物館展廳順序為環狀，可能由順時針方向或逆時針方向進行參觀，所以可能有前後順序的影響（如表 4.9）。

表 4.9 觀眾於展廳中停留時間較長人數，本研究整理

展廳觀眾於展廳中停留時間較長人數

A1 50

A2 58

A3 59

A4 41

A5 45

A6 47

A7 57

A8 56

A9 53

A10 42

A11 27

(47)

36

A12 28

A13 29

A14 38

A15 51

A16 33

觀眾皆有其獨自的參觀行程，而推薦系統根據每位觀眾之展廳停留時間來推薦下一個展廳給觀眾。在本研究中是按照史前館方設定的導覽路徑進行預測及推薦，故推薦時的順序是由 A1 到 A16，不會有逆向的規則產生。所以在規則資料庫中的逆向推薦規則將不會使用。

博物館中的參觀行為則可以為二階段，分別是剛進入博物館參觀時，及參觀中。在系統推薦初期使用 Quality 作為規則比較的依據，其原因在於初期沒有進行加權計算。以編號 91 號觀眾為例，91 號觀眾被第一次被推薦時有 3 個展廳可供選擇，依據 Quality 可呈現出 3 條規則的分數（如表 4.10）。產生分數後在推薦清單篩選階段進行規則篩選（如表 4.10）。

表 4.10 Quality 與規則，本研究整理

A6->A7 A6->A8 A6->A9

Quality 0.45 0.3 24

表 4.11 Quality 推薦項目，本研究整理 A6->A9

Quality 0.45

從第二次藉由推薦引擎計算各規則之結果，第二次計算時會將前次的結果加入計算中，最後產生的結果進行篩選，並推薦給觀眾。所以目前觀眾只要被推薦就只會看見一個展廳推薦項目，以 91 號觀眾為例，第二次推薦給 91 號觀眾的規則是 A7->A8，所以出現的推薦項目是 A8 展廳（如表 4.11）。

(48)

37

表 4.12 推薦預測分數，本研究整理

規則計算結果

A7->A8 (90+82.44)/(0.45+0.36) 212.8 A7->A9 (90+68.7)/(0.45+0.3) 211.6

(49)

38

第五章測試與評估

5.1 測試與評估方法

本研究中使用 Precision 進行驗證，目的為測量使用者是否真的按照推薦系統的建議，在推薦的展廳中也停留較長的時間，而比較實驗比較是以亂數產生的推薦作為比對對象。

假設 A 展廳停留時間為 𝑇_𝐴，且關聯規則中產生了 𝑇_{𝐴,𝑙𝑜𝑛𝑔} → 𝑇_{𝐵,𝑙𝑜𝑛𝑔}的規則，

當使用者 𝑈_𝑎真的在展廳 B 中停留了較長的時間，則代表推薦的規則是有效的。

若只有 𝑇_𝐴的停留時間長但去到推薦的展廳 𝑇_𝐵時卻沒有如系統預期停留較長的時間，則該次推薦為失敗。倘若 𝑇_{𝐴,𝑙𝑜𝑛𝑔} → 𝑇_{𝐵,𝑙𝑜𝑛𝑔}之規則失敗，觀眾在 𝑇_𝐵展廳停留時間為短，則推薦系統將不會提供推薦項目，觀眾到下一個展廳後重新計算，

當觀眾 𝑈_𝑎完成所有參觀程序時，將會有被推薦所有次數 𝑁及當中推薦成功次數 𝑛，推薦成功率以 Precision 表示。

Precision = 𝑛 𝑁

而將所有觀眾的推薦成功率平均後的推薦成功率則是系統的平均推薦成功率。

System Precision = ∑𝑎𝑙𝑙 𝑣𝑖𝑠𝑖𝑡𝑜𝑟𝑛

∑𝑎𝑙𝑙 𝑣𝑖𝑠𝑖𝑡𝑜𝑟𝑁

5.2 測試結果

本研究之推薦成功率評估計算分為單一觀眾的推薦成功率（Recommendation

(50)

39

Success Rate of Visitor，RSRV）、各展廳的推薦成功率（Recommendation Success Rate of Showroom，RSRS）、推薦次數的推薦成功率（Recommendation Success Rate of Recommender times，RSRR）。

前文中從 441 比資料中隨機抽樣出 30%觀眾作為測試案例，抽樣觀眾中並沒有使用過本研究之推薦系統，故以模擬的方式測驗系統推薦時是否會出現與觀眾行為相同的結果（如表 5.1），推薦系統啟用時機在於觀眾是否停留較長的時間，

若停留較長的時間則進行推薦，但是由於本研究之規則數量較少，所以有些展廳即使有較長的停留時間也無法提供推薦項目，故不納入推薦次數與成功次數的計算中，另外由於抽樣觀眾中沒有出現推薦故不列出計算中，在本研究中扣除 12 名沒有被系統推薦之觀眾。系統對抽樣觀眾的總推薦次數為 354 次，成功次數為 206 次，在本研究中系統的推薦成功率為 58%。若扣除所有展廳推薦成功次數為 0 之樣本，則成功率可以提升至 70%。

表 5.1 單一觀眾的推薦成功率，本研究整理

觀眾編號推薦次數成功次數 RSRV

1 5 3 60%

2 3 0 0%

3 1 0 0%

4 3 1 33%

5 1 0 0%

6 2 1 50%

7 5 2 40%

8 1 0 0%

9 4 4 100%

10 6 5 83%

11 5 2 40%

12 1 1 100%

13 1 0 0%

14 5 4 80%

(51)

40

15 3 1 33%

16 4 4 100%

17 3 2 67%

18 4 3 75%

19 2 0 0%

20 3 2 67%

21 6 6 100%

22 3 3 100%

23 4 2 50%

24 2 1 50%

25 1 0 0%

26 2 2 100%

27 1 0 0%

28 1 0 0%

29 6 6 100%

30 1 1 100%

31 6 2 33%

32 1 0 0%

33 1 0 0%

34 5 1 20%

35 3 0 0%

36 1 1 100%

37 4 3 75%

38 3 2 67%

39 2 1 50%

40 3 1 33%

41 3 2 67%

42 4 3 75%

43 5 4 80%

44 4 4 100%

45 2 1 50%

46 1 1 100%

47 2 2 100%

48 4 3 75%

49 2 1 50%

50 6 5 83%

(52)

41

51 1 0 0%

52 5 5 100%

53 4 2 50%

54 6 3 50%

55 6 5 83%

56 2 1 50%

57 4 4 100%

58 1 0 0%

59 3 1 33%

60 1 0 0%

61 2 0 0%

62 2 0 0%

63 1 0 0%

64 1 0 0%

65 1 0 0%

66 6 5 83%

67 6 6 100%

68 6 5 83%

69 4 2 50%

70 1 1 100%

71 5 4 80%

72 2 2 100%

73 3 2 67%

74 6 3 50%

75 3 1 33%

76 3 0 0%

77 3 0 0%

78 2 1 50%

79 2 0 0%

80 2 2 100%

81 1 1 100%

82 5 5 100%

83 3 2 67%

84 2 0 0%

85 1 0 0%

86 1 0 0%

(53)

42

87 3 1 33%

88 3 0 0%

89 5 4 80%

90 1 1 100%

91 3 1 33%

92 3 2 67%

93 3 1 33%

94 1 0 0%

95 1 1 100%

96 1 1 100%

97 4 2 50%

98 2 1 50%

99 6 4 67%

100 5 4 80%

101 4 4 100%

102 4 2 50%

103 3 0 0%

104 3 2 67%

105 1 0 0%

106 5 5 100%

107 3 0 0%

108 1 0 0%

109 3 2 67%

110 2 0 0%

111 6 5 83%

112 3 1 33%

113 2 0 0%

114 1 0 0%

115 1 0 0%

116 2 1 50%

117 2 0 0%

118 1 1 100%

119 4 3 75%

120 4 2 50%

總計 354 207 58%

(54)

43

本研究由於推薦規則較少，故有些展廳雖然有較長的停留時間，但尚無規則可供推薦，所以在表 5.2 中只列出有出現推薦規則的展廳及其推薦次數、推薦成功次數及推薦成功率。各展區中的展廳關係較為強烈，不同展區展廳的推薦較無法產生效果。

表 5.2 各展廳推薦成功率，本研究整理

展廳代號展廳推薦次數成功次數 RSRS

A2 58 34 59%

A5 45 23 51%

A6 47 31 66%

A7 57 33 58%

A8 56 35 63%

A9 53 27 51%

A14 38 23 61%

總數 354 206 58%

而 RSRS 在較集中於 A6 至 A9 展廳中，除了 A6 展廳推薦其他展廳的次數較少外，其他的展廳推薦次數皆大於 10 次（如圖 5.1）。

圖 5.1 各展廳推薦成功率，本研究整理

0%

10%

20%

30%

40%

50%

60%

70%

A2 A5 A6 A7 A8 A9 A14

RSRS

(55)

44

如果系統只推薦一次，則成功率會比較低（表 5.3）。

表 5.3 推薦次數與成功率，本研究整理

推薦次數展廳推薦平均成功次數 RSRR

1 0.3 31%

2 0.8 40%

3 1.2 38%

4 2.9 73%

5 3.6 72%

6 4.6 77%

當系統推薦次數越多時則推薦成功率會有越高的趨勢，此點與協同式過濾一樣有冷啟動的問題存在，展廳在推薦次數小於 3 次時，推薦成功的機率低於 50%，

但在推薦次數超過 3 次時，推薦的成功率就超過 50%。平均推薦成功的次數在 6 次時達到最高（圖 5.2）。

圖 5.2 RSRR，本研究整理

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

1 2 3 4 5 6

RSRR

(56)

45

第六章結論與討論

6.1 結論

本研究針對史前館之模擬參觀結果顯示，關聯規則所挖掘出的不只有順向的規則，也有逆向的規則，而本研究按照史前館方的建議參觀方向進行推薦時，其成效較隨機佳。在各展廳的推薦次數中，按照關聯規則所建議之路徑結果，在自然史展區中，冰期展廳推薦下一個新生代展廳雖然以常識來是理所當然的，但從抽樣結果上卻顯示不一定，參觀冰期展廳的觀眾不一定喜歡參觀新生代展廳。

從人類的文化展聽到臺灣史前文化生活展廳之規則在關聯規則中是有趣的結果，因為人類的文化展廳是以通道的方式作展覽，而館方建議參觀路徑是從人類的文化展廳至臺灣史前序幕展廳，故應該於參觀時先行參觀臺灣史前序幕展廳再參觀臺灣史前人的生活展廳，但關聯規則顯示的結果是觀眾可能直接選擇到臺灣史前人的生活展廳中參觀。

在史前文化展區中，大部分觀眾會集中於臺灣史前文化生活、臺灣史前陶器、

臺灣史前人與海洋、卑南遺址的卑南文化、巨石與祭祀等展廳中，就算是逆向的參觀史前文化展區，也會集中這幾各展廳中，而產生的規則中較為有趣的規則是看完史前人的生活較長的觀眾在卑南遺址的卑南文化也停留較長的時間。

在推薦引擎中納入觀眾的停留時間可以提供較為個人化的結果，根據不同的偏好，所選擇停留時間較長的展廳也有所不同。起初推薦系統機制無法進行計算時，藉由關聯規則所產生的分數能夠在第一次參觀停留時間較高展廳時就進行推薦，而推薦系統在第二次停留時間較長時會開始進行計算，由於會不斷藉由過去的資料進行加權計算，故推薦結果會不斷改變。在推薦的評估中顯示推薦次數在 6 次時成功的機率最高，有 77%的機率可以推薦成功。

碩士論文 Department of Information Science and Management Systems National Taitung University Master Thesis 國立臺東大學資訊管理學系

國立臺東大學資訊管理學系 碩士論文

Department of Information Science and Management Systems

National Taitung University Master Thesis

以關聯規則建構博物館導覽推薦系統之研究 A Study of Constructing Museum Guide Recommender System using Association Rules

研究生：林清欽

Graduate Student: Ching-Chin Lin 指導教授：謝明哲 博士 Advisor: Ming-Che Hsieh, Ph.D.

中 華 民 國一○四年 六 月

June, 2015

致謝

摘要

Abstract

目錄

圖次

表次

第一章 緒論

1.1 背景與動機

1.2 研究目的

1.3 研究流程

第二章 文獻探討

2.1 推薦系統定義

2.1.1 推薦系統類型

2.1.2 推薦系統建置與評估

2.2 關聯規則

2.2.1 關聯規則定義

2.2.2 關聯規則與推薦系統

2.3 博物館導覽與推薦系統

2.4 情境感知與推薦系統

第三章 系統設計

3.1 系統架構

3.2 關聯規則挖掘

3.3 推薦引擎

第四章 系統展示

4.1 情境設定

4.2 結果展示

第五章 測試與評估

5.1 測試與評估方法

5.2 測試結果

第六章 結論與討論

6.1 結論

國立臺東大學資訊管理學系碩士論文

Graduate Student: Ching-Chin Lin 指導教授：謝明哲博士 Advisor: Ming-Che Hsieh, Ph.D.

中華民國一○四年六月

第一章緒論

第二章文獻探討

第三章系統設計

第四章系統展示

第五章測試與評估

第六章結論與討論