國立臺東大學資訊管理學系 碩士論文
Department of Information Science and Management Systems
National Taitung University Master Thesis
以關聯規則建構博物館導覽推薦系統之研究 A Study of Constructing Museum Guide Recommender System using Association Rules
研究生:林清欽
Graduate Student: Ching-Chin Lin 指導教授:謝明哲 博士 Advisor: Ming-Che Hsieh, Ph.D.
中 華 民 國一○四年 六 月
June, 2015
致謝
感謝老師多年來的包容與引導,讓我能在研究期間盡可能的探索各種可能的 研究方向,且在許多關鍵之處給予方向,讓我不斷精進自己不足之處,也對自己 的界限有更深刻的認識。
感謝口試委員吳仁和教授、黃恊弘教授給予的寶貴建議,讓我能對於研究中 的盲點有更清楚的認知。
感謝過程中家人的各種關心及催促,過程中不免擔心無法完成研究,但是最 後還是達成任務。
在許多年的研究過程中得到的是許多始料未及的驚喜,也體驗到學海無涯及 浩瀚,雖然過程中有遭遇到許多困境與問題,但都一步一步的突破,最終堅持到 底所得結果仍是豐盛的。
感謝過去從事史前館研究的學長姊們,因著過去的努力所得之結果,使我能 夠做更進一步的研究,探討不同技術與領域間的結合。
感謝資管系行政上的許多幫助,讓我可以在過程中不被行政流程所困,能夠 順利地進行論文口試。
要感謝的人與事太多,我想還是感謝上天吧!
林清欽 僅誌 于國立臺東大學資訊管理學系
I
摘要
目前在國立史前文化博物館中尚無一套推薦模式提供觀眾作為導覽推薦使 用,觀眾在參觀的過程中較容易有資訊超載的問題。雖然推薦系統可解決資訊超 載問題,但傳統推薦系統中多使用於虛擬的網際網路中,與實體的博物館中參觀 有所差異。觀眾著眼的並非只有尋找相似的物品,還需要找出展廳間所隱藏的關 聯,使觀眾透過展廳間的關聯來找到可前往展廳參觀。故本研究中結合關聯規則 與推薦系統來作為解決方案。
本研究使透過情境感知技術收集觀眾停留時間資料與定位,並以此進行關聯 規則的挖掘,試圖找出可能的展廳關聯。再將找出的規則與個人停留時間結合來 建構線上的推薦引擎,並計算可推薦的展廳。而在推薦成功率則使用精確度來進 行評估。
研究結果分為二部分,第一是透過關聯規則所挖掘的出規則,有展區分別的 現象,不同的展區間較難產生關聯,展區內之展廳彼此產生關聯規則。第二是線 上的推薦引擎計算結果,透過關聯規則與觀眾停留時間建立推薦清單,其結果是 在系統初期可以使用關聯規則達成推薦,但推薦的次數不多時成功率較低,但是 當推薦系統推薦的次數到達 6 次時最為顯著。並且推薦的展廳較集中在史前文化 展區內。
關鍵字:推薦系統、博物館導覽、關聯規則
II
Abstract
Currently at the National Museum of Prehistory there is no set of recommenda- tion system provided for visitors, which leads to information overload problem while visiting. Even though the preferred system able to solve the problem, the traditional recommendation system is more likely to be used in the virtual Internet, for the mu- seum entity varies. Visitors focus is not only to find similar articles, but also the need to find hidden associations between items through the exhibition halls. Therefore, this study combine the association rules with recommended system to create a solu- tion.
The research led by context-aware technology collects visitors dwelling time and location data, conduct the mining related rules as well as trying to find possible linked exhibition. Furthermore, it integrates the rules with personal time to construct online recommendation engine and calculate recommendable hall. The success rate in the recommended system used to evaluate the accuracy.
Study results are divided into two parts, the first is through the association rule digging out the rules. There is the phenomenon of the exhibition respectively, which is a difficulty to produce association rules within each differently related exhibition hall.
The second part is the recommended engine results. The establishment of a list of recommended association rules with visitors through their residence time resulting the system that can be used in the initial association rules to achieve the recommendation.
However, the recommendation number of small success rate is low, but it would be significant when the recommendation system reach six times. The recommendation will focus more in the prehistoric cultural exhibition.
Keyword: recommender system, museum guide, association rule
III
目錄
中文摘要... I 英文摘要... II 圖次... V 表次... VI
第一章 緒論... 1
1.1 背景與動機... 1
1.2 研究目的... 4
1.3 研究流程... 5
第二章 文獻探討... 7
2.1 推薦系統定義... 7
2.1.1 推薦系統類型... 7
2.1.2 推薦系統建置與評估... 12
2.2 關聯規則... 15
2.2.1 關聯規則定義... 15
2.2.2 關聯規則與推薦系統... 15
2.3 博物館導覽與推薦系統... 16
2.4 情境感知與推薦系統... 17
第三章 系統設計... 18
3.1 系統架構... 18
3.2 關聯規則挖掘... 19
3.3 推薦引擎... 22
第四章 系統展示... 26
4.1 情境設定... 26
4.2 結果展示... 26
第五章 測試與評估... 38
5.1 測試與評估方法... 38
IV
5.2 測試結果... 38
第六章 結論與討論... 45
6.1 結論... 45
6.2 討論... 46
參考文獻... 47
中文文獻 ... 47
英文文獻 ... 47
V
圖次
圖 1.1 史前館二樓展廳... 2
圖 1.2 史前館地下一樓展廳... 2
圖 2.1 推薦系統類型圖... 7
圖 2.2 推薦系統建置流程... 13
圖 2.3 資料採礦三階段... 16
圖 3.1 推薦模式... 18
圖 3.2 停留時間與關聯規則挖掘... 19
圖 3.3 資料前處理... 20
圖 3.4 關聯規則產生... 21
圖 3.5 推薦清單產生... 22
圖 3.7 推薦清單處理流程... 25
圖 3.8 推薦方法判斷... 25
圖 4.6 關聯規則篩選條件... 27
圖 4.7 自然史展區關聯規則相依性網路... 32
圖 4.8 臺灣史前文化展區關聯規則相依性網路... 33
圖 4.9 南島民族展區關聯規則相依性網路... 33
圖 5.1 各展廳推薦成功率... 43
圖 5.2 RSRR ... 44
VI
表次
表 2.1 協同式過濾技術概述表... 10
表 2.2 混合式推薦系統方法... 12
表 2.3 推薦系統評估類型... 14
表 2.4 推薦系統評估演算法... 14
表 4.1 展廳代號表... 26
表 4.2 項目集為 1 的結果... 28
表 4.3 項目集為大小為 2 之結果... 28
表 4.4 展廳關聯規則... 31
表 4.5 關聯規則之增益值... 34
表 4.6 自然史展區 Quality 分數... 34
表 4.7 臺灣史前文化展區 Quality 分數... 35
表 4.8 臺灣南島民族展區 Quality 分數... 35
表 4.9 觀眾於展廳中停留時間較長人數... 35
表 4.10 Quality 與規則... 36
表 4.11 Quality 推薦項目 ... 36
表 4.12 推薦預測分數... 37
表 5.1 單一觀眾的推薦成功率... 39
表 5.2 各展廳推薦成功率... 43
表 5.3 推薦次數與成功率... 44
1
第一章 緒論
1.1 背景與動機
導覽是博物館中的重要服務,根據牛津辭典中之釋義為「在博物館中引導觀 眾的工作者」,其字義起源於拉丁文「docere」,意思是教導。
在博物館中各種不同的類型的觀眾,賴明洲(1998)依據群眾可分為民眾、
學生、研究人員三種,一般民眾相對於學生及研究人員較屬於走馬看花,不論在 參與、學習、研究上都較弱。但是若想要發揮博物館中的教育價值,只有走馬看 花是較為不足的。
除了觀眾類型,陳筱筠(2002)提出成人背景類型與博物館空間之關係,大 部分的觀眾類型屬於喜歡反思觀察的類型且受教育程度較高之外,還希望能夠快 速融入陌生博物館的環境中,並強調導覽人員及手冊的重要性。而在博物館中的 導覽方式是相當多樣的,除了傳統的導覽員導覽,還有文字、語音、多媒體互動 等。
本研究研究對象為國立臺灣史前文化博物館(簡稱史前館),史前館為一考 古類型博物館。徐宏仁(2008)針對國內外考古類型博物館進行研究,考古類博 物館會針對時間或空間順序進行場館設計,並對於每個展廳進行主題規劃,在主 題展示中交互使用證據展示、情境生態展示、情境互動展示。但是吸引觀眾上,
需要有較大型展示單元或在主要動線上才具有吸引力,如果要讓觀眾持續觀看則 需要使用互動的方式。但是史前館在展場設計上有展廳過於相似的問題存在、導 覽動線也標示不清,且由於場館之特殊設計,入館中的觀眾可能會有走迷宮的感 覺(如圖 1.1、圖 1.2)。
2
圖 1.1 史前館二樓展廳,引用自史前館網站
圖 1.2 史前館地下一樓展廳,引用自史前館網站
3
目前史前館當中有提供定時導覽與 PDA 語音導覽。定時導覽是由導覽員執 行,導覽對象大多為團體,曾令全(2010)發現史前館導覽員雖然能較為生動的 描述,但缺點是較難照顧到所有觀眾的需求,可能因「觀眾注意力轉移」、「部分 觀眾看不見」及「觀眾聽不懂講解」三種因素造成導覽上的困難。PDA 語音導 覽可以讓散客自行於博物館中參觀時輸入號碼來領聽語音導覽,但缺點是語音導 覽不一定能符合觀眾的需求。
史前館中的現有問題有二,一是博物館參觀時間問題,二是博物館參觀行為 問題。依據 98、100 年所收集到的之問卷資料,顯示史前館觀眾於博物館中的停 留時間在 15 分鐘至 40 分鐘左右,觀眾平均停留的展廳數是 8 間。由於史前館的 常設展廳規模遍及三層樓 16 個展廳,若想在短時間內參觀所有展廳將會遭遇資 訊超載(Information overload)的問題,導致觀眾的興致降低。Farhoomand 和 Drury (2002)認為人們面對過多資訊時,所需要的不只是經過過濾的資訊,而是 需要更多針對該議題的有用資訊。
針對資訊超載問題可以使用推薦系統(Recommender System)作為解決方案。
推薦系統於 1992 年開始被應用於網際網路的環境中,從 2001 年至 2011 年期間,
推薦系統成功被應用於電子商務網站中,其他領域如各種商品、新聞、影音網站、
社群網站、工作亦有所發展,但在文化領域著墨較少(Park et al. ,2012)。在推薦 系統中最廣為人知的是商業網站 Amazon 在協同式過濾上之應用,推薦系統透過 評分(Rating)機制來訂定商品的評分。但是傳統協同式過濾在應用上容易產生 二種問題,第一,對於剛進入館中參觀的觀眾無法提供推薦服務。第二,顯性評 分問題,顯性評分會對觀眾造成干擾。
推薦模式中 Alabastro et al. (2010)等人建構博物館推薦系統時比較內容導向 式、內容導向式與情境感知結合、協同式過濾、協同式過濾與情境感知結合,在
4
計算時協同式過濾與情境感知結合可以達到 94%的預測準確。但在線上計算的部 分就不及內容式過濾,但協同式過濾在資料覆蓋率上較內容導向式結果佳。
除了透過資訊過濾來將資料篩選外,可進一步透過資料採礦(Data Mining)
技術將資料中有特殊價值的規則挖掘出來,在史前館中有於展廳的設計內容較為 相似,故只有計算展廳近似度是較為不足的,還需要嘗試找出可能的展廳參觀路 徑。
在博物館中可以結合不同的推薦模式來提供給使用者相關的知識項目,而在 數位學習上可以使用關聯規則或混合式推薦系統的方式作為推薦計算基礎,在旅 遊導覽上可以使用行動導覽與網際網路結合的進行 (Lu, Wu, Mao, Wang, &
Zhang, 2015)。
現今博物館經營上比過去更為艱難,雖然博物館對於人類文明及文化之影響 深遠,但在資訊發達的世代中需要更為個人化的解決方案。
1.2 研究目的
本研究想藉由隱性評分機制來降低對觀眾參觀博物館時的影響,但過去的協 同式推薦模式中使用的是顯性評分,若要使用顯性評分則需要利用情境感知技術 記錄觀眾之展廳停留時間,避免對觀眾之影響,以此改善傳統協同式推薦系統顯 性評分的問題。另一點,協同式過濾推薦模式是屬於近似度計算,藉此找到相似 的項目,但在博物館中參觀的目的並非尋找相似的物品,而是要將主題或項目進 行有順序性的介紹,而史前館本身之設計也相當注重有脈絡的介紹,故需要找到 隱藏於展廳間的順序關係,故在本研究中使用資料採礦中的關聯規則方法,將觀 眾於個別展廳中的停留時間進行關聯規則挖掘,試圖找出其中隱藏的展廳關聯。
5
但由於每個觀眾對展廳之興趣不同,所以需要針對觀眾之喜好進行調整,故將以 關聯規則為基礎,與展廳停留時間結合後再推薦展廳給觀眾。
1.3 研究流程
本研究第一章探討背景與動機,第二章探討過去的文獻及所使用的解決方案,
第三章進行研究方法的描述,第四章進行實驗系統設計,第五章對系統進行評估,
第六章為結論與討論。
6
圖 1.3 研究流程圖 第一章 背景與動機
第二章 文獻探討
第三章 系統設計
第四章 系統展示
第五章 系統評估
第六章 結論與討論
7
第二章 文獻探討
2.1 推薦系統定義
推薦系統係由資訊過濾(Information Filtering)技術發展而來,藉由資訊過 濾將大量的資料雜訊(Noise)消除後,將過濾後資訊推薦給使用者。
第一個推薦系統 Taspestry 使用時並非使用推薦系統命名,而是使用協同過 濾表達之,Resnick 和 Varian (1997)基於二種理由定義何謂推薦,第一:推薦者 與受推薦者可能是不明確地合作,第二:推薦要建議有特別興趣的項目,除此之 外的項目都應該被過濾,此為推薦系統命名之由來。Ricci et al. (2011)等人認為 推薦系統是一種對使用者使用上提供項目建議的軟體工具或技術。
2.1.1 推薦系統類型
網頁推薦系統為早期發展的方法,由於網頁的數量極為龐大,單靠搜尋引擎 蒐集資訊是很沒有效率的行為,故使用推薦系統進行過濾。推薦系統自 1994 年 發展以來已有數種推薦系統方法。Pazzani (1999)將推薦系統分為內容導向式過濾、
協同式過濾、混合式過濾、人口統計式。而後又增加了基於知識推薦。以下介紹 各推薦系統類型。(如圖 2.1)
圖 2.1 推薦系統類型圖,本研究整理 推薦系統類型
內 容 過 濾 式 協
同 式 過 濾 人
口 統 計 式 基
於 知 識 混
合 式 推 薦
8
1. 內容導向式推薦(Content-based Filtering Recommender)
Pazzani 和 Billsus, (2007)等人定義內容導向式推薦是根據使用者輪廓(User Profiles)來提供推薦項目給予使用者。使用者輪廓範圍包含對項目的評分、歷 程記錄、興趣…等。根據使用者過去的行為來過濾出相似的項目並推薦。較為簡 單的方式是記錄使用者對於有評分的項目,並找到與該項目的相似的項目。這裡 將會出現解釋上的分岔,倘若內容式的推薦策略中包含歷史評分,則會被認為是 協同式過濾的一種類型,但如果不計算歷史評分只計算內容則可以視為非協同式 過濾。
內容導向式過濾有二個主要議題,第一:尋找重要的文件;第二:推薦尚未 被發掘的文件。
在內容導向式推薦系統中較常使用的有 TF-IDF 演算法,TF-IDF 是透過字詞 進行過濾篩選,將文件中的字詞出現頻率高的項目及太少出現的項目去除。
2. 協同式過濾推薦(Collaborative Filtering)
Breese et al. (1998)定義協同式過濾推薦系統是建立在假設上,它是種藉由有 興趣的內容找到也有相似興趣的人們,並且將相似人們也喜好的項目推薦的方法。
Schafer et al. (2007)定義協同式過濾是一種使用其他人們的評價過濾或評估項目 的程序。
在協同式過濾推薦系統中有三個主要角色,第一:使用者、第二:項目、第 三:評分。評價在協同式過濾中扮演連結使用者與項目角色,並能產生使用者與 項目的評分矩陣,而評分的性質可分為顯性(Explicit)與隱性(Implicit)二種,
顯性的評價著重於使用者所提供相關資料或購買資訊,而隱性評分則是觀察使用 者的行為。顯性較容易影響使用者觀感,而隱性較不會影響使用者觀感。
協同式過濾推薦系統藉由近似度來計算使用者相似的使用者或項目,並且將
9
相關程度高的項目推薦給使用者。例如:Resnick et al. (1994)等人發展文章推薦 系統 GroupLens,以協助使用者在網路上搜尋資料時對資料進行過濾,方便人們 尋找。
Su 和 Khoshgoftaar (2009)說明協同式過濾針對評分計算可分為基於記憶與 基於模式二類。
(1) 基於記憶(Memory-based)
使用使用者評分資料或權重計算使用者與項目間的相似分數,並且根據相似 分數進行預測及推薦。而這種方法被應用於電子商務網站中,例如:Amazon。
基於記憶可分為二種計算,分別是基於使用者(User-based)、基於項目
(Item-based)。基於使用者是計算使用者間的近似度,基於項目是計算項目間的 近似度。基於項目較常使用的計算方法有調整後的餘弦近似度(Adjusted Cosine Similarity)、基於餘弦近似度(Cosine-based Similarity)、基於相關的近似度三種
(Correlation-based Similarity)。
(a) 基於使用者
假設有二名使用者𝑢和𝑣,而sim(𝑢, 𝑣)為其近似度分數,𝑟為其評分, 𝑟̅為所 有評分的平均(平均計算時要忽略沒有評分的項目),則可以表示為方程式 2.1。
sim(𝑢, 𝑣) = ∑ (𝑟𝑖∈𝐼 𝑢,𝑖−𝑟̅𝑢)(𝑟𝑣,𝑖−𝑟̅𝑣)
√∑ (𝑟𝑖∈𝐼 𝑢,𝑖−𝑟̅𝑢)2√∑ (𝑟𝑖∈𝐼 𝑣,𝑖−𝑟̅𝑣)2
(2.1)
其解釋為當使用者 Ui相似於某一族群 G 的使用者時,如果 G 族群對 Ij 有興 趣,則猜測 Ui也能對項目 Ij 有興趣,故推薦項目 Ij 給使用者。步驟為收集使用 者評分、計算使用者近似度、提出推薦結果清單。
(b) 基於項目
10
假設某使用者𝑢在項目𝑖和𝑗有評分,而sim(𝑖, 𝑗)為其近似度分數,𝑟為其評分,
𝑟̅為所有評分的平均(平均計算時要忽略沒有評分的項目),則可以表示為方程式 2.2。
sim(𝑖, 𝑗) = ∑𝑖∈𝐼(𝑟𝑢,𝑖−𝑟̅𝑖)(𝑟𝑢,𝑗−𝑟̅𝑗)
√∑ (𝑟𝑖∈𝐼 𝑢,𝑖−𝑟̅𝑖)2√∑ (𝑟𝑖∈𝐼 𝑢,𝑗−𝑟̅𝑗)2
(2.2)
其解釋為當使用者 Ui對項目 Ij有興趣,某群體 G 對項目 Ij有興趣之外,也 對項目 Ix有興趣,則推測 Ui 對 Ij有興趣外也可能對 Ix有興趣 Sarwar et al. (2001) 比較皮爾森相關、餘弦近似度、調整後的餘弦近似度發現,基於項目的演算法較 基於使用者的演算法效能較佳,且能夠在同一單位時間中提供更好的品質。
(2) 基於模式(Model-based)
由於基於記憶的方法在遭遇資料稀疏問題時會推薦項目稀少。故發展出基於 模式的方法,基於模式是指使用純評分資料進行評估與計算,例如:使用資料採 礦或機器學習演算法。
然而協同式過濾推薦系統之優點在於不需要知道使用者之背景,只需知道其 評分即可計算,資料收集較為容易但也有缺點,就是無法得知較為詳細的個人資 料內容(如表 2.1)。
表 2.1 協同式過濾技術概述表,引用自 (Su & Khoshgoftaar, 2009)
代表技術 優點 缺點
基於記憶 1. 基於鄰近協 同式過濾 2. 基於項目、
基於使用者
1. 容易實現 2. 容易新增資料 3. 不需確定被推薦
的項目內容 4. 容易評分
1. 根據人們的評分 2. 資料稀疏時推薦
效果降低 3. 不能推薦新使用
者與項目
4. 資料庫擴充限制
11
基於模式 1. 貝式網路 2. 群集分析 3. MDP 4. 語意網路 5. SVD 6. PCA
1. 較能克服稀疏性 及擴充性問題 2. 改善預測效果 3. 提供較為直覺的
推薦理由
1. 建置昂貴 2. 因減少維度會犧
牲有用的資訊
協同式過濾推薦系統建置過程需要經過三個階段,第一:近似度計算、第二:
預測及推薦、第三:剪枝。
3. 人口統計式推薦(Demographic Filtering Recommender)
人口統計式係指使用預先定義好的資料格式提供使用者選擇。例如:性別、
年齡、郵政號碼、教育程度、員工與否等。人口統計式是預先得知使用者的相關 資料,如此不必再花費額外的計算來猜測使用者的相關資料,但由於有隱私問題 要取得個人資料並不容易。
4. 基於知識的推薦(Knowledge-based Recommender)
Burke (2000)認為除了內容式推薦和協同式過濾推薦之外,還有一類是基於 知識的推薦,基於知識的推薦是以使用者與產品之領域知識作為推薦系統之計算 依據,推論使用者需要的產品。其與前面幾種推薦系統最大差異在於不用特別蒐 集大量的使用者及項目資料,就是先定義使用者與項目的近似度,如此甚至能避 免推薦系統冷啟動(Cold Start)。並且此推薦類型也能與其他類型的推薦系統做 結合成為混合式推薦系統。
5. 混合式推薦(Hybrid Recommender System)
混合式推薦系統是透過結合 2 種以上的推薦系統方法來解決單一推薦系統 無法解決的問題。早期有Balabanović 和 Shoham (1997)結合內容導向式過濾和協 同式過濾二種方法發展出 Fab 推薦系統。Burke (2002)整理了混合式推薦系統的
12
方法,可分為權重的、交換式、混合、特徵結合、瀑布式、特徵放大、元層級。
(表 2.2)
表 2.2 混合式推薦系統方法,引用自 (Burke, 2002)
混合式方法 描述
權重(Weighted) 其分數是經由數種技術結合而成並產生單
一推薦結果。
交換(Switching) 根據現況切換推薦技術
混合(Mixed) 同一時間中經由不同的推薦系統提供推薦
特徵結合(Feature combination) 將不同特徵的推薦資料來源結合成單一推 薦演算法
串聯(Cascade) 由一個推薦中提煉出而出另一個推薦
特徵放大(Feature augmentation) 將一種技術用於輸出時亦用於其他計算時 輸入
元層級(Meta-level) 將學習到的推薦系統模型做為輸入到另一 個
2.1.2 推薦系統建置與評估
1. 推薦系統建置流程
推薦系統建置需要的要素有三,一是使用者、二是項目、三是推薦方法。建 置推薦系統的過程中,首要是分析問題,再者是選擇適當的方法進行運算,三是 進行預測,最後才進行結果的推薦。Adomavicius 和 Tuzhilin (2005)提到要建立推 薦系統的商業模型需要幾個要件,第一:維護推薦系統的成本,第二:利用廣告,
透過推薦系統的能夠看到顧客的需求細節、第三:要建立評估項目的抽傭模型。
推薦需要公平公正,不能有偏見的參雜,應該著重於商業流程中項目及使用者參 與的過程。
13
Bobadilla et al. (2013)認為推薦系統建立需要參考八個條件,分別是是否有可 利用資料庫、使用何種演算法、基於何種模式發展、是否使用其他技術、資料稀 疏性及擴充性問題、推薦系統效能表現、評價所尋找的目標、尋找搜尋結果的品 質。
推薦系統建置時要先建立模型,應用上節所提之方法,等到相關項目分數計 算完畢時,會出現很長的過濾清單,此時便需要進行剪枝的步驟。常用的演算法 有 Top-N 或關聯規則演算法。
由此可以將推薦系統的建置分為幾個階段,第一:問題定義、第二:尋找適 當的推薦系統類型、第三:尋找適合的演算法、第四:預測項目與推薦項目、第 五:評估推薦系統、第六:使用者回饋。
圖 2.2 推薦系統建置流程,本研究整理
2. 推薦系統評估
推薦系統評估是重要的環節之一,一般會針對推薦的準確度(Accuracy)進 行量測,若準確度越高則代表推薦有效,而準確度測量又可分為評分準確度及分 類準確度。但單純只靠準確判斷並不完全,故又增加了覆蓋率(Coverage)。
Tintarev 和 Masthoff (2007)提出判斷推薦系統的好壞可以依照幾個指標,包 含資料的透明度、資料辨識度、推薦是否能讓人信任、推薦結果是否具有說服力、
推薦是否有用、推薦系統效率高低、選擇尺度、使用者滿意度。而在計算評估分
使用者資料 推薦系統演算法 預測結果 列出推薦清單
使用者回饋
14
數時 Lü et al. (2012)整理現有推薦系統評估方法,除了既有的準確度、覆蓋率還 增加了多樣性(Diversity)、新奇度(Novelty)、驚奇度(Surprise)量測。綜合 上文可形成表 2.3。
表 2.3 推薦系統評估類型,本研究整理
推薦系統類型 內容說明
準確度 測量推薦系統給予的推薦項目推薦正確的比例。
覆蓋率 在所有實際項目中,被預測到的項目比率。
多樣性 因推薦結果過於單一,故需要展示更多的項目,測量項目間的
差異程度。
新奇度 測量使用者對於推薦項目間認知的差異程度。
驚奇度 驚奇度是針對使用者是否得到超出預期的結果進行量測。
Vozalis 和 Margaritis (2003)認為在評估預測品質時可分為準確度、覆蓋率。
評估推薦品質時可使用統計工具,例如:平均絕對誤差(MAE)、系統精確度
(Precision)、回饋率(Recall)、Precision 和 Recall 之加權計算 F1 等演算法。
表 2.4 推薦系統評估演算法,本研究整理
演算法名稱 說明
MAE 在推薦系統中,透過平均絕對誤差測量使用者實際給予項目的
評分與系統預測評分的誤差值,若數值越小代表預測越精準。
Recall 是指在所有正向結果測試樣本中,擊中的數量有多少,在推薦
系統中使用時針對提供推薦項目被使用者點擊或購買。
Precision 在所有正向預測推薦清單中,推薦正確的比例。
F1 將 Recall 與 Precision 用調和平均的方式加總起來。
15
Coverage 在所有實際項目中,被預測到的項目比率。
2.2 關聯規則
2.2.1 關聯規則定義
關聯規則是資料採礦技術的一種,其目的在於尋找具有特殊規則的項目集合,
透過關聯規則所得到的結果有三,一是有效的特殊規則,例如:啤酒與尿布,二 是有效地但是業界老手都知道的規則,三是無效規則。
在篩選項目集方法中可使用 Apriori 演算法,Apriori 演算法為 Agrawal 和 Srikant (1994)所提出,透過最小支持(Minimum Confidence)度及最小信賴度
(Minimum Support)找出符合條件的項目集及規則,支持度為項目 A 與項目 B 之聯合機率,而信賴度是包含項目 A 的時候也包含 B 的條件機率。經由項目集 產生的關聯規則的表現形式為 AB,其意義是當使用者對 A 項目有興趣時也會 對 B 項目產生興趣。
但如果只有找出關聯規則仍有所不足,規則仍需要進一步驗證,以防假規則 的出現,由於挖掘出的規則需要進一步驗證,可使用 Lift 增益來進行驗證。增益 意指一條規則的預測結果與隨機發生的結果之差異。假設規則 AB 之增益值若 大於 1 則標示預測結果比隨機結果好,反之若小於 1 則檢驗比隨機結果差。
而在本研究中言對對象為博物館,假設有一資料庫 D,其中有觀眾 U 名、
展廳 N 間,則會有 V 次參觀次數,平均每個展廳會被參觀 V/N 次,故 Avg/V 為 平均展廳參觀次數所佔的比例,得支持度為 1/N。信賴度由館方自行決定。
2.2.2 關聯規則與推薦系統
Amatriain et al. (2011)認為資料採礦技術應用於推薦系統中可以達到更為精
16
確的效果。而在進行資料採礦時是以離線計算(off-line)的方式進行,而推薦系 統則是以線上計算(on-line)的方式進行。
在資料採礦的與推薦系統結合時可以將系統分為資料前處理、資料分析、資 料解釋三階段。資料前處理是相當關鍵的階段,若資料前處理出現問題,則分析 及解釋的結果都將無效。資料分析是利用各種計算方法將結果計算出來。資料解 釋的階段是將結果的意義呈現出來(如圖 2.3)。
圖 2.3 資料採礦三階段,引用自 Amatriain et al.,2011
關聯規則在推薦系統中被歸類在協同式過濾推薦模式中的基於模式類型,透 過數學模型將原來協同式過濾中的缺點進行改善。
Tyagi 和 Bharadwaj (2012)將推薦系統與關聯規則結合,透過關聯規則進行離 線計算,利用已知的使用者背景探採可能的評分,再將評分結合規則品質分數作 為推薦之預測分數 (Lin, 2000),如此解決過去協同式過濾的冷啟動問題。
2.3 博物館導覽與推薦系統
博物館導覽方面,過去有李紹永(2009)利用無線定位技術,紀錄觀眾之地 點及停留時間,透過停留時間來找出熱門參觀路徑。
而現今的推薦系統與博物館導覽系統做結合時強調個人化導覽學習的方式,
透過推薦系統的使用可以減少人力的負擔,並且提供個人化的功能,經由推薦讓 使用者遭遇資訊超載的情況減少。Zhou et al. (2009)針對博物館資訊超載問題發 展博物館推薦系統,利用顯性及隱性方法了解觀眾有興趣的展品資料與觀眾行為 並進行事前預測。Huang et al. (2012)則使用混合式推薦系統來減少博物館學習時
資料前處理 資料分析 資料解釋
17
資訊超載的問題。若針對使用者類型作分類能夠改善傳統協同式過濾的問題,
(楊莛莛(2009)利用生活型態對觀眾作預先的分類,解決傳統協同式過濾推薦 系統因資料稀疏性而導致的冷啟動的問題。李俊毅(2010)使用關聯規則作為演 算基礎,除了能夠快速找到觀賞的物品焦點,還能提供個人化的推薦項目,但缺 點是當資料量時較難分析出結果。
2.4 情境感知與推薦系統
情境感知是無所不在運算或普式運算的延伸,藉由收集使用者相關資訊、實 體相關資訊進行分析,Schilit et al. (1994)認為「情境」在意的是你是誰?跟誰在 一起?附近有什麼資源等。Adomavicius 和 Tuzhilin (2011)等人從資料採礦、個人 化電子商務、資訊過濾、無所不在運算及行動運算中分析情境感知之定義,在推 薦系統中,情境感知著重於項目及使用者間的關係,故需要使用情境感知項目例 如:時間、區域或其他客戶。情境感知對使用者決策及系統使用上能產生影響,
但此方法缺點為假設錯誤時將無法產生有效的結果。
情境感知應用與推薦系統時,常結合不同的推薦模式,以混合式推薦系統的 方式呈現。情境感知相較於使用者資料有較高的動態,且容易藉由行為取得資料,
比起取得使用者個資容易。 (Woerndl & Schlichter, 2007)
在應用方面,Sarkaleh et al. ( 2012)等人利用情境感知收集使用者的知識水平、
語言、行為、時間、行動裝置資訊,並以此進行個人化推薦。在教育方面 Wang 和 Wu (2011)應用 RFID 來對學員進行定位紀錄,並以協同式過濾與關聯規則建 構推薦系統,藉由使用者所回饋的資料給與個人化學習的結果。Chen 和 Huang (2012)利用行動裝置紀錄時間及位置,發展博物館學習推薦系統,除了學生的認 可外亦可實際提升學習效果,並且可以提供新的學習經驗。
18
第三章 系統設計
3.1 系統架構
本研究之推薦模式分為三個階段,其中第一階段是離線進行,第二階段及第 三階段是以線上的方式進行。(如圖 3.1)
圖 3.1 推薦模式,本研究整理
第一階段是收集使用者位置與停留時間資料後,將參觀完畢後的參觀資料進 行資料清理及資料轉換,並以離線的方式進行關聯規則挖掘,並將規則儲存至規 則資料庫中。
第二階段是推薦引擎的計算,將離線計算時產生的關聯規則轉換為關聯規則 品質分數,並與使用者於每個展廳中的展廳流留時間進行加權計算。
關聯規則挖掘 推薦引擎
推薦清單
展廳停留時間
觀眾停留時間資料庫
展廳規則資料庫
19
圖 3.2 停留時間與關聯規則挖掘,本研究整理
第三階段是推薦清單產生,推薦清單必須要將推薦引擎所產生的預測分數進 行比較,並且將分數最高的結果推薦給觀眾,但是如果觀眾已經參觀過該展廳的 時候,就必須將該展廳刪除,以此避免重複推薦參觀展廳。
3.2 關聯規則挖掘
依據前文中資料採礦在推薦系統中的應用於所區分的階段,本研究將離線關 聯規則產生分為資料清洗、資料分析、資料解釋三階段。(如圖 3.2)
1. 資料清洗
步驟一:刪除極端資料
由於極端資料會影響資料分析結果,所以必須要在資料清洗階段,先將停留 時間異常的資料 𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒𝑎𝑏𝑛𝑜𝑟𝑚𝑎𝑙項目刪除,由於不同的博物館會有不同的觀 賞方式,應由各博物館自行依經驗法決定停留在該展廳中低於 𝑇𝑖𝑚𝑒𝑚𝑖𝑛秒的項 目及高於 𝑇𝑖𝑚𝑒𝑚𝑎𝑥秒的項目。
觀眾於當下展廳之停留時間
觀眾展廳停留時間資料庫
關聯規則挖掘
關聯規則資料庫
20
𝐷𝑎𝑡𝑎𝐶𝑙𝑒𝑎𝑟(𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒𝑎𝑏𝑛𝑜𝑟𝑚𝑎𝑙) = {𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒𝑎𝑏𝑛𝑜𝑟𝑚𝑎𝑙 < 𝑇𝑖𝑚𝑒𝑚𝑖𝑛 (𝑠𝑒𝑐) 𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒𝑎𝑏𝑛𝑜𝑟𝑚𝑎𝑙 > 𝑇𝑖𝑚𝑒𝑚𝑎𝑥 (𝑠𝑒𝑐) 步驟二:資料轉換
由於觀眾的停留時間並非固定的數值,若資料量太少則會有資料稀疏性的問 題產生,故需要將資料轉換以利分析,本研究中將展廳停留時間高於平均值者定 為停留時間較長,展廳停留時間低於平均值者定為停留時間較短。
𝑇𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚(𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒) = { 𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒 < 𝑎𝑣𝑔 𝑡𝑖𝑚𝑒, 𝑙𝑜𝑛𝑔 𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒 > 𝑎𝑣𝑔 𝑡𝑖𝑚𝑒, 𝑠ℎ𝑜𝑟𝑡
在關聯規則挖掘前,首先是資料前處理階段,必須將資料清洗,在將清洗完 畢的資料進行資料轉換,然後再進入 SQL Server 中(如圖 3.3)。
圖 3.3 資料前處理,本研究整理
2. 資料分析
在關聯規則挖掘過程活動有,設定最小支持度、項目集產生、設定最小信賴 資料清洗
資料轉換
匯入 SQLServer
資料前處理 資料庫
21
度、規則產生(如圖 3.4)。
圖 3.4 關聯規則產生,本研究整理
在本研究中使用關聯規則進行資料探採,由清洗後之觀眾展廳停留時間資料 庫中尋找關聯規則,透過展廳停留時間探採可能的展廳組合。並以經驗法則設定 支持及信賴之門檻值 𝑆及 𝐶, 𝑆及 𝐶設定後,再以 Apriori 演算法找出候選項目 集,找到的項目集規則 𝑅𝑢𝑙𝑒 = (𝑆, 𝐶)。
前文提到關聯規則挖掘的原則,在本節中近一步說明本研究中的關聯規則演 算步驟。本研究中試圖找到所有的有效規則,並以規則為基礎進行計算。資料庫 所產生的規則每 N 個月更新一次,更新頻率由管理者決定。
在博物館中的停留時間必須至少經過或停留次數 1 次才能列為頻繁項目。假 設展廳停留時間資料庫𝐷中有𝑈𝑚個觀眾,𝑅𝑛個展廳數,則會有∑𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒𝑈𝑚筆 展廳停留時間資料。則支持度為1/𝑅𝑛,而信賴度則由館方自己決定。
𝑆𝑢𝑝𝑝𝑜𝑟𝑡(𝐴 → 𝐵) = 𝑃(𝐴 ∩ 𝐵) 𝐶𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒(𝐴 → 𝐵) = 𝑃(𝐵|𝐴) 設定最小支持度
設定最小信賴度
產生項目集為 1 的集合
產生項目集為 2 的集合
產生關聯規則
22
透過 Apriori 演算法找出所有高頻項目組,並且從高頻項目組中推導關聯規 則。首先要找出頻率較高的候選項目集,再對項目集進行組合,透過不斷重複項 目集與組合直到找不到為止。其所有找出的規則需要滿足所訂定的最小支持度與 最小信賴度。
假設在觀眾停留時間資料庫中有 k 個項目組,每個項目組是由 i 個項目組成 的集合。若項目組滿足最小支持度則該項目組為高頻項目組,若為高頻項目組則 其項目也必為高頻項目。
在挖掘出規則後仍需要對規則進行進一步的驗證,以避免出現無效規則。在 展廳對展廳的規則中。
𝐿𝑖𝑓𝑡(𝐴 → 𝐵) =𝑃(𝐵|𝐴)
𝑃(𝐵) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐴)𝑃(𝐵) 3. 資料解釋
資料解釋是相當重要的環節,此即為結果產出之描述,依前文所述,由推薦 系統中所得知結果需要讓觀眾明白推薦之涵義,而關聯規則的解釋相當容易理解,
其語意表達為「買了項目 A 的人也會買項目 B」,並且關聯規則之解釋與相關分 析不同,相關分析不在意順序,只在意雙方關係即可,但關聯規則重視的是特殊 的組合關係。本研究之資料解釋為「對本展廳有興趣的人也會去看 B 展廳」。
3.3 推薦引擎
圖 3.5 推薦清單產生,本研究整理
展廳停留時間 關聯規則資料庫 推薦引擎
推薦清單
23
1. 推薦引擎
關聯規則品質分數為關聯規則之支持度與信賴度之乘積,以此表示大眾所偏 好的規則及分數,支持度與信賴度越高的者則總乘積分數也會較高。
而每個展廳的停留時間是代表該觀眾的偏好,透過實際的行為展生的結果。
以此作為加權分數來做為個人化的預測推薦分數。
推薦引擎是媒合觀眾於當下展廳之停留時間𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒𝑛𝑜𝑤與關聯規則分數,
在系統尚未被觀眾使用前,可以藉由關聯規則先行產生推薦展廳。而所挖掘出的 展廳規則根據 Lin( 2000)所提出的演算法方法,給予每條關聯規則品質分數,將 支持度與信賴度相乘後之結果以𝑄𝑢𝑎𝑙𝑖𝑡𝑦𝑟𝑢𝑙𝑒表示。
𝑄𝑢𝑎𝑙𝑖𝑡𝑦𝑟𝑢𝑙𝑒 = 𝑆𝑢𝑝𝑝𝑜𝑟𝑡 × 𝐶𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒
線上計算是針對參觀中的觀眾𝑈𝑎進行推薦,假設觀眾當下於展廳 A 中的停 留時間為𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒𝑛𝑜𝑤,當參觀的展廳數量夠多時,則推薦系統將可以找出具有 關聯性的規則,假設關聯規則之每條規則品質分數為𝑄𝑢𝑎𝑙𝑖𝑡𝑦(𝑟𝑢𝑙𝑒),進行加權 平均後則可得推薦展廳的推薦值𝑃𝑟𝑒𝑎。倘若展廳之重要性越高,則越有可能被推 薦。
𝑃𝑟𝑒𝑎 =∑𝑟𝑢𝑙𝑒𝑄𝑢𝑎𝑙𝑖𝑡𝑦(𝑟𝑢𝑙𝑒) × 𝑆𝑡𝑎𝑦𝑇𝑖𝑚𝑒𝑛𝑜𝑤
∑𝑟𝑢𝑙𝑒𝑄𝑢𝑎𝑙𝑖𝑡𝑦(𝑟𝑢𝑙𝑒)
在推薦引擎中,必須要同時計算 Quality 分數及展廳停留時間,所以任何一 方都必須要等待,等條件達成才能計算並產生規則的預測分數(如圖 3.6)。
24
圖 3.6 推薦引擎規則分數產生,本研究整理 2. 推薦清單產生
本研究利用 Top-N 演算法找出預測分數最高的項目,並給予觀眾推薦。剪枝 的目的在減少推薦之項目,將不必要或者不要出現的推薦項目從請單中刪,進而 可以產生推薦項目的分數列表,假設 A 展廳已經參觀過了,則推薦系統需要將 展廳由推薦項目中刪除,藉由 Top-N 演算法將預測分數最高的項目列入推薦清單 中,並且去除所有次要的推薦項目。可分為三步驟,步驟一:列出所有推薦引擎 產生的清單項目,步驟二:刪除已參觀過的展廳,步驟三:篩選出預測分數最高 的展廳。
在推薦清單,比較產生的規則大小後,將分數較高的結果列為推薦項目(如 圖 3.7)。
產生規則預測分數
Quality 分數 展廳停留時間
25
圖 3.7 推薦清單處理流程,本研究整理
在第一次展廳推薦項目產生時,由於尚無相關資料,故使用關聯規則之 Quality 分數作為比較大小的依據,當第二次推薦時,就能參考第一次推薦時的 展廳停留時間及 Quality 分數(如圖 3.8)。
圖 3.8 推薦方法判斷,本研究整理 比較規則分數大小
選擇分數最高的規則
顯示推薦的展廳
Quality 推薦 推薦引擎計算分數
第一次被推薦 第二次之後被推薦
26
第四章 系統展示
4.1 情境設定
情境設定對象為第一次參觀博物館之觀眾,由於觀眾在史前館參觀時容易弄 不清參觀方向,在沒有導覽人員帶領的情況下,對於參觀方向較無概念,此時可 以使用推薦系統讓觀眾了解過去參觀之觀眾群體有何特殊偏好,作為參考使用。
本研究使用史前館於 98、100 年所收集之問卷資料,資料內容包含觀眾之背 景及在每個展廳中所停留的時間,但是在使用前需要進行資料清洗的動作,故將 展廳資料中有空值的無效資料、背景資料刪除及平均停留時間小於 60 秒者刪除。
展廳停留時間資料由 544 筆刪減至 441 筆,並預留 30%資料作為實際案例測試時 使用,測試案例共有 132 筆資料,故使用於資料探採之資料為 309 筆。接著再將 309 筆資料轉換為較長停留時間及較短停留時間二種資料型態。在關聯規則挖掘 方面使用的工具是 SQL Server 2012,將以轉換完畢的 309 筆資料匯入 SQL Server 中進行關聯規則挖掘。並且將挖掘出的規則匯入資料庫 ruleDB 中。
4.2 結果展示
在進行關聯規則挖掘前先將展廳進行編號,在史前館中共有 14 個常設展廳,
在史前館除了常設展廳,另外設有人類的演化展覽區域,其形式是以通道的方式 進行展覽介紹,在本研究中也將其視為一展廳加入關聯規則挖掘中,而宏館新藏 是在展示廳旁的通道中進行展示,在本研究中也將其視為一展廳加入關聯規則挖 掘中,而服務台雖然有一些展示,但在本研究中不將其視為展廳故將其排除,在 地下一樓的中庭區也有介紹不過在本研究中尚無相關資料故將其排除,各展廳以 代號表示(如表 4.1)
表 4.1 展廳代號表,本研究整理
27
id 展廳編號 展廳名稱
1 A1 誕生
2 A2 冰期
3 A3 新世代
4 A4 人類的演化
5 A5 臺灣史前序幕
6 A6 臺灣史前人的生活
7 A7 臺灣史前陶器
8 A8 臺灣史前人與海洋
9 A9 卑南遺址的卑南文化
10 A10 巨石與祭祀
11 A11 臺灣史前石器與玉器
12 A12 鐵器時代
13 A13 宏館新藏
14 A14 社會人群關係
15 A15 工藝、生計與社會
16 A16 祭儀與精靈觀念
在關聯規則挖掘中訂定基本條件,所有資料筆數為 309 筆,觀眾至少應該出 現 N 次停留在展廳 A 及展廳 B 的情況,展廳項目集的頻繁度至少需要 30 名觀 眾樣本支持,故設定最小支持度次數為 30 次,亦即 10%,最小信賴度設定為 50%,
產生的最小項目集中至少要有 1 個項目,至多 2 個項目。
圖 4.6 關聯規則篩選條件,本研究整理
利用 Apriori 演算法產生候選項目集,項目集為 1 時共有 16 筆項目達到標準。
28
也就是說所有的展廳皆達到最低門檻的標準(如表 4.2)。
表 4.2 項目集為 1 的結果,本研究整理
Num Frequency itemset
1 132 A2
2 130 A7
3 127 A6
4 127 A8
5 126 A3
6 115 A9
7 109 A15
8 108 A10
9 106 A1
10 106 A5
11 103 A4
12 99 A14
13 94 A13
14 86 A16
15 68 A11
16 67 A12
第二輪,設定項目大小為 2 時,將第一輪中次數達到 30 次之項目進行組合,
再將項目組合數達到 30 次之組合保留,其篩選結果共有 85 個項目集產生。
表 4.3 項目集為大小為 2 之結果,本研究整理
Num Frequency itemset
1 96 A6, A7
2 90 A8, A7
3 85 A8, A6
4 80 A9, A7
5 80 A3, A2
6 74 A9, A6
7 69 A9, A8
8 67 A5, A6
9 63 A5, A7
29
10 61 A10, A9
11 59 A8, A2
12 59 A10, A7
13 59 A10, A8
14 56 A6, A2
15 56 A14, A15
16 56 A7, A2
17 55 A4, A2
18 55 A4, A3
19 54 A16, A15
20 53 A10, A6
21 52 A13, A8
22 51 A5, A8
23 49 A4, A6
24 48 A9, A2
25 48 A5, A9
26 47 A15, A8
27 47 A15, A2
28 47 A3, A7
29 46 A3, A6
30 46 A14, A2
31 45 A3, A8
32 45 A13, A9
33 45 A1, A6
34 45 A1, A8
35 45 A15, A3
36 45 A9, A3
37 44 A10, A2
38 44 A13, A7
39 44 A5, A2
40 44 A1, A7
41 44 A4, A7
42 43 A16, A14
43 43 A4, A5
44 43 A15, A6
45 43 A13, A6
30
46 43 A4, A8
47 42 A5, A10
48 42 A13, A2
49 42 A15, A7
50 41 A14, A7
51 41 A4, A9
52 41 A1, A9
53 40 A14, A8
54 40 A1, A10
55 39 A16, A3
56 38 A10, A3
57 38 A14, A3
58 37 A1, A15
59 37 A13, A5
60 37 A5, A3
61 37 A4, A10
62 36 A16, A8
63 36 A13, A4
64 36 A16, A6
65 35 A16, A2
66 35 A5, A1
67 35 A11, A6
68 35 A11, A8
69 35 A11, A10
70 34 A1, A3
71 34 A10, A15
72 34 A15, A9
73 34 A14, A10
74 34 A14, A9
75 34 A16, A7
76 34 A14, A6
77 33 A13, A10
78 33 A16, A9
79 31 A12, A15
80 31 A11, A7
81 31 A13, A3
31
82 30 A13, A15
83 30 A4, A15
84 30 A14, A1
85 30 A13, A1
篩選項目集後可進一步了解項目集中的關聯。藉由信賴度來篩選及產生關聯 規則,本研究中產生的關聯規則有 31 條。規則中最小支持度為 10%,最大為 60%,
信賴度最低為 50%,最高為 76%。如果按照進入展廳編號較小且預測展廳編號 較大之結果,會有 11 條規則符合。
表 4.4 展廳關聯規則,本研究整理
Id Confidence Importance Rule
1 0.76 0.60 A6 -> A7
2 0.74 0.62 A7 -> A6
3 0.71 0.50 A8 -> A7
4 0.70 0.42 A9 -> A7
5 0.69 0.52 A7 -> A8
6 0.67 0.46 A6 -> A8
7 0.67 0.46 A8 -> A6
8 0.64 0.37 A9 -> A6
9 0.64 0.34 A3 -> A2
10 0.63 0.33 A5 -> A6
11 0.63 0.40 A16 -> A15
12 0.62 0.49 A7 -> A9
13 0.61 0.36 A2 -> A3
14 0.60 0.30 A9 -> A8
15 0.59 0.25 A5 -> A7
16 0.58 0.41 A6 -> A9
17 0.57 0.35 A14 -> A15
18 0.57 0.32 A10 -> A9
19 0.55 0.20 A13 -> A8
20 0.55 0.19 A10 -> A7
21 0.55 0.21 A10 -> A8
22 0.54 0.33 A8 -> A9
23 0.53 0.15 A4 -> A2
32
24 0.53 0.19 A4 -> A3
25 0.53 0.34 A9 -> A10
26 0.53 0.38 A6 -> A5
27 0.52 0.23 A11 -> A10
28 0.52 0.13 A11 -> A6
29 0.52 0.13 A11 -> A8
30 0.51 0.37 A15 -> A14
31 0.50 0.30 A16 -> A14
本研究進行資料採礦後結果得到三個關聯規則群,第一個群體中的展廳分別 是冰期展廳與新世代展廳,此二展廳位於自然史展區內,而連接自然史展區與臺 灣史前文化展區的是人類的演化展廳。
圖 4.7 自然史展區關聯規則相依性網路,本研究整理
第二個關聯規則群是史前文化展區,由地下一樓的展廳所組成,圖 4.2 中以 史前館現有展區設計按位置對展廳進行排列,分別是臺灣史前序幕展廳、臺灣史 前人的生活展廳、臺灣史前陶器展廳、臺灣史前人與海洋展廳、卑南遺址的卑南 文化展廳、巨石與祭祀展廳、臺灣史前石器與玉器展廳、鐵器時代展廳、宏館新 藏展廳(如圖 4.2),可以發現展廳推薦較集中於左側及下方。
33
圖 4.8 臺灣史前文化展區關聯規則相依性網路,本研究整理
第二個群集裡三個展廳,分別是有祭儀與精靈觀念展廳、工藝、生計與社會 展廳、社會人群關係展廳。三個展廳皆隸屬於南島族群展區內。(如圖 4.3)
圖 4.9 南島民族展區關聯規則相依性網路,本研究整理
在關聯規則產生後即使用增益計算採礦模型對展廳的預測效益。本研究使用 SQL Server 2010 中的增益功能對展廳進行測量,本研究資料採礦模型在預測各 展廳所需的母體樣本數及預測機率(如表 4.5)。
本研究之關聯規則採礦模型是需要預測可能在該展廳中停留時間較久的觀 眾,例如:目標對可能會在臺灣史前人生活展廳中停留較長時間的觀眾,本研究 模型在母體擴展達 46%時,理論上可推薦給所有目標觀眾,但實際上推薦正確的
34
觀眾只有約 79%,而每次預測中有 71%的機率能預測成功。
表 4.5 關聯規則之增益值,本研究整理
展廳 所有觀眾 可能在該展廳中停留較長 理想值 預測機率
A1 0.28 0.6857 1 0.8298
A2 0.4 0.5 1 0.5724
A3 0.45 0.6491 1 0.5461
A4 0.4 0.38 1 0.3344
A5 0.34 0.4651 1 0.5039
A6 0.46 0.7931 1 0.7107
A7 0.4 0.7 1 0.7244
A8 0.45 0.7544 1 0.7008
A9 0.34 0.5581 1 0.6772
A10 0.26 0.3333 1 0.5455
A11 0.28 0.2571 1 0.2274
A12 0.24 0.4333 1 0.204
A13 0.3 0.2703 1 0.3077
A14 0.37 0.5319 1 0.5347
A15 0.38 0.5417 1 0.5595
A16 0.28 0.2571 1 0.2809
在推薦引擎部分,以前文中隨機抽取 30%觀眾作為測試案例,透過觀眾的參 觀過程中的停留時間進行加權計算後產生推薦分數。
使用在關聯規則中的最小支持度與信賴度之乘積建立 Quality,Quality 參數 以矩陣的方式表示可表示為 A16*A16 展廳關聯規則表,由於本研究中只列出有 產生結果的部分(如表 4.6、表 4.7、表 4.8)。
表 4.6 自然史展區 Quality 分數,本研究整理
A2 A3
A2 0.22
A3 0.22
A4 0.08 0.1
35
表 4.7 臺灣史前文化展區 Quality 分數,本研究整理
A5 A6 A7 A8 A9 A10
A5 0.21 0.15
A6 0.2 0.45 0.3 0.24
A7 0.46 0.36 0.3
A8 0.3 0.35 0.18
A9 0.24 0.3 0.18 0.18
A10 0.1 0.11 0.18
A11 0.07 0.07 0.12
A13 0.11
表 4.8 臺灣南島民族展區 Quality 分數,本研究整理
A14 A15 A16
A14 0.2
A15 0.19
A16 0.15 0.25
在 132 名測試樣本中,臺灣史前人與海洋展廳人數最多。由於博物館展廳順 序為環狀,可能由順時針方向或逆時針方向進行參觀,所以可能有前後順序的影 響(如表 4.9)。
表 4.9 觀眾於展廳中停留時間較長人數,本研究整理
展廳 觀眾於展廳中停留時間較長人數
A1 50
A2 58
A3 59
A4 41
A5 45
A6 47
A7 57
A8 56
A9 53
A10 42
A11 27
36
A12 28
A13 29
A14 38
A15 51
A16 33
觀眾皆有其獨自的參觀行程,而推薦系統根據每位觀眾之展廳停留時間來推 薦下一個展廳給觀眾。在本研究中是按照史前館方設定的導覽路徑進行預測及推 薦,故推薦時的順序是由 A1 到 A16,不會有逆向的規則產生。所以在規則資料 庫中的逆向推薦規則將不會使用。
博物館中的參觀行為則可以為二階段,分別是剛進入博物館參觀時,及參觀 中。 在系統推薦初期使用 Quality 作為規則比較的依據,其原因在於初期沒有進 行加權計算。以編號 91 號觀眾為例,91 號觀眾被第一次被推薦時有 3 個展廳可 供選擇,依據 Quality 可呈現出 3 條規則的分數(如表 4.10)。產生分數後在推薦 清單篩選階段進行規則篩選(如表 4.10)。
表 4.10 Quality 與規則,本研究整理
A6->A7 A6->A8 A6->A9
Quality 0.45 0.3 24
表 4.11 Quality 推薦項目,本研究整理 A6->A9
Quality 0.45
從第二次藉由推薦引擎計算各規則之結果,第二次計算時會將前次的結果加 入計算中,最後產生的結果進行篩選,並推薦給觀眾。所以目前觀眾只要被推薦 就只會看見一個展廳推薦項目,以 91 號觀眾為例,第二次推薦給 91 號觀眾的規 則是 A7->A8,所以出現的推薦項目是 A8 展廳(如表 4.11)。
37
表 4.12 推薦預測分數,本研究整理
規則 計算 結果
A7->A8 (90+82.44)/(0.45+0.36) 212.8 A7->A9 (90+68.7)/(0.45+0.3) 211.6
38
第五章 測試與評估
5.1 測試與評估方法
本研究中使用 Precision 進行驗證,目的為測量使用者是否真的按照推薦系 統的建議,在推薦的展廳中也停留較長的時間,而比較實驗比較是以亂數產生的 推薦作為比對對象。
假設 A 展廳停留時間為 𝑇𝐴,且關聯規則中產生了 𝑇𝐴,𝑙𝑜𝑛𝑔 → 𝑇𝐵,𝑙𝑜𝑛𝑔的規則,
當使用者 𝑈𝑎真的在展廳 B 中停留了較長的時間,則代表推薦的規則是有效的。
若只有 𝑇𝐴的停留時間長但去到推薦的展廳 𝑇𝐵時卻沒有如系統預期停留較長的 時間,則該次推薦為失敗。倘若 𝑇𝐴,𝑙𝑜𝑛𝑔 → 𝑇𝐵,𝑙𝑜𝑛𝑔之規則失敗,觀眾在 𝑇𝐵展廳停 留時間為短,則推薦系統將不會提供推薦項目,觀眾到下一個展廳後重新計算,
當觀眾 𝑈𝑎完成所有參觀程序時,將會有被推薦所有次數 𝑁及當中推薦成功次數 𝑛,推薦成功率以 Precision 表示。
Precision = 𝑛 𝑁
而將所有觀眾的推薦成功率平均後的推薦成功率則是系統的平均推薦成功 率。
System Precision = ∑𝑎𝑙𝑙 𝑣𝑖𝑠𝑖𝑡𝑜𝑟𝑛
∑𝑎𝑙𝑙 𝑣𝑖𝑠𝑖𝑡𝑜𝑟𝑁
5.2 測試結果
本研究之推薦成功率評估計算分為單一觀眾的推薦成功率(Recommendation
39
Success Rate of Visitor,RSRV)、各展廳的推薦成功率(Recommendation Success Rate of Showroom,RSRS)、推薦次數的推薦成功率(Recommendation Success Rate of Recommender times,RSRR)。
前文中從 441 比資料中隨機抽樣出 30%觀眾作為測試案例,抽樣觀眾中並沒 有使用過本研究之推薦系統,故以模擬的方式測驗系統推薦時是否會出現與觀眾 行為相同的結果(如表 5.1),推薦系統啟用時機在於觀眾是否停留較長的時間,
若停留較長的時間則進行推薦,但是由於本研究之規則數量較少,所以有些展廳 即使有較長的停留時間也無法提供推薦項目,故不納入推薦次數與成功次數的計 算中,另外由於抽樣觀眾中沒有出現推薦故不列出計算中,在本研究中扣除 12 名沒有被系統推薦之觀眾。系統對抽樣觀眾的總推薦次數為 354 次,成功次數為 206 次,在本研究中系統的推薦成功率為 58%。若扣除所有展廳推薦成功次數為 0 之樣本,則成功率可以提升至 70%。
表 5.1 單一觀眾的推薦成功率,本研究整理
觀眾編號 推薦次數 成功次數 RSRV
1 5 3 60%
2 3 0 0%
3 1 0 0%
4 3 1 33%
5 1 0 0%
6 2 1 50%
7 5 2 40%
8 1 0 0%
9 4 4 100%
10 6 5 83%
11 5 2 40%
12 1 1 100%
13 1 0 0%
14 5 4 80%
40
15 3 1 33%
16 4 4 100%
17 3 2 67%
18 4 3 75%
19 2 0 0%
20 3 2 67%
21 6 6 100%
22 3 3 100%
23 4 2 50%
24 2 1 50%
25 1 0 0%
26 2 2 100%
27 1 0 0%
28 1 0 0%
29 6 6 100%
30 1 1 100%
31 6 2 33%
32 1 0 0%
33 1 0 0%
34 5 1 20%
35 3 0 0%
36 1 1 100%
37 4 3 75%
38 3 2 67%
39 2 1 50%
40 3 1 33%
41 3 2 67%
42 4 3 75%
43 5 4 80%
44 4 4 100%
45 2 1 50%
46 1 1 100%
47 2 2 100%
48 4 3 75%
49 2 1 50%
50 6 5 83%
41
51 1 0 0%
52 5 5 100%
53 4 2 50%
54 6 3 50%
55 6 5 83%
56 2 1 50%
57 4 4 100%
58 1 0 0%
59 3 1 33%
60 1 0 0%
61 2 0 0%
62 2 0 0%
63 1 0 0%
64 1 0 0%
65 1 0 0%
66 6 5 83%
67 6 6 100%
68 6 5 83%
69 4 2 50%
70 1 1 100%
71 5 4 80%
72 2 2 100%
73 3 2 67%
74 6 3 50%
75 3 1 33%
76 3 0 0%
77 3 0 0%
78 2 1 50%
79 2 0 0%
80 2 2 100%
81 1 1 100%
82 5 5 100%
83 3 2 67%
84 2 0 0%
85 1 0 0%
86 1 0 0%
42
87 3 1 33%
88 3 0 0%
89 5 4 80%
90 1 1 100%
91 3 1 33%
92 3 2 67%
93 3 1 33%
94 1 0 0%
95 1 1 100%
96 1 1 100%
97 4 2 50%
98 2 1 50%
99 6 4 67%
100 5 4 80%
101 4 4 100%
102 4 2 50%
103 3 0 0%
104 3 2 67%
105 1 0 0%
106 5 5 100%
107 3 0 0%
108 1 0 0%
109 3 2 67%
110 2 0 0%
111 6 5 83%
112 3 1 33%
113 2 0 0%
114 1 0 0%
115 1 0 0%
116 2 1 50%
117 2 0 0%
118 1 1 100%
119 4 3 75%
120 4 2 50%
總計 354 207 58%
43
本研究由於推薦規則較少,故有些展廳雖然有較長的停留時間,但尚無規則 可供推薦,所以在表 5.2 中只列出有出現推薦規則的展廳及其推薦次數、推薦成 功次數及推薦成功率。各展區中的展廳關係較為強烈,不同展區展廳的推薦較無 法產生效果。
表 5.2 各展廳推薦成功率,本研究整理
展廳代號 展廳推薦次數 成功次數 RSRS
A2 58 34 59%
A5 45 23 51%
A6 47 31 66%
A7 57 33 58%
A8 56 35 63%
A9 53 27 51%
A14 38 23 61%
總數 354 206 58%
而 RSRS 在較集中於 A6 至 A9 展廳中,除了 A6 展廳推薦其他展廳的次數 較少外,其他的展廳推薦次數皆大於 10 次(如圖 5.1)。
圖 5.1 各展廳推薦成功率,本研究整理
0%
10%
20%
30%
40%
50%
60%
70%
A2 A5 A6 A7 A8 A9 A14
RSRS
44
如果系統只推薦一次,則成功率會比較低(表 5.3)。
表 5.3 推薦次數與成功率,本研究整理
推薦次數 展廳推薦平均成功次數 RSRR
1 0.3 31%
2 0.8 40%
3 1.2 38%
4 2.9 73%
5 3.6 72%
6 4.6 77%
當系統推薦次數越多時則推薦成功率會有越高的趨勢,此點與協同式過濾一 樣有冷啟動的問題存在,展廳在推薦次數小於 3 次時,推薦成功的機率低於 50%,
但在推薦次數超過 3 次時,推薦的成功率就超過 50%。平均推薦成功的次數在 6 次時達到最高(圖 5.2)。
圖 5.2 RSRR,本研究整理
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
1 2 3 4 5 6
RSRR
45
第六章 結論與討論
6.1 結論
本研究針對史前館之模擬參觀結果顯示,關聯規則所挖掘出的不只有順向的 規則,也有逆向的規則,而本研究按照史前館方的建議參觀方向進行推薦時,其 成效較隨機佳。在各展廳的推薦次數中,按照關聯規則所建議之路徑結果,在自 然史展區中,冰期展廳推薦下一個新生代展廳雖然以常識來是理所當然的,但從 抽樣結果上卻顯示不一定,參觀冰期展廳的觀眾不一定喜歡參觀新生代展廳。
從人類的文化展聽到臺灣史前文化生活展廳之規則在關聯規則中是有趣的 結果,因為人類的文化展廳是以通道的方式作展覽,而館方建議參觀路徑是從人 類的文化展廳至臺灣史前序幕展廳,故應該於參觀時先行參觀臺灣史前序幕展廳 再參觀臺灣史前人的生活展廳,但關聯規則顯示的結果是觀眾可能直接選擇到臺 灣史前人的生活展廳中參觀。
在史前文化展區中,大部分觀眾會集中於臺灣史前文化生活、臺灣史前陶器、
臺灣史前人與海洋、卑南遺址的卑南文化、巨石與祭祀等展廳中,就算是逆向的 參觀史前文化展區,也會集中這幾各展廳中,而產生的規則中較為有趣的規則是 看完史前人的生活較長的觀眾在卑南遺址的卑南文化也停留較長的時間。
在推薦引擎中納入觀眾的停留時間可以提供較為個人化的結果,根據不同的 偏好,所選擇停留時間較長的展廳也有所不同。起初推薦系統機制無法進行計算 時,藉由關聯規則所產生的分數能夠在第一次參觀停留時間較高展廳時就進行推 薦,而推薦系統在第二次停留時間較長時會開始進行計算,由於會不斷藉由過去 的資料進行加權計算,故推薦結果會不斷改變。在推薦的評估中顯示推薦次數在 6 次時成功的機率最高,有 77%的機率可以推薦成功。