學術研究論文推薦系統之研究 - 政大學術集成

全文

(1)國立政治大學資訊管理學系. 碩士學位論文指導教授:梁定澎博士. 立. 政治大. ‧ 國. 學. 學術研究論文推薦系統之研究. ‧. sit. y. Nat. Development of a Recommendation. n. er. io. System for Academic Research Papers al v i n Ch engchi U 研究生：葉博凱中華民國一○四年一月.

(2) 摘要推薦系統為網站提升使用者滿意度、減少使用者所花費的時間並且替網站提供方提升銷售，是現在網站中不可或缺的要素，而推薦系統的研究集中在娛樂項目，學術研究論文推薦系統的研究有限。若能給予有價值的相關文獻，提供協助，無疑是加速進步的速度。在過去的研究中，為了達到個人化目的所使用的方法，都有不可避免或未解決的缺點，2002 年美國研究圖書館協會提出布達佩斯開放獲取計劃(Budapest. 治政大文，這樣的做法使期刊走向開放的風氣開始盛行，時至今日，開放獲取對學術期立 Open Access Initiative)，不要求使用者註冊帳號與支付款項就能取得研究論文全. 刊網站帶來重大的影響。在這樣的時空背景之下，本研究提出一個適用於學術論. ‧ 國. 學. 文之推薦機制，以 FP-Growth 演算法與協同過濾做為推薦方法的基礎，消弭過去. ‧. 研究之缺點，並具個人化推薦的優點，經實驗驗證後，證實本研究所提出的推薦. al. er. io. sit. y. Nat. 架構具有良好的成效。. n. v i n 關鍵字：學術論文推薦、協同過濾、關聯規則、冷啟動、FP-Growth Ch engchi U.

(3) Abstract Recommendation system is used in many field like movie, music, electric commerce and library. It’s not only save customers’ time but also raise organizations’ efficient. Recommended system is an essential element in a website. Some methods have been developed for recommended system, but they are primarily focused on content or collaboration-based mechanisms. For academic research, it is very important that relevant literature can be provided to researchers when they conduct literature. 政治大 in existing methods such as立 cold starts.. review. Previous research indicates that there are inevitable or unsolved shortcomings. ‧ 國. 學. Association of Research Libraries purpose “Budapest Open Access Initiative” that is advocate open access concept. Open access means that users can get full paper. ‧. without register and pay fee. It’s a major impact to academic journal website.. sit. y. Nat. In this space-time background, we propose a hybrid recommendation mechanism. n. al. the shortcomings of existing methods.. Ch. engchi. er. io. that takes into consideration the nature of recommendation academic papers to mitigate. i n U. v. Keywords: recommendation systems, collaborative filtering, association rules, cold start, FP-Growth.

(4) 致謝時光飛逝，研究所生涯也到了尾聲，兩年生活中，每件事情的發生都有存在的理由，對我來說都是生命的過程，有歡笑有淚水，感謝一路上幫助我、鼓勵我的人們。這本論文能夠順利完成，最感謝的就是指導老師梁定澎教授，在撰寫論文的過程中，給予寶貴的意見與方向，一語點破研究瓶頸，老師對研究的熱忱、對學生的悉心指導無人能比，能在梁老師的門下是我研究所生涯中，最大的榮幸。感. 政治大. 謝口試委員李有仁教授與賴香菊教授讓這本論文更臻完善。也感謝艾軒學長提攜. 立. 後進，有問必答，協助政大第一屆梁 Lab 的大家，完成畢業論文，以及助理若羚. ‧ 國. 學. 幫我們打點 Lab 的大小事，因為有你們讓 Lab 更加溫暖。. 在 Lab 度過了許多個夜晚，謝謝有冠達、云筠、思帆這些同伴一起奮鬥，也. ‧. 少不了有鎔任、郁成、陳毅、銀聖、一帆這兩年一起度過大小事，讓這一路上的. y. Nat. sit. 我不孤單。今日能從政大畢業，多虧丁棋老師、劉毅老師、張翔老師你們帶著心. n. al. er. io. 靈熱度的認真教學，以及一起考取研究所，七人成行的夥伴們，還有當年面臨低. i n U. v. 潮時，康維、鵬翔、欽琮、咨豪、書慶、建華、永彤與承軒的鼓勵與協助。每當. Ch. engchi. 有不如意的事，總有 FunnyBoyz 的關心與激勵，一路上太多貴人族繁不及備載。最後謝謝我的家人，爸爸、媽媽、哥哥姐姐們一直在我的身後支持我，當我永遠的後盾。.

(5) 目錄第一章. 緒論............................................................................................................ 1. 第一節. 研究背景與動機................................................................................ 1. 第二節. 研究目的............................................................................................ 3. 文獻探討.................................................................................................... 5. 第二章. 第一節. 推薦系統定義與概述........................................................................ 5. 第二節. 相關研究............................................................................................ 5. 第三節. 推薦系統分類.................................................................................. 13. 第四節. 推薦系統常見問題.......................................................................... 16. 小結.................................................................................................. 20. y. 研究方法.................................................................................................. 21. io. 第一節. er. 第三章. 關聯規則探勘方法...................................................................... 19. Nat. 第六節. 關聯規則之定義與目的.............................................................. 18. ‧. 2.5.2. 關聯規則探勘.................................................................................. 18. sit. 2.5.1. 立. 學. 第五節. 政治大. 推薦系統的共同問題.................................................................. 16 協同推薦系統的常見問題.......................................................... 16 內容基礎推薦的常見問題.......................................................... 17. ‧ 國. 2.4.1 2.4.2 2.4.3. 設計科學的研究方法...................................................................... 21. al. 第四節. 資料蒐集.......................................................................................... 27. n. 第三節. v i n 期刊網站現況.................................................................................. 22 Ch engchi U 推薦系統設計.................................................................................. 24. 第二節. 3.4.1. 計算閱讀習慣相似之輸入與評分.............................................. 27. 第五節. 詞頻分析模組.................................................................................. 28. 第六節. 使用者相似度計算模組.................................................................. 29. 3.6.1. 第七節 3.7.1 3.7.2 第四章. Pearson 變數說明與公式 ............................................................ 30 關聯規則分析模組.......................................................................... 30 FP-tree 之建構與表示 ................................................................. 30 FP-growth 高頻項目集之產生 ................................................... 32. 實驗設計.................................................................................................. 36 I.

(6) 第一節. 研究假說.......................................................................................... 37. 第二節. 資料前置處理.............................................................................. 38. 第三節. 實驗設計與實驗流程...................................................................... 38. 第四節. 實證結果分析.................................................................................. 41. 4.4.1 4.4.2 第五章. 分析方法...................................................................................... 41 資料分析...................................................................................... 41. 結論.......................................................................................................... 43. 第一節. 研究結果.......................................................................................... 43. 第二節. 研究貢獻.......................................................................................... 44. 第三節. 研究限制.......................................................................................... 45. 第四節. 未來研究方向.................................................................................. 45. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. II. i n U. v.

(7) 圖目錄圖 1-1 學術期刊文章數量 1726 年~2009 年 (Jinha,2010) ........................................ 2 圖 3-1 設計科學與系統發展研究流程 ...................................................................... 22 圖 3-2 研究架構圖 ..................................................................................................... 26 圖 3-3 FP-tree 之建構.................................................................................................. 31 圖 3-4 e 之字首路徑圖 ............................................................................................... 33 圖 3-5 e 之條件路徑 ................................................................................................... 33 圖 3-6 子問題之字首路徑、條件路徑 ..................................................................... 34 圖 4-1 資料前置處理流程 .......................................................................................... 38 圖 4-2 網站首頁畫面 .................................................................................................. 40. 政治大. 圖 4-3 網站期刊文章畫面 .......................................................................................... 41. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. III. i n U. v.

(8) 表目錄表 2-1 電子商務應用領域文獻整理 ........................................................................... 7 表 2-2 電影應用領域文獻整理 ................................................................................... 9 表 2-3 圖書館藏應用領域文獻整理 ......................................................................... 10 表 2-4 學術推薦系統既有的推薦方法 ...................................................................... 12 表 3-1 本研究之研究流程工作描述 ......................................................................... 22 表 3-2 新聞與論文性質比較 ..................................................................................... 24 表 4-1 成對樣本統計資料 ......................................................................................... 42 表 4-2 成對樣本檢定 ................................................................................................. 42. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. IV. i n U. v.

(9) 公式目錄 1.. SupportX → Y = (𝑋 ∪ 𝑌)𝑁 = 𝑃(𝑋 ∪ 𝑌)............................................................ 19. 2.. ConfidenceX → Y = (𝑋 ∪ 𝑌)𝑋 = 𝑃(𝑌|𝑋) .......................................................... 19. 3.. 𝑡𝑓𝑖, 𝑗 = 𝑛𝑖, 𝑗𝑘𝑛𝑖, 𝑗 ................................................................................................. 28. 4.. idf𝑖 = log|𝑁|𝑑𝑓𝑖 .................................................................................................. 28. 5.. TF − IDF = tfi, j × idf𝑖 ........................................................................................ 29. 6.. weight = 𝑤𝑖, 𝑗𝑡 = 1𝑇(𝑤𝑖, 𝑡)2 = 𝑡𝑓𝑖, 𝑗 × idf𝑖𝑡 = 1𝑇(𝑡𝑓𝑖, 𝑗 × idf𝑖)2 ................. 29. 7.. sima, b = 𝑝 ∈ 𝑃𝑟𝑎, 𝑝 − 𝑟𝑎(𝑟𝑏, 𝑝 − 𝑟𝑏)𝑝 ∈ 𝑃𝑟𝑎, 𝑝 − 𝑟𝑎2𝑝 ∈ 𝑃𝑟𝑏, 𝑝 − 𝑟𝑏2 ..... 30. 8.. precicsion = Number of correctly recommended resources / Number of recommended resource .................................................................. 36. 學 ‧. io. sit. y. Nat. n. al. er. 10.. 治政 Number of interesting resource ........................................................................ 36 大 F1 − Measure = 2 ×立 Precision × RecallPrecision + Recall ............................ 37 Recall = Number of correctly recommended resources /. ‧ 國. 9.. Ch. engchi. V. i n U. v.

(10) 第一章緒論第一節研究背景與動機推薦系統自 1990 年代開始被學者討論與研究，伴隨著網際網路的發展、電子商務盛行，資料量開始大量增加，不僅是企業的交易記錄，給使用者的資料也是同樣，如何提供使用者有用的資訊，避免過多的資訊造成負擔，發生資訊超載 (Information overload)的情況，而對企業而言，雖有記錄但要如何利用這些資料創造更大的利潤，因此，推薦系統開始被大量運用及研究。. 治政大並推薦對使用者具有價值的項目，而對使用者來說有價值的，就是讓他感興趣的立. 推薦系統的主要功能包含過濾與推薦，將推薦價值過低的項目過濾、剔除，. 項目，因此講求的是個性化，以使用者過去的歷史紀錄(購買、瀏覽或評分等等). ‧ 國. 學. 做為推薦的基準。過去的研究集中不同主題上的推薦如電影、音樂、電視、書籍、. ‧. 文件、 e-learning 、電子商務在市場應用與網絡搜索等等 (Bobadilla, Ortega,. y. Nat. Hernando, & Gutiérrez, 2013)。方法上的研究則由原先的協同過濾、內容式過濾與. er. io. sit. 人口統計，轉向混合的方式，透過不同方法的搭配，解決使用單一方法所會產生的問題，如冷啟動、稀疏性等。. al. n. v i n 推薦研究的主題過去大多環繞在娛樂項目之上，針對學術論文推薦的研究相 Ch engchi U. 當有限。近年來，研究論文的發展數量大幅成長，Jinha(2010)統計自近代發表於 1665 年第一本期刊開始到 2009 年之間，發表的期刊文章數目已有 5000 萬多篇，另外並統計了 1726~2009 年的學術論文成長趨勢如圖 1-1，觀察其發展趨勢，更見學術論文的推薦品質之重要。. 1.

(11) 立. 政治大. ‧ 國. 學. 圖 1-1 學術期刊文章數量 1726 年~2009 年 (Jinha,2010). ‧ sit. y. Nat. 鑒於學者在進行研究時，經常會遭遇找尋相關文獻的問題，若能設計出好的. al. er. io. 文獻推薦系統，減少學者在研究過程中，找尋資料的時間成本，給予有價值的相. v. n. 關文獻，提供協助，無疑是加速進步的速度，對學界、業界都是好事。先前對這. Ch. engchi. i n U. 個議題的研究(例如，Lee, Lee & Kim, 2013; Sugiyama & Kan, 2010)，是以學者本身的研究著作做為基礎，並透過 kNN 演算法以向量餘弦計算相似度，找出與學者相關著作最相似的論文，或以建模的方式做為推薦方法，這個方法雖然能夠提供個人化，但若兩篇文章的主題相似，會一同推薦給學者，其品質無法有效的區分，另外會有使用者冷啟動問題，對新進研究者，推薦對使用者並不友善， Matsatsinis, Lakiotaki & Delias(2007)則是透過使用者偏好的資料收集以達個人化目的，並以多標準決策分析技術(Multiple-criteria Decision Aiding, MCDA)做為推薦準則，並以七個決策標準加權後做為推薦標準，其中引用數權重最高，引用數雖是一項重要指標，但對新的論文，仍會造成冷啟動問題，另外有研究結合語義. 2.

(12) 擴展網絡，做為推薦的方法，但在建立與修改語意擴展網路時，皆需要有專家協助，較為不方便維護(楊永芳, 2002)。美國研究圖書館協會於 2002 年提出布達佩斯開放獲取計劃(Budapest Open Access Initiative)，定義開放取用，係指允許用戶閱讀、下載、複製、傳播、列印、搜尋、分享與取用進行索引，若符合此種精神且無須註冊的期刊被稱作開放獲取期刊(Open Access Journal, OA Journal) (Association of Research Libraries [ARL], 2002)。開放獲取期刊是以作者付費，讓讀者免費取閱下載的方式進行，此種方式受. 治政大 Scientific Information, ISI)研究後，開放與否對期刊的影響力並無差別，而開放取立. 到質疑論文的水準是否受到影響而下降，但經美國科學資訊研究所(Institute for. 用是否影響期刊水準的質疑聲浪也就此破除。開放獲取期刊經過學者的同儕審查. ‧ 國. 學. 再以網際網路做為媒介，讓研究能見度提高，有興趣的一般民眾也能獲取，擴散. ‧. 知識的傳遞，加速了學術的發展，促進研究的進行，另一方面也對學術研究者的. y. Nat. 生涯發展有所幫助，對學術界整體而言更是帶來了龐大的公共利益。在開放獲取. er. io. sit. 的發展下，學術期刊網站被搜尋以及利用的可能性大幅度的提升，但對於免去註冊開放學術論文雖讓使用者能夠以免費又快速的方式獲取過去看不到的論文，相. n. al. Ch. 對的過多的資料也對使用者造成負擔。. engchi. i n U. v. 隨著開放獲取期刊逐漸發展截至 2014 年止，在 Directory of Open Access Journals (DOAJ)上註冊的期刊已有 10,157 個，開放獲取期刊已不容忽視，因此學術論文推薦系統應考量開放獲取的特色與限制，如何能在更少的使用者資訊的情況下，卻有相同甚至更好的使用者滿意度，此問題成為學術論文推薦系統現今發展需要考慮的重點。. 第二節研究目的國際學術期刊的論文數量，過去成長非常快速，能夠主動推薦優質的論文，. 3.

(13) 協助學者快速取得有興趣且有用的論文對研究工作的進行會有很大的貢獻。目前雖然已有些期刊網站有這項功能，但是目前的方法仍有些問題。因此，本研究主要目的如下：開發一個針對學術期刊論文推薦的個人化推薦機制，改善於期刊網站瀏覽之使用者體驗，提升期刊論文網站的品質及滿意度，並驗證其推薦相關文章的績效。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 4. i n U. v.

(14) 第二章文獻探討第一節推薦系統定義與概述推薦機制並不是最近才開始的研究，在 2000 年的.com 泡沫之前，就有許許多多的研究發表。有效的推薦機制可以提升電子商務網站的購買率，提升多媒體網站的黏著度，對於網站經營者而言是一個非常重要的課題。推薦系統源自於認知科學、資訊檢索、預測理論等(蔡松霖, 2013)，其目的以個性化為主軸，給予使用者獨特且符合需求的項目，降低使用者的搜尋成本，. 政治大建議或是口耳相傳來做為決定的依據，而加強與輔助此種社會過程，正是推薦系立 Resnick & Varian認為人們在經驗不足的情況之下，面臨決策之時，會依靠他人的. ‧ 國. 學. 統的目的(1997)。推薦系統應用範圍泛常用於電子商務、新聞、音樂、電影與圖書館等系統上。. ‧. Bobadilla et al. (2013)的回顧性研究中，整理出未來推薦系統之發展，將著重. sit. y. Nat. 於推進現有的方法與算法，以提高推薦的品質，並點出七個研究方向. al. er. io. 1. 使用不同類型的有用資訊做為資料輸入，並混合現有推薦方法。. v. n. 2. 基於網路並透過各種裝置以獲取使用者的個人化資料，透過這些新的資料進行推薦。. Ch. engchi. i n U. 3. 在推薦的過程中，獲取並整合使用者的習慣、購買與品味的趨勢。 4. 對非推薦用途(如市場研究、一般的趨勢與人口特徵統計)的 RS 資料庫探勘。 5. 加強推薦過程中的安全性與隱私性。 6. 新的評估方法與發展非標準化的評估方法。 7. 設計具有彈性，能分析各種異質資料的框架。. 第二節相關研究推薦系統的研究方向可分為兩部分，一個是學理研究，專注研究推薦系統的方法論，如發展新的演算法、提升演算法的準度與速度，另一部分則是特定推薦 5.

(15) 項目的應用研究，針對不同項目的特性，研究各種方法應用於特定推薦項目的效果如何，或結合各種不同方法進行推薦的機制研究。本研究針對最多學者研究的電子商務與電影推薦系統應用，以及與本研究最為相關的圖書館系統和本研究主題學術論文推薦等，以上四大應用領域之相關研究回顧。. 一、電子商務應用領域電子商務是推薦系統的最主要應用領域之一，它直接影響了企業營收，因此. 治政大的資料數聚集當中，藉著降低數據集維度，改善電子商務網站因商品數目龐大、立. 大量的研究都聚集於此應用領域，Sarwar, Karypis, Konstan, & Riedl (2000)在真實. 使用者眾多，資料矩陣稀疏，進而造成推薦效果不佳的情形，雖然研究結果發現. ‧ 國. 學. 透過降低資料維度的做法，確實有效改善其問題，但 Sarwar 也指出並非所有的. ‧. 被推薦項目都能夠適用這個方法。Kim et al.(2001)提出混合協同推薦與內容式過. y. Nat. 濾推薦方法兩種方法的推薦系統於電子商務領域之中，在實驗結果中發現，其成. er. io. sit. 效較傳統使用單一方法好，且更發現了，該方法應用於電影的推薦會比用於電子商務領域來的更為出色。Amazon 做為全球電子商務龍頭，對於推薦系統的重視. al. n. v i n 不同於一般網站，並且具有相當的貢獻，Linden, Smith & York (2003)公開發表了 Ch engchi U. Amazon 內部所採用 item to item 的推薦模式，打破過去協同過濾以顧客與顧客之間的相似度為推薦基礎的想法，改以項目之間的相似度，解決過去因向量矩陣稀疏而運算負荷過高、時間過長的問題，但推薦精準度較傳統方法略低。此後的研究有越來越多的研究與新興的議題、技術相結合，Kim & Kim(2008) 嘗試結合不同的技術，將語意網路技術應用於電子商務的推薦系統之中，設計一推薦系統框架，其結果優於大多採用關鍵字推薦方法的購物網站，但需要有更多的實驗驗證該框架，在語意網路應用於推薦系統上的研究更進了一步。有研究希望以更全面的的看法來看待推薦系統(wang & wu, 2012)，思考角度應該站在供應商利潤做為出發點，提出策略性導向推薦模組，整合推薦過程中的三大階段，資 6.

(16) 料輸入、預測以及輸出結果，從實驗結果中，證明了對於企業的利潤有相當的提升。Palopoli, Rosaci & Sarné (2013)回歸於整體系統面的討論，針對系統實做的部分提出了質疑，研究表明現在許多的電子商務工具透過自動化推薦協助顧客，但系統的計算運行效率不佳，且需要過度仰賴一定程度的設備，並在研究中對此提出一個分散式架構推薦器，除了不會有龐大的計算任務外，且具有開放性、安全性與私密性等優勢。表 2-1 電子商務應用領域文獻整理篇名. Sarwar, B.,. Analysis of Recommendation. Karypis, G.,. 摘要. 嘗試應用降低資料庫維度政治大的做法於電子商務的應用 Algorithms for e-Commerce 立之中，有效改善其問題，並. 學. ‧ 國. Konstan, J.,. 非所有的被推薦項目都適. & Riedl, J.. ‧. Kim, B.-D.,. A new recommender system. 提出混合協同推薦與內容. & Kim, S.-. to combine content-based and. 式過濾推薦方法於電子商. al. n. collaborative filtering. Ch. systems. 2003. engchi. sit. io. O.. y. Nat. 2001. 用這個方法。. er. 2000. 研究學者. 務領域之中，發現用於電影. iv n U 的推薦比電子商務來的更為出色。. Linden, G.,. Amazon.Com. 採用 item to item 的推薦模. Smith, B.,. Recommendations: Item-to-. 式於 Amazon，解決過去的. & York, J.. Item Collaborative Filtering. 運算問題，但推薦精準度較傳統方法略低。. 2008. Kim, W.,. Agent based intelligent search 將語意網路技術用於電子. Choi, D. W., framework for product. 商務的推薦系統之中，其結. & Park, S.. 果優於大多採用關鍵字的. information using ontology. 7.

(17) 2012. mapping. 推薦。. Wang, H.-. A strategy-oriented operation. 提出策略性導向推薦模組，. F., & Wu,. module for recommender. 整合推薦過程中三大階段，. C.-T.. systems in E-commerce. 從實驗結果中，證明了對於企業的利潤有幫助。. 2013. Palopoli, L., A Multi-tiered Recommender. 提出一個分散式架構推薦. Rosaci, D.,. System Architecture for. 器，不會有龐大的計算，且. & Sarné, G.. Supporting E-Commerce. 具開放性、安全性與私密性. M. L.. 立. 二、電影的推薦. 等優勢。政治大. ‧ 國. 學. 電影的特性十分適合透過推薦系統進行協助，同樣一部電影，每個人的觀感. ‧. 不盡相同，喜歡的類型也是，因此電影領域的推薦系統也有許多研究者相繼投入. sit. y. Nat. 研究。電影推薦當中，以協同過濾做為推薦方法是最為常見的，如. io. er. "MovieFinder.com"，"MovieLens"，"IMDB"，廖學毅(2007)將協同推薦的兩大方法商品相關性與使用者相關性於電影推薦項目中相比較，發現以商品相關性進行的. al. n. v i n Ch 電影推薦，效率較佳。除了協同過濾之外，內容過濾與協同過濾也是經常用到的 engchi U. 推薦方法，成功解決使用者資訊搜索與個性化建議， Christakou, Vrettos & Stafylopatis(2007)將內容過濾與協同過濾兩者方法結合，將神經網路資料訓練後，得出單一個別用戶之喜好，再將得到的結果利用 Boolean and fuzzy aggregation operators 進行推薦，其所提出的混合推薦系統是在 MovieLens 測試數據上，得到高精度的預測水準。邱建豪(2008)以過去研究發現的分群結合技術優於單一分群技術的文獻為基礎，以分群結合技術再結合單一分群技術，發現有更佳的效果，以 MovieLens 資料集為基礎，得出 SOM 技術的分群結合技術 HGPA 是最好的方法應用。冷啟動問題是推薦系統常見的問題，於電影推薦領域也是一樣，若新的. 8.

(18) 使用者一開始得不到良好的推薦，如此一來，使用者變會對推薦系統產生不信任感，許多方法雖能有良好的精確度，推薦好的項目給予使用者，但並沒有歷史紀錄足以進行計算，Jesús 提出必須以新的相似指標做為標準，在研究中運用神經學習，於 Netflix 和 Movielens 數據庫中實驗，獲得超越研究當時所有的相似度指標的良好成果。. 表 2-2 電影應用領域文獻整理研究學者 2007. 篇名. 摘要. 將商使用者相關性比較，發現以政治大薦之系統實做商品相關性進行的電影推薦，效立. 廖學毅. 動態協同式過濾推. C., Vrettos,. recommender system 結合，將資料訓練後，得出單一個. S., &. based on neural. 別用戶之喜好，具有高精度的預. networks. 測水準。. sit. io. al. v i n Ch 使用分群結合技術 i U e n g c h分群結合技術再結合單一分群技. n. 邱建豪. er. Nat. y. ‧. A hybrid movie. A.. 2012. 把內容過濾與協同過濾兩者方法. Christakou,. Stafylopatis,. 2008. 學. 2007. ‧ 國. 率較佳。. 增進線上產品的推. 術，發現有更佳的效果，得出 SOM. 薦–以 MovieLens. 技術的分群結合技術 HGPA 是最. 為例. 好的方法。. Bobadilla, J.,. A collaborative. 以新的相似指標做為標準，在研. Ortega, F.,. filtering approach to. 究中運用神經學習，獲得超越研. Hernando, A.,. mitigate the new. 究當時所有的相似度指標的良好. & Bernal, J.. user cold start. 成果。. problem. 9.

(19) 三、圖書館應用領域圖書館因為龐大的館藏，經常仰賴資訊檢索與推薦系統的幫助，協助讀者快速取得在巨量館藏中之所需，余明哲(2001)指出圖書館的價值不在於館內的設備與館藏，而是在於館藏的利用頻率，圖書的數目多寡不是重點，重點在於館藏被多少人所需要與閱讀、利用率之高低，該研究中，以交通大學浩然圖書館做為實驗網站，先關聯規則找出習慣相同者，再以內容過濾進行推薦，其結果發現此做法能找出較為冷門的書籍，並提升使用者滿意度。羅子文(2007)將 web2.0 的概念. 治政大對圖書的回饋資料，將館藏重新分類，有別以往的推薦方法，在成效上獲得使用立融入至圖書館推薦系統之中，透過推薦清單以及社會性標記等功能，希望由讀者. 者的肯定，但在推薦精準度成效較差。. ‧ 國. 學. 陳慧玲(2007)則是以讀者的個人借閱記錄做為推薦之資料集基礎，將本體論. ‧. 與推薦系統結合，運用個人本體論與圖書館分類，分析出讀者感興趣的主題分類，. y. Nat. 接著以內容過濾導向的關鍵字擷取技術進行推薦，有效地為每位讀者進行個人化. er. io. sit. 推薦，而後有研究接續其成果(許正怡，2008)，在個人本體論的模型基礎之上，再結合協同式過濾，依據每位讀者過去記錄，找出與讀者最相似的一群人，透過. al. n. v i n 這些相似讀者的個人本體論，推薦給讀者過去尚未被探索過的主題推薦清單。運 Ch engchi U. 用個人本體論做為推薦方法，雖具有相當精準度，但效能不佳令人詬病。近年因雲端運算相關議題興起，郭秉仁(2012)應用雲端技術 MapReduce 的運算優點，將本體論實做運行於 MapReduce 的計算之上，經由實驗結果證明，利用 MapReduce 技術有效提升系統的計算效能，能夠解決本體論結合協同過濾的運算問題。. 表 2-3 圖書館藏應用領域文獻整理研究學者. 篇名. 摘要. 10.

(20) 2001. 余明哲. 圖書館個人化館藏推以交通大學浩然圖書館做為實驗網薦系統. 站，先關聯規則找出習慣相同者，再以內容過濾進行推薦，其結果有效提升使用者滿意度。. 2007. 羅子文. 使用分群結合技術增將 Web2.0 的概念應用至圖書館推進線上產品的推薦– 薦系統之中，有別以往的推薦方法，以 MovieLens 為例. 2007. 陳慧玲. 在成效上獲得使用者的肯定。. 植基於個人本體論的分群結合技術再結合單一分群技. 政治大中興大學圖書館為例技術的分群結合技術 HGPA 是最好立圖書館推薦系統—以術，發現有更佳的效果，得出 SOM. 許正怡. 學. 2008. 植基於個人本體論模在個人本體論的模型基礎之上，結型與合作式過濾技術合協同式過濾，透過相似讀者的個. ‧. ‧ 國. 的方法。. sit. y. Nat. 之中文圖書館推薦系人本體論，推薦給讀者過去尚未被. 基於個人本體論與個人本體論做為推薦方法效能不. al. v i n C h技術之圖佳，研究中發現 MapReduce MapReduce 技術有 engchi U n. 郭秉仁. io. 2012. 探索過的主題推薦清單。. er. 統. 書推薦系統. 效提升系統的計算效能，解決運算問題。. 四、學術論文應用領域學術論文推薦系統的研究中與電子商務、電影、音樂等娛樂項目的研究數量有很大的落差，過去的研究不斷嘗試以新的方法進行推薦，下表 2-4 是本研究整理了近年學術論文推薦的相關應用研究. 11.

(21) 表 2-4 學術推薦系統既有的推薦方法構面. 研究之作法. 優缺點. 研究學者. 多準則決策. 透過使用者偏好的資料收其中以引用數權重最. Matsatsinis. 法研究. 集以達個人化目的，並以高，引用數是一項重. et al. 2007. 多標準決策分析技術. 要指標，但對新的論. (Multiple-Criteria Decision 文，會造成冷啟動問 Aiding, MCDA)做為推薦. 題. 準則，並以七個決策標準. 政治大結合語義擴展網絡概念，建立與修改語意擴展立加權後做為推薦標準. 語意擴張法. 由專家建立該知識領域之網路時，皆需要有專. 學. ‧ 國. 研究. 語意擴展網路並給予權. ‧ sit. y. Nat. 的基準. er. 結合以協同過濾建立潛在結合多個模型找到與 Koren,2008. io. 因子模型並結合最近鄰居自己最相似的使用. al. v i n Ch 模型建立更精確的擴展模， i U e n g c者h，達到過濾的效果 n. 研究. 2008. 家協助，不方便維護. 重，結合關鍵字做為推薦. 推薦模型. Liang et al.. 型. 但忽略文件之間的關聯性，可能與使用者當下所讀的文獻並沒有關聯性. 上下文感知引用推薦. 研究中發展了一種非參數適用於撰寫論文情. He et al. ,. 的概率模型，可以根據內境，能推薦有價值的. 2010. 文計算出與文獻的相關. 引用文獻. 度，推薦適合內文引用的. 12.

(22) 文獻基於歷史. 依據使用者的對文章的評向量空間模型能計算. Wang et al.,. 記錄推薦. 分、註解評論以及對文章文章內容的相似度，. 2012. 標籤，此三種行為對使用但無法分辨文章優劣者喜好做區別，以概率模型計算使用者相似，再計算詞頻建立向量空間模型，推薦文章給使用者最近鄰居法. 政治大為基礎，並透過最接近鄰似，會一同推薦給學立以學者本身的研究著作做若兩篇文章的主題相. 2013. 者，其品質無法有效. Neighbors, KNN)並以向. 學. ‧ 國. 居演算法(K-Nearest. Lee et al.,. 的區分，另外對新進. ‧. 量餘弦計算相似度，找出研究者並不友善，一. sit. y. Nat. 與學者相關著作最相似的篇研究需長時間的進行，這段期間並無法. io. n. al. er. 論文. 進行有效的推薦，因. v i n Ch 此會有使用者冷啟動 engchi U 問題. 第三節推薦系統分類 Resnick, Iacovou, Suchak, Bergstrom & Riedl (1994)將推薦方法分成三類 (1) 內容基礎過濾(Content-based Filtering) (2)協同式過濾 (Collaborative Filtering) (3) 經濟式過濾(Economic Filtering)，後來有回顧性研究以(1)內容基礎過濾(Contentbased filtering) (2)協同式過濾 (Collaborative Filtering) (3)混合式(Hybrid-based)三者做為分類(Adomavicius & Tuzhilin, 2004)是最常見的分類方法，隨著相關研究. 13.

(23) 越來越多，有了許多不同的推薦方法，Kantor, Rokach, Ricci & Shapira (2011)在「Recommender systems handbook」一書中將推薦重新分成以下六大類 1.. 內容基礎過濾(Content-based). 2.. 協同式過濾(Collaborative Filtering). 3.. 基於用戶統計資訊(Demographic-based). 4.. 基於知識 (Knowledge-based). 5.. 基於社群(Community-based). 6.. 混合式(Hybrid). 政治大. 此六類涵蓋了大多數的推薦方法，以下分別對這些方法做個介紹。一、內容基礎的過濾. 立. 此方法依據對項目的分析，而非依靠使用者的評價，藉由項目找出使用者可. ‧ 國. 學. 能會感興趣的特徵，再向推薦符合特徵使用者可能會喜歡的項目，因使用項目的. ‧. 特徵做為推薦的基礎，因此又稱此方法為特徵式推薦(Feature-based)。計算項目之. y. Nat. 間的向量餘弦值是常用的方法之一，先將文件轉成為向量空間模型(Vector Space. er. io. sit. Model, VSM) ，再計算相似度，餘弦值大，代表兩者之相關性高，反之則相關性低(Salton, Wong & Yang, 1975)，透過文件間的相似度進行推薦，且能夠在線下先. al. n. v i n 行計算相似度，減低線上計算的需求，對使用者的影響較小。 Ch engchi U 二、協同式過濾. 協同過濾的概念最初由 Goldberg, Nichols, Oki & Terry(1992)提出，最初目的在於解決電子郵件過多的問題，幫助員工解決資訊超載，其精神希望透過群眾的力量進行過濾，主要概念是透過相似喜好的使用者，來預測使用者個人偏好，來協助進行過濾，產生更好推薦給使用者，協同過濾又可分成 User-based 與 Itembased 兩種。 . User-based：依照使用者過去對項目的評分為資料基礎，對目前所選取項目進行評分預測，與使用者的預測評分越接近的用戶，可以推測他們具有相似 14.

(24) 的品味，再推薦這些用戶有興趣的商品給該名使用者，因他們有共同的品味，所以其他同好的所看的項目，他也有可能會喜歡。 . Item-based： User-based 發展一段時間，推薦的效果良好，但時間一長，使用者資料也跟著變多，效能開始下降，學者 Sarwar 假設「使用者感興趣的項目，必定與之前給予評分高的項目相似」的前提下，提出直接計算項目與項目之間的相似度，取代計算使用者之間的相似度，並以相似度做為權重，乘上過去評分，得出預測的評分 ( Sarwar, Karypis, Konstan & Riedl, 2001)。. 治政大 k個以使用者的用戶基本資料進行推薦，以用戶資料進行相似度計算，找出立. 三、基於用戶統計資訊的推薦. 最相似的使用者，在將他們曾購買或瀏覽過的項目推薦給該名使用者，不需要使. ‧ 國. 學. 用者的歷史資料進行分析，效率較佳，雖具個人化特色，但使用者傾向方便快速，. ‧. 不見得會填寫詳細的個人資料，而計算出的可信度是此方法最大的問題，資料相. sit er. io. 四、基於知識的推薦. y. Nat. 似的用戶，興趣不見得相同，推薦物品間也不會有相關性，此方法較少單獨使用。. al. n. v i n 在特定領域知識為基礎上，了解項目特色以及為何可以滿足使用者需求，進 Ch engchi U. 而產生對使用者而言是有用的推薦項目。此類型推薦系統是以案例做為系統基礎，計算使用者的問題描述與建議的項目之間的相似度進行推薦，並沒有以使用者偏好與過去紀錄做為推薦基礎，因此不會有冷啟動的問題，系統啟用初期的效果也較其他方法佳，但若不具備學習機制，時間一長，效果就不如其他方法。. 五、基於社群的推薦近年 Facebook、Twitter 等社群網站開始發展，基於群體的推薦方式開始受到關注，以朋友喜歡的你也有可能會喜歡為主要構想，此種方法是以認識的朋友所購買或瀏覽的項目推薦給使用者，Sinha & Swearingen (2001)指出，相較於匿名 15.

(25) 者所推薦的項目，人們傾向於選擇依據朋友的歷史行為所產生推薦的項目，此類型目前仍屬早期研究階段，Jianming & Wesley (2010)的實驗中，在數據稀疏度與冷啟動問題上較傳統 CF 有更好的效果。. 六、混合式推薦各種推薦方式都有其優缺點，以混合的方式結合一種以上的方法，取各方法的優點，並彌補互相的缺點，是混合式推薦方法的主要概念，其中又以內容基礎過濾與協同過濾的混合最普遍。. 立. 政治大. ‧ 國. 學. 第四節推薦系統常見問題 2.4.1 推薦系統的共同問題. ‧. (1) False Negative 與 False Positive. y. Nat. sit. False Negative 與 False Positive，前者意指使用者感興趣的產品或項目，該推. n. al. er. io. 薦而沒推薦，後者則是推薦的產品或項目，使用者不感到興趣，Sarwar, Karypis,. i n U. v. Konstan & Riedl (2000)指出此兩種錯誤會影響使用者對系統的不信任，在電子商. Ch. engchi. 務領域，特別要避免 False Positive，但不論用於何種領域，推薦使用者他們不感興趣的項目，都會讓使用者對推薦系統失去信心。. 2.4.2 協同推薦系統的常見問題除了上述共同的問題，協同推薦系統還有下列特有問題(Breese, Heckerman & Kadie, 1998; Sarwar, Konstan, Borchers, Herlocker, Miller & Riedl , 1998; Sarwar et al., 2000) (1) 冷啟動冷啟動又可對使用者與被推薦的產品或項目來做說明 16.

(26) 1.. 對使用者而言新加入的使用者，因為沒有歷史購買或瀏覽紀錄，推薦系統無法分析與新使用者最相似的使用者為誰，此問題為協同推薦系統的通病。. 2.. 對項目而言新加入的項目，因為還沒有使用者瀏覽、購買或尚未有使用者對其評分，協同推薦系統無法將新的項目推薦給使用者。. (2) 稀疏性在使用者使用系統過程中，鮮少主動會為項目進行評分，系統的評分矩陣資. 政治大. 料會因此顯得零散，如此一來基於使用者為項目評分而計算得出的相似度會受影響，推薦品質不佳。. 立. (3) 同義詞. ‧ 國. 學. 不同的詞彙，但具有相同意義，或者名稱相同，但意義不同，系統無法區分. y. Nat. (4) 擴充性. ‧. 差別。. er. io. sit. 採用最接近鄰居法(k-Nearest Neighbors, kNN)，計算複雜度與使用者數量成平方關係，當使用者與系統項目越來越多，計算負載變高，會嚴重影響系統的. n. al. 運行速度。. Ch. engchi. i n U. v. 2.4.3 內容基礎推薦的常見問題 (1) 內容導向. 當內容為聲音、圖片、藝術品、影像等，需要再透過人工方式，解析其內容特徵屬性。 (2) 無法為內容做出區別內容基礎推薦僅針對內容，無法對品質、風格、使用者觀點等，若內容主題與內容特徵相同，也無法過濾其品質上的差異。 (3) 過度特定化. 17.

(27) 內容基礎推薦對使用者過去瀏覽的內容找出相似的，做為推薦，卻無法推薦與過去不同且對使用者具有意義的推薦，因此具潛在推薦可能性的產品變失去被看到的機會。. 第五節關聯規則探勘 2.5.1 關聯規則之定義與目的隨著資料儲存技術的發展，人們希望在龐大的資料中，找出隱含當中有用的資訊，而關聯規則分析正是其中一項技術，最早是由 Agrawal, Imieliński &. 政治大. Swami(1993)提出，由於條碼機的幫助，得已將每筆交易記錄下來，找出在資料. 立. 庫中被隱藏的項目間關係，大型資料庫，透過這些被找出來的規則，用以制訂出. ‧ 國. 學. 更好的與銷售策略。購物籃分析是關聯規則最常被用來闡述的例子。 Agrawal et al.對關聯規則最初的問題定義中，令I = {𝑖1 , 𝑖2 , … 𝑖𝑛 }，為購物籃中. ‧. 所有項目之集合，D = {𝑡1 , 𝑡2 , … 𝑡𝑛 }為交易資料庫 D 中，所有交易之集合，t ⊆ I. y. Nat. sit. 每筆交易 t 為 I 的非空子集合，且每筆交易有各自獨立不重複的交易 ID，關聯規. al. n. 定閾值進行判定。. er. io. 則之形式可以以X → Y表示，X, Y ⊆ I且X ∩ Y = ∅，而關聯規則的強度可以自行設. Ch. engchi. i n U. v. 最小支持度閾值(Minimum Support)與最小信賴度閾值(Minimum Confidence) 此兩者為關聯規則最常使用之閾值，數值大小介於 0 到 1 之間，若該規則的支持度與信賴度能大於或等於最小支持度閾值與最小信賴度閾值則稱做強規則（Piateski & Frawley, 1991)，也可將符合此兩閾值視為成為有效規則的門檻值。支持度在關聯規則分析的過程中是一種刪除策略，對於支持度較低的規則而言，推薦給使用者不會有太大的幫助，若設定的支持度過低，容易犯 False negative 的錯誤；信賴度用以測量規則的推論可靠度，較高的信賴度代表，Ｙ項目包含於Ｘ項目的交易中出現的可能性高，以下為兩者表達式。. 18.

(28) Support(X → Y) =. ∑(𝑋 ∪ 𝑌) = 𝑃(𝑋 ∪ 𝑌) 𝑁. Confidence(X → Y) =. (1). ∑(𝑋 ∪ 𝑌) = 𝑃(𝑌|𝑋) ∑𝑋. (2). 2.5.2 關聯規則探勘方法. 政治大 Apriori 為關聯分析中常用的基本演算法也是最經典的一個立. Apriori 演算法. (Agarwal &. ‧ 國. 學. Srikant, 1994)，其目的是從海量資料中，找到項目與項目之間的關聯規則，常用於電子商務中的購物籃分析，由於 Apriori 需要不斷生成候選項目隊列和不斷得. ‧. 掃描整個數據庫進行比對，因此效率不佳、令人詬病。. y. Nat. er. io. sit. FP-Growth 演算法. al. v i n Ch 算法，是目前挖掘關聯規則的演算法中，最主要的演算法之一，由獨特的 FP-tree engchi U n. Jiawei H., Jian P., Yiwen Y. (2000) 提出 FP-Growth(Frequent Pattern Growth)演. 資料結構發掘出具有關聯性的項目組合，這些組合又稱做高頻項目集。 FP-Growth 因使用 FP-tree 做為儲存的資料結構，具有壓縮資料的特色，並且能夠跳過產生候選模式的過程，從 FP-tree 結構中直接取出高頻項目集，與 Apriori 演算法不同之處在於，無需一再生成候選項目隊列並掃描整個資料庫進行比對，僅需對資料庫做兩次掃描，大幅降低讀取資料庫的次數，Jiawei H. et al.(2000)的研究中表示，FP-Growth 在大型數據庫的執行速度相較於 Apriori 的效率快上一個量級，且效率會隨著支持度的降低越加明顯。 FP-Growth 存取資料庫的次數少、需要的執行資源較小以及執行效率佳，因. 19.

(29) 此後來有許多研究以 FP-Growth 為基礎發展，學理研究的 FP-Growth-like 發展如 Wang, Tang, Han & Liu 於 2002 將 FP-Growth 改良，提出 TD-FP-Growth，將原先 FP-tree 的 Header table 加上計數欄位，用以記錄支持度個數，並由計數欄由上至下進行探勘，在遞迴過程中不需再建立條件 FP-tree，大幅減少記憶體空間與 CPU 執行時間。 Lin, Hong & Lu 提出 FUFP 演算法，在資料新增時，一同更新 FP-tree 上之節點，不需另外再重新建立 FP-tree (2009)，Xiaoyun, Yanshan, Pengfei, Shengfa, Weiguo & Min 提出 HPFP-Miner，發展一種新的平行高頻項目集挖掘演算法，解決大型資料庫須橫跨多個資料庫，以及多個處理器需要可擴展的彈性問題，實驗. 治政大 IMDb(Internet Movie Yilmazel 於 Apache Mahout 的架構下實做 FP-Growth，並以立. 結果表明 HPFP-Miner 具有良好的擴展性與性能。在應用研究方面 Arslan &. Database)的關鍵字詞庫為分析來源，其研究發現以電影關鍵字做為分析，同義詞. ‧ 國. 學. 間容易形成關聯，LUO & LI 改善 FP-Growth 演算法於大量資料中進行遞迴探勘. sit. n. al. er. io 第六節小結. y. Nat. 的成效(2010)。. ‧. 之效率，並於一個實際的電子商務網站上，以真實資料進行實驗，並且得到良好. Ch. engchi. i n U. v. 關聯規則分析起源於購物籃分析，本研究將此概念應用於學術論文推薦上，每篇文章即購物籃，透過詞頻分析得出的特徵值則為商品，本研究選用 FPGrowth 演算法，從特徵值所建立的 FP-tree 之中，抽取出規則進行推薦。. 20.

(30) 第三章研究方法第一節設計科學的研究方法資訊技術研究主要可分為自然科學 (natural science) 及設計科學 (design science)。自然科學包含：發現(discovery)即產生或提出科學論斷的過程，目的在於將之理論化，證明(justification)以透過藉由確認案例來輔佐證明，目標在瞭解原因並能夠解釋其現象。設計科學包含：建造(build)指針對某特定目的製造人造物的流程，評估(evaluate) 測定某人造物執行有多好的流程 (張景堯，2008)。本研究屬於設計科學，並採用 Nunamaker, Chen & Purdin 所提出的系統發展研究法作為本研究之研究方法(1990)。. 立. 政治大. Nunamaker et al.對於資訊系統所提出的多元方法論中，將系統發展研究流程. ‧ 國. 學. 分為五大活動，依序為建構概念框架(Construct a Conceptual Framework)、發展系統架構(Develop a System Architecture)、分析及設計系統(Analyze & Design the. ‧. System)、建造系統雛形(Build the Prototype System)、觀察及評估系統(Observe and. y. Nat. sit. Evaluate the System)。學者張景堯將設計科學與系統發展研究流程做了整理如圖. n. al. er. io. 3-1，將發展系統架構、分析及設計系統、建造系統雛形此三者結合成發展資訊系. i n U. v. 統，此一活動與建構概念框架屬於設計科學中的建造階段，觀察及評估系統活動屬於評估階段。. Ch. engchi. 本研究之研究流程以學者張景堯整理的設計科學與系統發展研究流程為依據，各階段流程說明如表 3-1。. 21.

(31) 建構概念框架發展系統架構. 建發展資訊系統. 分析及設計系統. 造建造系統雛形. 立. 圖 3-1 設計科學與系統發展研究流程. sit er. al. n. 建構概念框架. 各階段工作描述. io. 研究流程. Nat. 表 3-1 本研究之研究流程工作描述. 分析與設計系統建造系統雛形觀察及評估系統. v. 了解現行推薦系統的發展與期刊網站推薦系統的問題，並提出. Ch. engchi. 研究動機與研究目的發展系統架構. y. ‧. ‧ 國. 觀察及評估系統. 學. 評估. 政治大. i n U. 定義推薦系統概念架構，選擇推薦方法了解JECR期刊網站現行之網站架構，並設計資料庫架構實作系統概念架構與各演算法模組於JECR期刊網站評估本研究推薦系統之成效. 第二節期刊網站現況國際學術期刊網站是人類知識發展的前哨，到國際學術期刊搜尋論文是進行各種尖端研究的第一步。在論文搜尋的過程中，同時影響了研究的進行，隨著網 22.

(32) 際網路的發展，開放這件事開始流行，學術研究的成果應開放於大眾取閱的開放取用，這樣的想法正是開放取用(Open Access)的精神，布達佩斯開放獲取計劃 (Budapest Open Access Initiative)定義開放取用，係指允許用戶閱讀、下載、複製、傳播、列印、搜尋、分享與取用進行索引，若符合此種精神且無須註冊的期刊被稱作開放獲取期刊(Open Access Journal, OA Journal) (Association of Research Libraries [ARL], 2002)。開放獲取期刊是以作者付費，讓讀者免費取閱下載的方式進行，此種方式受到質疑論文的水準是否受到影響而下降，但經美國科學資訊研究所(Institute for. 治政大用是否影響期刊水準的質疑聲浪也就此破除。開放獲取期刊經過學者的同儕審查立 Scientific Information, ISI)研究後，開放與否對期刊的影響力並無差別，而開放取. 再以網際網路做為媒介，讓研究能見度提高，有興趣的一般民眾也能獲取，擴散. ‧ 國. 學. 知識的傳遞，加速了學術的發展，促進研究的進行，另一方面也對學術研究者的. ‧. 生涯發展有所幫助，對學術界整體而言更是帶來了龐大的公共利益。在開放獲取. y. Nat. 的發展下，學術期刊網站被搜尋以及利用的可能性大幅度的提升，但對於免去註. 對的過多的資料也對使用者造成負擔。. al. er. io. sit. 冊開放學術論文雖讓使用者能夠以免費又快速的方式獲取過去看不到的論文，相. n. v i n 推薦機制源起於電子商務，為提升消費者之消費，因而開始發展推薦機制以 Ch engchi U. 促進消費，增加企業營收，後來許多網站系統也相繼開始使用推薦機制。為推薦項目標上標籤或給予關鍵字，根據相同的標籤或關鍵字給予推薦屬最基本的方法；另外有部分類型網站，因操作與機制需要使用者註冊帳號與填寫興趣導向資料，而在開放獲取期刊上應以不註冊即開放為原則，仍有網站希望以推薦更精確的期刊文章給予使用者而要求註冊帳號填寫感興趣的領域；另一種則以顯性評分的方式進行推薦，以使用者對文章的評分回饋做為推薦基準，但都對使用者造成困擾，在資料上的收集也不易取得。. 23.

(33) 第三節推薦系統設計過去的研究有許多的結論都是相同的，皆表示了不同的推薦項目，會有不同的特性，所適合的推薦方式也會有所不同，沒有一個推薦方式能夠稱的上是最好的方法，不同的資料特性、資料內容、使用的演算法與推薦方式都會影響推薦的結果。以文章類型為例，新聞與論文雖然都是文章，但卻有所差別，新聞的閱讀需求在於了解最近發生的事件，或是針對一個事件做了解，因此使用者希望得到的推薦偏向主題事件與其他有趣的新聞；論文是以研究為其目的，使用者會在特定. 政治大有所差別；再以此兩者為例立，若以基於群體的推薦系統，做為此兩者的推薦方式，. 領域感興趣，希望系統推薦的是與閱讀習慣有關的優質論文，在使用者期望上，. ‧ 國. 學. 推薦給讀者，在其社群中，朋友讀了哪些新聞，可以推測與讀者連結較高的朋友，品味可能會相同，且基於社群概念下，讀者會更加有興趣，反觀論文是以個人興. ‧. 趣為出發，社交圈的連結與專業領域不見得相關，如此一來推薦便沒有價值。. al. y 論文. n. 閱讀導向. sit. io 知識結構. 新聞. er. Nat. 表 3-2 新聞與論文性質比較. 事件. Ch. 社群需求. i n U. v. 領域的知識架構. engchi. 了解時事. 興趣研究領域. 設計推薦方法前需要先考量學術研究論文的特性，其具有領域知識結構，過去有研究(楊永芳，2002)以語意網絡實現，但需專人維護以及無法對內容的優劣做出區別，若以關聯規則分析即可將知識結構的關聯作業自動化，而協同過濾正可達到區別內容過濾的問題，其伴隨的冷啟動問題也能藉由關聯規則分析解決，新的文章能因其特徵符合關聯規則被發掘，不受限於協同過濾須要先被瀏覽的限制，新的使用者也能透過起初瀏覽文章的特徵找到相似的文章，方法兩相互補， 24.

(34) 因此本研究以混合協同過濾與關聯分析做為主要的推薦方法。透過瀏覽紀錄計算使用者之間的相似度，找出與該使用者閱讀習慣最接近的使用者，並提取出瀏覽紀錄，並深入到閱讀記錄之文章中的關鍵字，並將得出的關鍵字以 FP-Growth 方法找出原先期刊文章中之關鍵字並建立出 FP-tree，由 FPtree 中產生高頻繁項目集，挑選出關聯規則，再由其關聯規則尋出符合其組合的文章，不同於過去以文章為計算主體協同過濾或關聯規則，研究設計如下： 1.. 每期期刊文章由管理者上傳，新增至系統的文章資料庫。. 2.. 每當系統管理者，新增期刊文章時，以系統字頻分析提取出每篇文章之關鍵. 3.. 基於開放取用原則與使用者操作便利下，採取以 IP 做為儲存於資料庫之記. 政治大字，此部分與一般使用者操作獨立，為此推薦系統之線下作業。立. ‧ 國. 學. 錄主鍵值，進入系統時便依據使用者 IP 記錄使用者瀏覽與下載記錄。. ‧. 將使用者的記錄存入使用者行為記錄資料庫中。. 5.. 將資料庫中過往歷史瀏覽紀錄進行分析，計算使用者之間的相似度。. 6.. 由相似度計算中，可找出 K 個與該使用者瀏覽習慣相近之使用者。. 7.. 將與該使用者最相似的 K 位使用者之歷史瀏覽紀錄取出。. 8.. 把取出的每篇期刊文章視為一筆交易，將這些期刊文章的關鍵字做關聯規則. n. al. er. io. sit. y. Nat. 4.. Ch. engchi. i n U. v. 分析。 9.. 由關聯規則分析中，提取高頻繁項目組合。. 10. 由這些高頻繁項目組合向系統找尋符合其條件的期刊文章，依照支持度排序。 11. 將排序好的推薦清單推薦給使用者，並透過使用者的使用行為，持續改善過濾品質，生成出更好的推薦。. 25.

(35) 期刊文章 1. 管理者. 文章資料庫 2. 詞頻分析計算. 使用者. 行為記錄. 政治大. 立. 3. 4. 7. 與使用者行為最相似使用者的行為記錄. ‧. ‧ 國. 學. 使用者行為紀錄. 5. sit. y. Nat. 使用者相似度計算. n. er. io. FP-growth al 關聯規則計算. Ch. engchi. 關鍵字關聯規則. 10. i n U. v. 6. 使用者相關關係清單. 推薦清單 11 圖 3-2 研究架構圖. 26.

(36) 第四節資料蒐集 2013 年初，Journal of Electronic Commerce Research (JECR)期刊團隊為了提高網站的服務品質，將網站改用 Drupal 內容管理系統重建。基於這個環境，研究過程中所設計出來的推薦系統，將可以移植到其他使用相同開發環境的期刊網站；此外，在 Drupal 的使用提升了取得推薦機制所需之輸入資料的開發便利性，在此系統中，我們可以取得以下資料欄位最為推薦機制的輸入資料。結構化資料： . 瀏覽記錄. 政治大. （使用者來源 IP、期刊文章、瀏覽次數、下載次數、停留時間） . 立. 論文之原資料. ‧ 國. 學. （題目、年份、作者、卷期別、關鍵字）非結構化資料：. y. 論文摘要. sit. . ‧. 論文全文. Nat. . al. er. io. 本研究提出之推薦系統機制，其概念是以協同過濾加上關聯規則與關鍵字的. v. n. 推薦方法，因此需有使用者歷史瀏覽記綠與文章的完整關鍵字，因此自 2014 年. Ch. engchi. i n U. 2 月開始蒐集使用者瀏覽紀錄，做為後續分析之基礎，並將現有之期刊文章以字頻分析，提取出關鍵字，將文章原先沒有的關鍵字加入，儲存至關鍵字詞資料庫中。. 3.4.1 計算閱讀習慣相似之輸入與評分對使用者而言，會點擊進入文章瀏覽，可表示對該文章議題有興趣，下載電子檔更是對於該文章想更深入的了解或引用，可視為一種對該文的認同，我們將此兩種情況以點數評量，計算閱讀行為最相似的使用者，相較於一般使用對文章的評分機制作為計算基準，更容易收集資訊，且期刊文章性質，不同於新聞類型，需要深讀，單純評分無法代表是否對該文章有興趣。 27.

(37) 第五節詞頻分析模組輸入資料：論文內容全文輸出資料：論文關鍵字每篇期刊文章皆會由作者選定關鍵字，為避免作者將關鍵詞設定太過廣泛，因此本研究希望能透過詞頻分析，以科學方法將特徵詞(關鍵字)選出，加入文章資料庫中，以便後續分析使用。當每有新文章加入時，先將文章斷詞處理，拆解成組成元素，分析詞彙出現. 政治大. 的頻率、重要性衡量是否能做代表文章的特徵，計算方法如下： 1.. 詞頻(Term Frequency, TF). 立. 越是重要的詞，越是會在該篇文章中重複出現，TF 值表字詞 i 在該文章中，. ‧ 國. 學. 占其組成的權重值。 𝑛𝑖,𝑗 ∑𝑘 𝑛𝑖,𝑗. ‧. 𝑡𝑓𝑖,𝑗 =. y. Nat. n. 2.. al. er. io. ∑ ni,j ：文章 j 中所有字詞出現次數之總和. sit. ni,j ：字詞 i 在文章 j 中出現的次數 k. (3). i n 反向文件頻率(Inverse Document C h Frequency, IDF) engchi U. v. 在語言中有些詞彙是常用且必須用到，但根據 TF 之定義，這些詞彙必定也. 具備高頻率，重要的詞彙只會某些文章中出現頻率較高，並非每篇都是高頻率，包含字詞 i 的文檔越少，IDF 越大，則字詞 i 具有類別區分能力。因此藉由 IDF 協助修正 TF 的權重。 idf𝑖 = log. |𝑁| 𝑑𝑓𝑖. (4). |N|：文章集之文章數目 dfi：字詞 i 出現在整個文章集中的文章數 3.. TF-IDF 28.

(38) 經 IDF 修正後的 TF，稱之 TF-IDF，其公式如下： TF − IDF = tfi,j × idf𝑖. 4.. (5). 正規化文章的長度不同，會對權重值造成影響，因此需對 TF-IDF 做權重正規化的修正，其公式如下：. weight =. 𝑤𝑖,𝑗 √∑𝑇𝑡=1(𝑤𝑖,𝑡 )2. 𝑤𝑖,𝑗. 𝑡𝑓𝑖,𝑗 × idf𝑖. =. (6). √∑𝑇𝑡=1(𝑡𝑓𝑖,𝑗 × idf𝑖 )2. 政治大：字詞 i 在文章 j 中的權重立 ‧. ‧ 國. 學. ∑𝑇𝑡=1(𝑤𝑖,𝑡 )2 ：所有字詞原權重的平方總和再開根號，即文章長度。. 第六節使用者相似度計算模組. y. Nat. io. n. al. er. 輸出資料：相似使用者 IP. sit. 輸入資料：使用者 IP address、使用者瀏覽文章編號. i n U. v. 在協同過濾中，通常會以使用者的瀏覽或購買記錄，做為計算使用者之間相. Ch. engchi. 似度的輸入資料，而協同過濾中計算使用者相似度的方法有 Pearson 相關係數、 Spearman 相關係數與均方差，其中以 Pearson 相關係數效果較佳(Herlocker, Konstan, Borchers & Riedl, 1999)，因此本研究以 Pearson 相關係數做為計算方法。 Pearson 相關係數是一種常用來計算相似度的計算方法，其取值範圍由-1 到 1 之間，越接近-1 代表其之間具強烈負相關性，越接近 1 代表其之間具強烈正相關性，以下是相關符號與公式。由於開放獲取期刊的關係，在設計架構上不希望使用者註冊或輸入任何有關個人的資料，此模組以使用者 IP 做為區別各使用者身分之依據。. 29.

(39) 3.6.1. Pearson 變數說明與公式以評分矩陣 R，計算使用者 a 與使用者 b 的相似度 sim(a,b) ∑𝑝∈𝑃(𝑟𝑎,𝑝 − 𝑟̅𝑎 ) (𝑟𝑏,𝑝 − 𝑟̅𝑏 ). sim(a, b) =. 2. √∑𝑝∈𝑃(𝑟𝑎,𝑝 − 𝑟̅𝑎 ) √∑𝑝∈𝑃(𝑟𝑏,𝑝 − 𝑟̅𝑏 ). (7). 2. U = {𝑢1 , 𝑢2 … , 𝑢𝑛 } P = {𝑝1 , 𝑝2 … , 𝑝𝑚 } 𝑟̅𝑎 : 使用者 a 的平均評分. 立. U:使用者集合. 政治大. ‧ 國. 學. P:項目集合. R:項目評分 rij 的 nxm 評分矩陣，並𝑖 ∈ 1 … 𝑛; 𝑗 ∈ 1 … 𝑚，若無評分記錄陣列. ‧. 可為空. n. er. io. al. sit. y. Nat. 第七節關聯規則分析模組. i n U. v. FP-Growth 演算法具有運算速度的優勢，比起經典的 Apriori 演算法更適合. Ch. engchi. 採用於本推薦架構，同時，此方法也是目前關聯規則的主流演算法。輸入資料：論文內容全文輸出資料：論文關鍵字. 3.7.1 FP-tree 之建構與表示 FP-Growth 僅需對資料庫掃描兩次，第一次掃描資料庫，取得 1 維頻繁項目之集合及其支持度，利用 1 維頻繁項目集過濾低於最小支持個數之項目，並按照之持降冪排序，；第二次掃描資料庫時，同時生成 FP 樹，以下是 FP-tree 之建構過程。 30.

(40) null a:1. b:1 (I) null. b:1. a:1. c:1. b:1. d:1. 政治大 null. a:2. b:1. 學. c:1. b:1. c:1. ‧. d:1. e:1. Nat. n. er. io. al. y. (Ⅲ). sit. ‧ 國. 立. (Ⅱ). i n U. Ch. v. e n g c h inull a:8. b:2 c:2. b:5. c:2. d:2. c:2. d:1. d:1. e:1. e:1. e:1. (Ⅳ) 圖 3-3 FP-tree 之建構 FP-tree 之建構過程是以讀取每筆交易並對應建立在 FP-tree 中，透過每筆交 31.

(41) 易重複的項目，壓縮儲存結構。在建立之前，需要將項目需依照支持個數排序，剔除非高頻的項目，圖 3-3 中共有 10 筆交易，其中有 5 種項目。 1. 最初 FP-tree 僅有根節點，讀取完第一筆交易(a,b)後，建立該筆交易之項目如 (Ⅰ)，形成 null→a→b，並記錄其高頻個數為 1。 2. 加入第二筆交易記錄(b,c,d)後如(Ⅱ)，其第一個項目與第一筆不重複，因此建立新的節點群，並記錄高頻個數。 3. 第三筆交易(a,c,e)，與第一筆交易的第一個項目相同，因此將重疊之 a 項目高頻個數記為 2，再不同的 c,e 項目分支，另建節點群。. 政治大. 4. 將每筆交易讀取完後，建立的 FP-tree 如(Ⅳ)。. 立. ‧ 國. 學. 3.7.2 FP-growth 高頻項目集之產生. FP-Growth 演算法將問題切割成多個子問題，由下往上的方式提取 FP-tree 中. ‧. 的高頻項目集，採用各個擊破(Divide-and-Conquer)策略(Tan, Steinbach & Kumar,. sit. y. Nat. 2005)。以圖 3-3 為例，從項目集中尋找高頻個數最小的開始，即由 e、d、c、b、. al. n. 的子問題。以取出路徑結尾為 e 做為範例說明：. Ch. engchi. 32. er. io. a 依序，找出包含其項目的路徑，建立出字首路徑，再進一步將問題切割成更小. i n U. v.

(42) 一、建立 e 之字首路徑將包含 e 結尾之路徑取出。. null a:8. b:2 c:2. b:5. c:2. d:2 e:1. e:1 e:1. 政治大. 圖 3-4 e 之字首路徑圖. 立. 二、建立 e 之條件 FP-tree. ‧ 國. 學. 把未包含 e 之交易移除，調整路徑節點支持個數，並將 e 去除，僅保留. ‧. 先前之路徑如圖 3-5(Ⅰ)，再檢視調整後的節點支持度是否低於最小支持個. y. Nat. 數，假設最小支持個數為 2，而 d 之支持個數為 1，所有 de 結尾之項目集必. n. al. er. io. 5(Ⅱ)。. sit. 非高頻，因此包含 d, e 之交易不必再深入探討，並得 e 之條件路徑如圖 3-. a:2. C hnull engchi. i n U. v. b:1. c:1. b:1 c:1. d:1 (I). null. a:2. b:1. b:1. c:1. c:1 (Ⅱ) 圖 3-5 e 之條件路徑 33.

(43) 三、由條件 FP-tree 分割成子問題得到 e 之條件路徑後，再按照支持個數由小到大，解決 de、ce、be、ae 高頻項目集之子問題，由於 d 的支持個數低於先前設定的最小支持個數，de 與其子問題，不必再深入探討，ce 之條件路徑如圖 3-6(Ⅰ)，ce 之條件路徑如圖 3-6(Ⅱ)，a 支持度為 1，低於最小支持個數，因此僅得出 ce 為高頻項目集；be 之字首路徑如圖 3-6(Ⅲ)，其條件路徑圖 3-6(Ⅳ)，a 支持度為 2，得 be、abe 集合為高頻項目集；ae 之條件路徑如圖 3-6(Ⅴ)，得 a 為高頻項目集，再將各個子問題的解答合併後，得出 e 之高頻項目集為 e、ce、be、abe、a。. 立. 政治大 null a:1. ‧ 國. 學. b:1. c:1. ‧. c:1. null. y. Nat. (I). n. al. null. er. io. sit. a:1. C ha:2 engchi. i n U. v. (Ⅱ). b:1. b:1 (Ⅲ) null a:2 (Ⅳ) null a:2 (Ⅴ ) 圖 3-6 子問題之字首路徑、條件路徑從 FP-tree 中得出高頻項目集後，依照使用者當下所瀏覽的文章特徵值做為 34.

(44) 比對的標準，與該文章的特徵值符合越多的規則，被推薦之優先權較高，依順序排列，排序後，再以高頻項目集之特徵值組合，找出文章庫內符合的期刊文章，推薦給使用者。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 35. i n U. v.

(45) 第四章實驗設計一、. 正確推薦之定義問題. 決定評估推薦成效之前，須先定義出對於學術論文推薦系統而言，什麼才是正確的推薦，雖然推薦系統多以 F1-Measure 做為評估方法，但用來評估學術論文之推薦之前須先定義什麼是正確的推薦。學術論文的推薦情境中，什麼叫做有效的推薦，此定義對每個使用者來說可能都不同，可以是使用者點選了系統的推薦，又或者使用者下載該篇文獻，更可以嚴格說使用者完成的研究中引用才算是成功的推薦，如何定義都有失偏頗。. 二、. 治政評估推薦系統之方法大立. 而推薦系統常見的評估方法有平均絕對誤差(Mean Absolute Errors, MAE)與. ‧ 國. 學. 計算精準度及召回率，前者對所有預測用戶對項目之評分與實際評分做計算，後. ‧. 者對正確推薦給使用者的項目數量比做計算，過去的研究中發現，以精準率及召. 精準率. sit. io. al. v i n 定義：推薦之項目中，有多少比例是顧客在期間 n+1，有實際購買或選擇的 Ch engchi U n. 1.. er. 如下。. y. Nat. 回率做為衡量標準的效果相較 MAE 好(McLaughlin & Herlocker, 2004)，其公式. 項目。公式如下： precicsion =. 2.. Number of correctly recommended resources Number of recommended resource. (8). 召回率定義：顧客在期間 n+1，有實際購買或選擇的項目，有多少比例是由推薦系統所推薦的。公式如下： Recall =. 3.. Number of correctly recommended resources Number of interesting resource. 調和平均數 36. (9).

(46) 定義：將精準率與召回率二者相結合計算，以更準確地衡量出推薦效能。公式如下： F1 − Measure =. 2 × Precision × Recall Precision + Recall. (10). 但由於推薦數增加時，精準率會下降，召回率反而會提高，兩者具有衝突，一般將二者結合，計算出調和平均數(F1-Measure)，便能更準確地衡量出推薦效能。由公式 8、公式 9 與公式 10 可得知，定義使用者接受了系統的推薦是使用. 治政大 et al.(2000)指出題，採用 F1-Measure 做為評估標準是不適當的，另外，Sarwar 立 F1-Measure 進行評估的第一步，鑒於上述定義學術論文系統正確推薦之定義問. False Negative 與 False Positive 此兩種錯誤會影響使用者對系統的不信任，一旦. ‧ 國. 學. 產生不信任感，推薦系統便容易被使用者忽略，收集資料上也會造成困難。因此. ‧. 應避免受現有網站推薦成效之影響與定義問題，本研究根據過去研究(楊永芳，. n. al 第一節研究假說. er. io. sit. y. Nat. 2002)為參考依據，先進行實驗，再以問卷形式評分作為評估。. Ch. engchi. i n U. v. 為了驗證本研究推薦機制之成效，將與另外兩種推薦方法進行比較，分別是 FP-Growth 關聯規則與最近鄰居法，前者以內容為考量，後者以同儕過濾進行推薦，因此本研究提出以下虛無假說: 研究假說 H1：本研究推薦機制沒有比 FP-Growth 關聯規則的推薦有幫助 H2：本研究推薦機制沒有比最近鄰居法的推薦有幫助. 37.

(47) 第二節資料前置處理在本研究推薦機制下，需要先建立期刊文章特徵資料庫，其中包含詞頻分析所產生的關鍵字詞、期刊文章作者所編列的關鍵字與作者姓名。清除圖表與格式. 詞頻分析處理. 原始文件. 純文字檔. 立. 特徵值. 存入. 政治大存入. ‧ 國. 學 ‧. 文件資訊 (作者、關鍵字). 特徵資料庫. 圖 4-1 資料前置處理流程. sit. y. Nat. al. er. io. 進行詞頻分析之前，須先將文章全文檔案剔除圖片、表格、超連結等內容，. v. n. 僅保留純文字，若讀入具有格式的檔案會造成亂碼，影響詞頻分析，分析 JECR. Ch. engchi. i n U. 中 278 篇文章後，共得 14881 筆特徵記錄，做為關聯分析之依據。. 第三節實驗設計與實驗流程學術論文網站使用者主要目的在於尋找撰寫研究論文的文獻與靈感，因此受測者需具備撰寫論文、尋找文獻的動機或經驗，選擇受測者時必須為碩士班或博士班學生或具有學位資格者，且必須修習過電子商務或行動商務相關課程者，本研究受測者以政治大學、中央大學及中山大學碩士班與博士班在學學生與畢業生為主要受測來源。實驗共分兩階段，第一階段為建立訓練集資料，考量電子商務範圍廣大，實 38.

(48) 驗範圍訂定為尋找行動商務相關文獻以便建立訓練集，受測者 60 人。第二階段是以問卷方式評估推薦方法之成效，受測者 30 人，以下分別為兩階段進行詳述. 第一階段 1.. 實驗流程. 任務說明. 政治大因撰寫論文需要，而到立 JECR 期刊網站上搜尋與主題「行動商務」相關. 任務情境. 學. 之文獻。 3.. 繳交檔案. ‧ 國. 2.. 進行任務. 任務內容. ‧. 於四十分鐘內在 JECR 期刊網站上找尋與行動商務相關文獻，可使用. sit. y. Nat. JECR 期刊網站上任何工具，以及翻譯網站。實驗進行中，僅可開啟 JECR 期. 任務限制. al. n. 4.. er. io. 刊網站與翻譯網站。. Ch. engchi. i n U. v. 受測者必需繳交一份文件，內容包含覺得有興趣、可以做為寫論文的主要論文或可以深入研究仔細詳讀的文獻之標題以及具體選擇理由，只要符合情境，也可選擇電子商務相關文獻。. 第二階段從第一階段 60 名受測者中，隨機挑選 30 位，由第一階段受測者繳交文件所挑選的期刊文章做為推薦之依據，每位受測者將有不同的客製化問卷，因同一篇期刊文章可能會有不同的推薦產生，本研究推薦機制、FP-Growth 關聯規則、最. 39.

(49) 近鄰居法此三種推薦方法各推薦出兩篇，合計共六篇，若有重複推薦則分數共用。填寫問卷前，請使用者閱讀先前所挑選的其中一篇文章之摘要，再對基於該篇文章所推薦的六篇文章摘要評分，此問卷以李克特七點量表，評量幫助程度，評分範圍 1~7，1:極度沒幫助；7 極度有幫助。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 4-2 網站首頁畫面. 40. v.

(50) 圖 4-3 網站期刊文章畫面. ‧ er. io. sit. y. Nat. 第四節實證結果分析 4.4.1 分析方法. 學. ‧ 國. 立. 政治大. al. n. v i n 首先，將受測者每種方法的兩個分數平均，接著將本研究混合機制分別對 FPCh engchi U. Growth 關聯規則、最近鄰居法做 95%信心水準的成對相依樣本 t 檢定，檢定本研究推薦機制的幫助程度是否優於另外兩個方法。. 4.4.2 資料分析本實驗以 SPSS 進行統計資料分析，得表 4-1 與表 4-2，並對前述假說檢視與分析. H1：本研究推薦機制沒有比 FP-Growth 關聯規則的推薦有幫助本研究之推薦機制平均數得 5.35 高於 FP 關聯規則平均數 4.7，檢定結 41.

(51) 果的顯著性為 0.0115，因 α=0.05 大於 0.0115，差異達顯著水準，因此有證據支持本研究推薦機制較 FP-Growth 關聯規則的推薦有幫助。. H2：本研究推薦機制沒有比最近鄰居法的推薦有幫助本研究之推薦機制平均數得 5.35 高於 FP 關聯規則平均數 4.5，檢定結果的顯著性為 0.0115，因 α=0.05 大於 0.002，差異達顯著水準，因此有證據支持本研究推薦機制較最近鄰居法的推薦有幫助。. 對組 1. 治政平均數標準偏差大 N 混合推薦機制立 5.3500 30 .97512. 對組 2. FP 關聯規則混合推薦機制. 4.7000 5.3500. 30 30. 1.11880 .97512. .20426 .17803. 最近鄰居. 4.5000. 30. 1.28654. .23489. .17803. io. T. er. 表 4-2 成對樣本檢定. sit. y. ‧. Nat. 42. 顯著性（單尾）. df. a 混合推薦機制 -lFP 關聯規則 2.405 i v n Ch U 混合推薦機制 - 最近鄰居法 3.132 engchi n. 對組 1 對組 2. 標準錯誤平均值. 學. ‧ 國. 表 4-1 成對樣本統計資料. 29 29. .0115 .002.