• 沒有找到結果。

學術研究論文推薦系統之研究 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "學術研究論文推薦系統之研究 - 政大學術集成"

Copied!
72
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊管理學系. 碩士學位論文 指導教授:梁定澎博士. 立. 政 治 大. ‧ 國. 學. 學術研究論文推薦系統之研究. ‧. sit. y. Nat. Development of a Recommendation. n. er. io. System for Academic Research Papers al v i n Ch engchi U 研究生:葉博凱 中華民國一○四年一月.

(2) 摘要 推薦系統為網站提升使用者滿意度、減少使用者所花費的時間並且替網站提 供方提升銷售,是現在網站中不可或缺的要素,而推薦系統的研究集中在娛樂項 目,學術研究論文推薦系統的研究有限。若能給予有價值的相關文獻,提供協助, 無疑是加速進步的速度。 在過去的研究中,為了達到個人化目的所使用的方法,都有不可避免或未解 決的缺點,2002 年美國研究圖書館協會提出布達佩斯開放獲取計劃(Budapest. 治 政 大 文,這樣的做法使期刊走向開放的風氣開始盛行,時至今日,開放獲取對學術期 立 Open Access Initiative),不要求使用者註冊帳號與支付款項就能取得研究論文全. 刊網站帶來重大的影響。在這樣的時空背景之下,本研究提出一個適用於學術論. ‧ 國. 學. 文之推薦機制,以 FP-Growth 演算法與協同過濾做為推薦方法的基礎,消弭過去. ‧. 研究之缺點,並具個人化推薦的優點,經實驗驗證後,證實本研究所提出的推薦. al. er. io. sit. y. Nat. 架構具有良好的成效。. n. v i n 關鍵字:學術論文推薦、協同過濾、關聯規則、冷啟動、FP-Growth Ch engchi U.

(3) Abstract Recommendation system is used in many field like movie, music, electric commerce and library. It’s not only save customers’ time but also raise organizations’ efficient. Recommended system is an essential element in a website. Some methods have been developed for recommended system, but they are primarily focused on content or collaboration-based mechanisms. For academic research, it is very important that relevant literature can be provided to researchers when they conduct literature. 政 治 大 in existing methods such as立 cold starts.. review. Previous research indicates that there are inevitable or unsolved shortcomings. ‧ 國. 學. Association of Research Libraries purpose “Budapest Open Access Initiative” that is advocate open access concept. Open access means that users can get full paper. ‧. without register and pay fee. It’s a major impact to academic journal website.. sit. y. Nat. In this space-time background, we propose a hybrid recommendation mechanism. n. al. the shortcomings of existing methods.. Ch. engchi. er. io. that takes into consideration the nature of recommendation academic papers to mitigate. i n U. v. Keywords: recommendation systems, collaborative filtering, association rules, cold start, FP-Growth.

(4) 致謝 時光飛逝,研究所生涯也到了尾聲,兩年生活中,每件事情的發生都有存 在的理由,對我來說都是生命的過程,有歡笑有淚水,感謝一路上幫助我、鼓 勵我的人們。 這本論文能夠順利完成,最感謝的就是指導老師梁定澎教授,在撰寫論文的 過程中,給予寶貴的意見與方向,一語點破研究瓶頸,老師對研究的熱忱、對學 生的悉心指導無人能比,能在梁老師的門下是我研究所生涯中,最大的榮幸。感. 政 治 大. 謝口試委員李有仁教授與賴香菊教授讓這本論文更臻完善。也感謝艾軒學長提攜. 立. 後進,有問必答,協助政大第一屆梁 Lab 的大家,完成畢業論文,以及助理若羚. ‧ 國. 學. 幫我們打點 Lab 的大小事,因為有你們讓 Lab 更加溫暖。. 在 Lab 度過了許多個夜晚,謝謝有冠達、云筠、思帆這些同伴一起奮鬥,也. ‧. 少不了有鎔任、郁成、陳毅、銀聖、一帆這兩年一起度過大小事,讓這一路上的. y. Nat. sit. 我不孤單。今日能從政大畢業,多虧丁棋老師、劉毅老師、張翔老師你們帶著心. n. al. er. io. 靈熱度的認真教學,以及一起考取研究所,七人成行的夥伴們,還有當年面臨低. i n U. v. 潮時,康維、鵬翔、欽琮、咨豪、書慶、建華、永彤與承軒的鼓勵與協助。每當. Ch. engchi. 有不如意的事,總有 FunnyBoyz 的關心與激勵,一路上太多貴人族繁不及備載。 最後謝謝我的家人,爸爸、媽媽、哥哥姐姐們一直在我的身後支持我,當我 永遠的後盾。.

(5) 目錄 第一章. 緒論............................................................................................................ 1. 第一節. 研究背景與動機................................................................................ 1. 第二節. 研究目的............................................................................................ 3. 文獻探討.................................................................................................... 5. 第二章. 第一節. 推薦系統定義與概述........................................................................ 5. 第二節. 相關研究............................................................................................ 5. 第三節. 推薦系統分類.................................................................................. 13. 第四節. 推薦系統常見問題.......................................................................... 16. 小結.................................................................................................. 20. y. 研究方法.................................................................................................. 21. io. 第一節. er. 第三章. 關聯規則探勘方法...................................................................... 19. Nat. 第六節. 關聯規則之定義與目的.............................................................. 18. ‧. 2.5.2. 關聯規則探勘.................................................................................. 18. sit. 2.5.1. 立. 學. 第五節. 政 治 大. 推薦系統的共同問題.................................................................. 16 協同推薦系統的常見問題.......................................................... 16 內容基礎推薦的常見問題.......................................................... 17. ‧ 國. 2.4.1 2.4.2 2.4.3. 設計科學的研究方法...................................................................... 21. al. 第四節. 資料蒐集.......................................................................................... 27. n. 第三節. v i n 期刊網站現況.................................................................................. 22 Ch engchi U 推薦系統設計.................................................................................. 24. 第二節. 3.4.1. 計算閱讀習慣相似之輸入與評分.............................................. 27. 第五節. 詞頻分析模組.................................................................................. 28. 第六節. 使用者相似度計算模組.................................................................. 29. 3.6.1. 第七節 3.7.1 3.7.2 第四章. Pearson 變數說明與公式 ............................................................ 30 關聯規則分析模組.......................................................................... 30 FP-tree 之建構與表示 ................................................................. 30 FP-growth 高頻項目集之產生 ................................................... 32. 實驗設計.................................................................................................. 36 I.

(6) 第一節. 研究假說.......................................................................................... 37. 第二節. 資料前置處理.............................................................................. 38. 第三節. 實驗設計與實驗流程...................................................................... 38. 第四節. 實證結果分析.................................................................................. 41. 4.4.1 4.4.2 第五章. 分析方法...................................................................................... 41 資料分析...................................................................................... 41. 結論.......................................................................................................... 43. 第一節. 研究結果.......................................................................................... 43. 第二節. 研究貢獻.......................................................................................... 44. 第三節. 研究限制.......................................................................................... 45. 第四節. 未來研究方向.................................................................................. 45. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. II. i n U. v.

(7) 圖目錄 圖 1-1 學術期刊文章數量 1726 年~2009 年 (Jinha,2010) ........................................ 2 圖 3-1 設計科學與系統發展研究流程 ...................................................................... 22 圖 3-2 研究架構圖 ..................................................................................................... 26 圖 3-3 FP-tree 之建構.................................................................................................. 31 圖 3-4 e 之字首路徑圖 ............................................................................................... 33 圖 3-5 e 之條件路徑 ................................................................................................... 33 圖 3-6 子問題之字首路徑、條件路徑 ..................................................................... 34 圖 4-1 資料前置處理流程 .......................................................................................... 38 圖 4-2 網站首頁畫面 .................................................................................................. 40. 政 治 大. 圖 4-3 網站期刊文章畫面 .......................................................................................... 41. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. III. i n U. v.

(8) 表目錄 表 2-1 電子商務應用領域文獻整理 ........................................................................... 7 表 2-2 電影應用領域文獻整理 ................................................................................... 9 表 2-3 圖書館藏應用領域文獻整理 ......................................................................... 10 表 2-4 學術推薦系統既有的推薦方法 ...................................................................... 12 表 3-1 本研究之研究流程工作描述 ......................................................................... 22 表 3-2 新聞與論文性質比較 ..................................................................................... 24 表 4-1 成對樣本統計資料 ......................................................................................... 42 表 4-2 成對樣本檢定 ................................................................................................. 42. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. IV. i n U. v.

(9) 公式目錄 1.. SupportX → Y = (𝑋 ∪ 𝑌)𝑁 = 𝑃(𝑋 ∪ 𝑌)............................................................ 19. 2.. ConfidenceX → Y = (𝑋 ∪ 𝑌)𝑋 = 𝑃(𝑌|𝑋) .......................................................... 19. 3.. 𝑡𝑓𝑖, 𝑗 = 𝑛𝑖, 𝑗𝑘𝑛𝑖, 𝑗 ................................................................................................. 28. 4.. idf𝑖 = log|𝑁|𝑑𝑓𝑖 .................................................................................................. 28. 5.. TF − IDF = tfi, j × idf𝑖 ........................................................................................ 29. 6.. weight = 𝑤𝑖, 𝑗𝑡 = 1𝑇(𝑤𝑖, 𝑡)2 = 𝑡𝑓𝑖, 𝑗 × idf𝑖𝑡 = 1𝑇(𝑡𝑓𝑖, 𝑗 × idf𝑖)2 ................. 29. 7.. sima, b = 𝑝 ∈ 𝑃𝑟𝑎, 𝑝 − 𝑟𝑎(𝑟𝑏, 𝑝 − 𝑟𝑏)𝑝 ∈ 𝑃𝑟𝑎, 𝑝 − 𝑟𝑎2𝑝 ∈ 𝑃𝑟𝑏, 𝑝 − 𝑟𝑏2 ..... 30. 8.. precicsion = Number of correctly recommended resources / Number of recommended resource .................................................................. 36. 學 ‧. io. sit. y. Nat. n. al. er. 10.. 治 政 Number of interesting resource ........................................................................ 36 大 F1 − Measure = 2 ×立 Precision × RecallPrecision + Recall ............................ 37 Recall = Number of correctly recommended resources /. ‧ 國. 9.. Ch. engchi. V. i n U. v.

(10) 第一章 緒論 第一節 研究背景與動機 推薦系統自 1990 年代開始被學者討論與研究,伴隨著網際網路的發展、電 子商務盛行,資料量開始大量增加,不僅是企業的交易記錄,給使用者的資料也 是同樣,如何提供使用者有用的資訊,避免過多的資訊造成負擔,發生資訊超載 (Information overload)的情況,而對企業而言,雖有記錄但要如何利用這些資料創 造更大的利潤,因此,推薦系統開始被大量運用及研究。. 治 政 大 並推薦對使用者具有價值的項目,而對使用者來說有價值的,就是讓他感興趣的 立. 推薦系統的主要功能包含過濾與推薦,將推薦價值過低的項目過濾、剔除,. 項目,因此講求的是個性化,以使用者過去的歷史紀錄(購買、瀏覽或評分等等). ‧ 國. 學. 做為推薦的基準。過去的研究集中不同主題上的推薦如電影、音樂、電視、書籍、. ‧. 文 件 、 e-learning 、 電 子 商 務 在 市 場 應 用 與 網 絡 搜 索 等 等 (Bobadilla, Ortega,. y. Nat. Hernando, & Gutiérrez, 2013)。方法上的研究則由原先的協同過濾、內容式過濾與. er. io. sit. 人口統計,轉向混合的方式,透過不同方法的搭配,解決使用單一方法所會產生 的問題,如冷啟動、稀疏性等。. al. n. v i n 推薦研究的主題過去大多環繞在娛樂項目之上,針對學術論文推薦的研究相 Ch engchi U. 當有限。近年來,研究論文的發展數量大幅成長,Jinha(2010)統計自近代發表於 1665 年第一本期刊開始到 2009 年之間,發表的期刊文章數目已有 5000 萬多篇, 另外並統計了 1726~2009 年的學術論文成長趨勢如圖 1-1,觀察其發展趨勢,更 見學術論文的推薦品質之重要。. 1.

(11) 立. 政 治 大. ‧ 國. 學. 圖 1-1 學術期刊文章數量 1726 年~2009 年 (Jinha,2010). ‧ sit. y. Nat. 鑒於學者在進行研究時,經常會遭遇找尋相關文獻的問題,若能設計出好的. al. er. io. 文獻推薦系統,減少學者在研究過程中,找尋資料的時間成本,給予有價值的相. v. n. 關文獻,提供協助,無疑是加速進步的速度,對學界、業界都是好事。先前對這. Ch. engchi. i n U. 個議題的研究(例如,Lee, Lee & Kim, 2013; Sugiyama & Kan, 2010),是以學者本 身的研究著作做為基礎,並透過 kNN 演算法以向量餘弦計算相似度,找出與學 者相關著作最相似的論文,或以建模的方式做為推薦方法,這個方法雖然能夠提 供個人化,但若兩篇文章的主題相似,會一同推薦給學者,其品質無法有效的區 分,另外會有使用者冷啟動問題,對新進研究者,推薦對使用者並不友善, Matsatsinis, Lakiotaki & Delias(2007)則是透過使用者偏好的資料收集以達個人化 目的,並以多標準決策分析技術(Multiple-criteria Decision Aiding, MCDA)做為推 薦準則,並以七個決策標準加權後做為推薦標準,其中引用數權重最高,引用數 雖是一項重要指標,但對新的論文,仍會造成冷啟動問題,另外有研究結合語義. 2.

(12) 擴展網絡,做為推薦的方法,但在建立與修改語意擴展網路時,皆需要有專家協 助,較為不方便維護(楊永芳, 2002)。 美國研究圖書館協會於 2002 年提出布達佩斯開放獲取計劃(Budapest Open Access Initiative),定義開放取用,係指允許用戶閱讀、下載、複製、傳播、列 印、搜尋、分享與取用進行索引,若符合此種精神且無須註冊的期刊被稱作開 放獲取期刊(Open Access Journal, OA Journal) (Association of Research Libraries [ARL], 2002)。 開放獲取期刊是以作者付費,讓讀者免費取閱下載的方式進行,此種方式受. 治 政 大 Scientific Information, ISI)研究後,開放與否對期刊的影響力並無差別,而開放取 立. 到質疑論文的水準是否受到影響而下降,但經美國科學資訊研究所(Institute for. 用是否影響期刊水準的質疑聲浪也就此破除。開放獲取期刊經過學者的同儕審查. ‧ 國. 學. 再以網際網路做為媒介,讓研究能見度提高,有興趣的一般民眾也能獲取,擴散. ‧. 知識的傳遞,加速了學術的發展,促進研究的進行,另一方面也對學術研究者的. y. Nat. 生涯發展有所幫助,對學術界整體而言更是帶來了龐大的公共利益。在開放獲取. er. io. sit. 的發展下,學術期刊網站被搜尋以及利用的可能性大幅度的提升,但對於免去註 冊開放學術論文雖讓使用者能夠以免費又快速的方式獲取過去看不到的論文,相. n. al. Ch. 對的過多的資料也對使用者造成負擔。. engchi. i n U. v. 隨著開放獲取期刊逐漸發展截至 2014 年止,在 Directory of Open Access Journals (DOAJ)上註冊的期刊已有 10,157 個,開放獲取期刊已不容忽視,因此學 術論文推薦系統應考量開放獲取的特色與限制,如何能在更少的使用者資訊的情 況下,卻有相同甚至更好的使用者滿意度,此問題成為學術論文推薦系統現今發 展需要考慮的重點。. 第二節 研究目的 國際學術期刊的論文數量,過去成長非常快速,能夠主動推薦優質的論文,. 3.

(13) 協助學者快速取得有興趣且有用的論文對研究工作的進行會有很大的貢獻。目前 雖然已有些期刊網站有這項功能,但是目前的方法仍有些問題。 因此,本研究主要目的如下: 開發一個針對學術期刊論文推薦的個人化推薦機制,改善於期刊網站瀏覽之 使用者體驗,提升期刊論文網站的品質及滿意度,並驗證其推薦相關文章的績效。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 4. i n U. v.

(14) 第二章 文獻探討 第一節 推薦系統定義與概述 推薦機制並不是最近才開始的研究,在 2000 年的.com 泡沫之前,就有許許 多多的研究發表。有效的推薦機制可以提升電子商務網站的購買率,提升多媒體 網站的黏著度,對於網站經營者而言是一個非常重要的課題。 推薦系統源自於認知科學、資訊檢索、預測理論等(蔡松霖, 2013),其目的以 個性化為主軸,給予使用者獨特且符合需求的項目,降低使用者的搜尋成本,. 政 治 大 建議或是口耳相傳來做為決定的依據,而加強與輔助此種社會過程,正是推薦系 立 Resnick & Varian認為人們在經驗不足的情況之下,面臨決策之時,會依靠他人的. ‧ 國. 學. 統的目的(1997)。推薦系統應用範圍泛常用於電子商務、新聞、音樂、電影與圖 書館等系統上。. ‧. Bobadilla et al. (2013)的回顧性研究中,整理出未來推薦系統之發展,將著重. sit. y. Nat. 於推進現有的方法與算法,以提高推薦的品質,並點出七個研究方向. al. er. io. 1. 使用不同類型的有用資訊做為資料輸入,並混合現有推薦方法。. v. n. 2. 基於網路並透過各種裝置以獲取使用者的個人化資料,透過這些新的資料進 行推薦。. Ch. engchi. i n U. 3. 在推薦的過程中,獲取並整合使用者的習慣、購買與品味的趨勢。 4. 對非推薦用途(如市場研究、一般的趨勢與人口特徵統計)的 RS 資料庫探勘。 5. 加強推薦過程中的安全性與隱私性。 6. 新的評估方法與發展非標準化的評估方法。 7. 設計具有彈性,能分析各種異質資料的框架。. 第二節 相關研究 推薦系統的研究方向可分為兩部分,一個是學理研究,專注研究推薦系統的 方法論,如發展新的演算法、提升演算法的準度與速度,另一部分則是特定推薦 5.

(15) 項目的應用研究,針對不同項目的特性,研究各種方法應用於特定推薦項目的效 果如何,或結合各種不同方法進行推薦的機制研究。 本研究針對最多學者研究的電子商務與電影推薦系統應用,以及與本研究最 為相關的圖書館系統和本研究主題學術論文推薦等,以上四大應用領域之相關研 究回顧。. 一、電子商務應用領域 電子商務是推薦系統的最主要應用領域之一,它直接影響了企業營收,因此. 治 政 大 的資料數聚集當中,藉著降低數據集維度,改善電子商務網站因商品數目龐大、 立. 大量的研究都聚集於此應用領域,Sarwar, Karypis, Konstan, & Riedl (2000)在真實. 使用者眾多,資料矩陣稀疏,進而造成推薦效果不佳的情形,雖然研究結果發現. ‧ 國. 學. 透過降低資料維度的做法,確實有效改善其問題,但 Sarwar 也指出並非所有的. ‧. 被推薦項目都能夠適用這個方法。Kim et al.(2001)提出混合協同推薦與內容式過. y. Nat. 濾推薦方法兩種方法的推薦系統於電子商務領域之中,在實驗結果中發現,其成. er. io. sit. 效較傳統使用單一方法好,且更發現了,該方法應用於電影的推薦會比用於電子 商務領域來的更為出色。Amazon 做為全球電子商務龍頭,對於推薦系統的重視. al. n. v i n 不同於一般網站,並且具有相當的貢獻,Linden, Smith & York (2003)公開發表了 Ch engchi U. Amazon 內部所採用 item to item 的推薦模式,打破過去協同過濾以顧客與顧客之 間的相似度為推薦基礎的想法,改以項目之間的相似度,解決過去因向量矩陣稀 疏而運算負荷過高、時間過長的問題,但推薦精準度較傳統方法略低。 此後的研究有越來越多的研究與新興的議題、技術相結合,Kim & Kim(2008) 嘗試結合不同的技術,將語意網路技術應用於電子商務的推薦系統之中,設計一 推薦系統框架,其結果優於大多採用關鍵字推薦方法的購物網站,但需要有更多 的實驗驗證該框架,在語意網路應用於推薦系統上的研究更進了一步。有研究希 望以更全面的的看法來看待推薦系統(wang & wu, 2012),思考角度應該站在供應 商利潤做為出發點,提出策略性導向推薦模組,整合推薦過程中的三大階段,資 6.

(16) 料輸入、預測以及輸出結果,從實驗結果中,證明了對於企業的利潤有相當的提 升。Palopoli, Rosaci & Sarné (2013)回歸於整體系統面的討論,針對系統實做的部 分提出了質疑,研究表明現在許多的電子商務工具透過自動化推薦協助顧客,但 系統的計算運行效率不佳,且需要過度仰賴一定程度的設備,並在研究中對此提 出一個分散式架構推薦器,除了不會有龐大的計算任務外,且具有開放性、安全 性與私密性等優勢。 表 2-1 電子商務應用領域文獻整理 篇名. Sarwar, B.,. Analysis of Recommendation. Karypis, G.,. 摘要. 嘗試應用降低資料庫維度 政 治 大 的做法於電子商務的應用 Algorithms for e-Commerce 立 之中,有效改善其問題,並. 學. ‧ 國. Konstan, J.,. 非所有的被推薦項目都適. & Riedl, J.. ‧. Kim, B.-D.,. A new recommender system. 提出混合協同推薦與內容. & Kim, S.-. to combine content-based and. 式過濾推薦方法於電子商. al. n. collaborative filtering. Ch. systems. 2003. engchi. sit. io. O.. y. Nat. 2001. 用這個方法。. er. 2000. 研究學者. 務領域之中,發現用於電影. iv n U 的推薦比電子商務來的更 為出色。. Linden, G.,. Amazon.Com. 採用 item to item 的推薦模. Smith, B.,. Recommendations: Item-to-. 式於 Amazon,解決過去的. & York, J.. Item Collaborative Filtering. 運算問題,但推薦精準度較 傳統方法略低。. 2008. Kim, W.,. Agent based intelligent search 將語意網路技術用於電子. Choi, D. W., framework for product. 商務的推薦系統之中,其結. & Park, S.. 果優於大多採用關鍵字的. information using ontology. 7.

(17) 2012. mapping. 推薦。. Wang, H.-. A strategy-oriented operation. 提出策略性導向推薦模組,. F., & Wu,. module for recommender. 整合推薦過程中三大階段,. C.-T.. systems in E-commerce. 從實驗結果中,證明了對於 企業的利潤有幫助。. 2013. Palopoli, L., A Multi-tiered Recommender. 提出一個分散式架構推薦. Rosaci, D.,. System Architecture for. 器,不會有龐大的計算,且. & Sarné, G.. Supporting E-Commerce. 具開放性、安全性與私密性. M. L.. 立. 二、電影的推薦. 等優勢。 政 治 大. ‧ 國. 學. 電影的特性十分適合透過推薦系統進行協助,同樣一部電影,每個人的觀感. ‧. 不盡相同,喜歡的類型也是,因此電影領域的推薦系統也有許多研究者相繼投入. sit. y. Nat. 研究。電影推薦當中,以協同過濾做為推薦方法是最為常見的,如. io. er. "MovieFinder.com","MovieLens","IMDB",廖學毅(2007)將協同推薦的兩大方法 商品相關性與使用者相關性於電影推薦項目中相比較,發現以商品相關性進行的. al. n. v i n Ch 電影推薦,效率較佳。除了協同過濾之外,內容過濾與協同過濾也是經常用到的 engchi U. 推 薦 方 法, 成 功 解決 使 用 者資 訊 搜 索與 個 性 化建 議 , Christakou, Vrettos & Stafylopatis(2007)將內容過濾與協同過濾兩者方法結合,將神經網路資料訓練後, 得出單一個別用戶之喜好,再將得到的結果利用 Boolean and fuzzy aggregation operators 進行推薦,其所提出的混合推薦系統是在 MovieLens 測試數據上,得到 高精度的預測水準。邱建豪(2008)以過去研究發現的分群結合技術優於單一分群 技術的文獻為基礎,以分群結合技術再結合單一分群技術,發現有更佳的效果, 以 MovieLens 資料集為基礎,得出 SOM 技術的分群結合技術 HGPA 是最好的方 法應用。冷啟動問題是推薦系統常見的問題,於電影推薦領域也是一樣,若新的. 8.

(18) 使用者一開始得不到良好的推薦,如此一來,使用者變會對推薦系統產生不信任 感,許多方法雖能有良好的精確度,推薦好的項目給予使用者,但並沒有歷史紀 錄足以進行計算,Jesús 提出必須以新的相似指標做為標準,在研究中運用神經 學習,於 Netflix 和 Movielens 數據庫中實驗,獲得超越研究當時所有的相似度指 標的良好成果。. 表 2-2 電影應用領域文獻整理 研究學者 2007. 篇名. 摘要. 將商使用者相關性比較,發現以 政 治 大 薦之系統實做 商品相關性進行的電影推薦,效 立. 廖學毅. 動態協同式過濾推. C., Vrettos,. recommender system 結合,將資料訓練後,得出單一個. S., &. based on neural. 別用戶之喜好,具有高精度的預. networks. 測水準。. sit. io. al. v i n Ch 使用分群結合技術 i U e n g c h分群結合技術再結合單一分群技. n. 邱建豪. er. Nat. y. ‧. A hybrid movie. A.. 2012. 把內容過濾與協同過濾兩者方法. Christakou,. Stafylopatis,. 2008. 學. 2007. ‧ 國. 率較佳。. 增進線上產品的推. 術,發現有更佳的效果,得出 SOM. 薦–以 MovieLens. 技術的分群結合技術 HGPA 是最. 為例. 好的方法。. Bobadilla, J.,. A collaborative. 以新的相似指標做為標準,在研. Ortega, F.,. filtering approach to. 究中運用神經學習,獲得超越研. Hernando, A.,. mitigate the new. 究當時所有的相似度指標的良好. & Bernal, J.. user cold start. 成果。. problem. 9.

(19) 三、圖書館應用領域 圖書館因為龐大的館藏,經常仰賴資訊檢索與推薦系統的幫助,協助讀者快 速取得在巨量館藏中之所需,余明哲(2001)指出圖書館的價值不在於館內的設備 與館藏,而是在於館藏的利用頻率,圖書的數目多寡不是重點,重點在於館藏被 多少人所需要與閱讀、利用率之高低,該研究中,以交通大學浩然圖書館做為實 驗網站,先關聯規則找出習慣相同者,再以內容過濾進行推薦,其結果發現此做 法能找出較為冷門的書籍,並提升使用者滿意度。羅子文(2007)將 web2.0 的概念. 治 政 大 對圖書的回饋資料,將館藏重新分類,有別以往的推薦方法,在成效上獲得使用 立 融入至圖書館推薦系統之中,透過推薦清單以及社會性標記等功能,希望由讀者. 者的肯定,但在推薦精準度成效較差。. ‧ 國. 學. 陳慧玲(2007)則是以讀者的個人借閱記錄做為推薦之資料集基礎,將本體論. ‧. 與推薦系統結合,運用個人本體論與圖書館分類,分析出讀者感興趣的主題分類,. y. Nat. 接著以內容過濾導向的關鍵字擷取技術進行推薦,有效地為每位讀者進行個人化. er. io. sit. 推薦,而後有研究接續其成果(許正怡,2008),在個人本體論的模型基礎之上, 再結合協同式過濾,依據每位讀者過去記錄,找出與讀者最相似的一群人,透過. al. n. v i n 這些相似讀者的個人本體論,推薦給讀者過去尚未被探索過的主題推薦清單。運 Ch engchi U. 用個人本體論做為推薦方法,雖具有相當精準度,但效能不佳令人詬病。近年因 雲端運算相關議題興起,郭秉仁(2012)應用雲端技術 MapReduce 的運算優點,將 本體論實做運行於 MapReduce 的計算之上,經由實驗結果證明,利用 MapReduce 技術有效提升系統的計算效能,能夠解決本體論結合協同過濾的運算問題。. 表 2-3 圖書館藏應用領域文獻整理 研究學者. 篇名. 摘要. 10.

(20) 2001. 余明哲. 圖書館個人化館藏推 以交通大學浩然圖書館做為實驗網 薦系統. 站,先關聯規則找出習慣相同者, 再以內容過濾進行推薦,其結果有 效提升使用者滿意度。. 2007. 羅子文. 使用分群結合技術增 將 Web2.0 的概念應用至圖書館推 進線上產品的推薦– 薦系統之中,有別以往的推薦方法, 以 MovieLens 為例. 2007. 陳慧玲. 在成效上獲得使用者的肯定。. 植基於個人本體論的 分群結合技術再結合單一分群技. 政 治 大 中興大學圖書館為例 技術的分群結合技術 HGPA 是最好 立 圖書館推薦系統—以 術,發現有更佳的效果,得出 SOM. 許正怡. 學. 2008. 植基於個人本體論模 在個人本體論的模型基礎之上,結 型與合作式過濾技術 合協同式過濾,透過相似讀者的個. ‧. ‧ 國. 的方法。. sit. y. Nat. 之中文圖書館推薦系 人本體論,推薦給讀者過去尚未被. 基 於 個 人 本 體 論 與 個人本體論做為推薦方法效能不. al. v i n C h技術之圖 佳,研究中發現 MapReduce MapReduce 技術有 engchi U n. 郭秉仁. io. 2012. 探索過的主題推薦清單。. er. 統. 書推薦系統. 效提升系統的計算效能,解決運算 問題。. 四、學術論文應用領域 學術論文推薦系統的研究中與電子商務、電影、音樂等娛樂項目的研究數量 有很大的落差,過去的研究不斷嘗試以新的方法進行推薦,下表 2-4 是本研究整 理了近年學術論文推薦的相關應用研究. 11.

(21) 表 2-4 學術推薦系統既有的推薦方法 構面. 研究之作法. 優缺點. 研究學者. 多準則決策. 透過使用者偏好的資料收 其中以引用數權重最. Matsatsinis. 法研究. 集以達個人化目的,並以 高,引用數是一項重. et al. 2007. 多標準決策分析技術. 要指標,但對新的論. (Multiple-Criteria Decision 文,會造成冷啟動問 Aiding, MCDA)做為推薦. 題. 準則,並以七個決策標準. 政 治 大 結合語義擴展網絡概念, 建立與修改語意擴展 立 加權後做為推薦標準. 語意擴張法. 由專家建立該知識領域之 網路時,皆需要有專. 學. ‧ 國. 研究. 語意擴展網路並給予權. ‧ sit. y. Nat. 的基準. er. 結合以協同過濾建立潛在 結合多個模型找到與 Koren,2008. io. 因子模型並結合最近鄰居 自 己 最 相 似 的 使 用. al. v i n Ch 模型建立更精確的擴展模 , i U e n g c者h,達到過濾的效果 n. 研究. 2008. 家協助,不方便維護. 重,結合關鍵字做為推薦. 推薦模型. Liang et al.. 型. 但忽略文件之間的關 聯性,可能與使用者 當下所讀的文獻並沒 有關聯性. 上下文感知 引用推薦. 研究中發展了一種非參數 適用於撰寫論文情. He et al. ,. 的概率模型,可以根據內 境,能推薦有價值的. 2010. 文計算出與文獻的相關. 引用文獻. 度,推薦適合內文引用的. 12.

(22) 文獻 基於歷史. 依據使用者的對文章的評 向量空間模型能計算. Wang et al.,. 記錄推薦. 分、註解評論以及對文章 文章內容的相似度,. 2012. 標籤,此三種行為對使用 但無法分辨文章優劣 者喜好做區別,以概率模 型計算使用者相似,再計 算詞頻建立向量空間模 型,推薦文章給使用者 最近鄰居法. 政 治 大 為基礎,並透過最接近鄰 似,會一同推薦給學 立 以學者本身的研究著作做 若兩篇文章的主題相. 2013. 者,其品質無法有效. Neighbors, KNN)並以向. 學. ‧ 國. 居演算法(K-Nearest. Lee et al.,. 的區分,另外對新進. ‧. 量餘弦計算相似度,找出 研究者並不友善,一. sit. y. Nat. 與學者相關著作最相似的 篇研究需長時間的進 行,這段期間並無法. io. n. al. er. 論文. 進行有效的推薦,因. v i n Ch 此會有使用者冷啟動 engchi U 問題. 第三節 推薦系統分類 Resnick, Iacovou, Suchak, Bergstrom & Riedl (1994)將推薦方法分成三類 (1) 內容基礎過濾(Content-based Filtering) (2)協同式過濾 (Collaborative Filtering) (3) 經濟式過濾(Economic Filtering),後來有回顧性研究以(1)內容基礎過濾(Contentbased filtering) (2)協同式過濾 (Collaborative Filtering) (3)混合式(Hybrid-based)三 者做為分類(Adomavicius & Tuzhilin, 2004)是最常見的分類方法,隨著相關研究. 13.

(23) 越來越多,有了許多不同的推薦方法,Kantor, Rokach, Ricci & Shapira (2011)在 「Recommender systems handbook」一書中將推薦重新分成以下六大類 1.. 內容基礎過濾(Content-based). 2.. 協同式過濾(Collaborative Filtering). 3.. 基於用戶統計資訊(Demographic-based). 4.. 基於知識 (Knowledge-based). 5.. 基於社群(Community-based). 6.. 混合式(Hybrid). 政 治 大. 此六類涵蓋了大多數的推薦方法,以下分別對這些方法做個介紹。 一、內容基礎的過濾. 立. 此方法依據對項目的分析,而非依靠使用者的評價,藉由項目找出使用者可. ‧ 國. 學. 能會感興趣的特徵,再向推薦符合特徵使用者可能會喜歡的項目,因使用項目的. ‧. 特徵做為推薦的基礎,因此又稱此方法為特徵式推薦(Feature-based)。計算項目之. y. Nat. 間的向量餘弦值是常用的方法之一,先將文件轉成為向量空間模型(Vector Space. er. io. sit. Model, VSM) ,再計算相似度,餘弦值大,代表兩者之相關性高,反之則相關性 低(Salton, Wong & Yang, 1975),透過文件間的相似度進行推薦,且能夠在線下先. al. n. v i n 行計算相似度,減低線上計算的需求,對使用者的影響較小。 Ch engchi U 二、協同式過濾. 協同過濾的概念最初由 Goldberg, Nichols, Oki & Terry(1992)提出,最初目的 在於解決電子郵件過多的問題,幫助員工解決資訊超載,其精神希望透過群眾的 力量進行過濾,主要概念是透過相似喜好的使用者,來預測使用者個人偏好,來 協助進行過濾,產生更好推薦給使用者,協同過濾又可分成 User-based 與 Itembased 兩種。 . User-based:依照使用者過去對項目的評分為資料基礎,對目前所選取項目 進行評分預測,與使用者的預測評分越接近的用戶,可以推測他們具有相似 14.

(24) 的品味,再推薦這些用戶有興趣的商品給該名使用者,因他們有共同的品味, 所以其他同好的所看的項目,他也有可能會喜歡。 . Item-based: User-based 發展一段時間,推薦的效果良好,但時間一長,使 用者資料也跟著變多,效能開始下降,學者 Sarwar 假設「使用者感興趣的 項目,必定與之前給予評分高的項目相似」的前提下,提出直接計算項目與 項目之間的相似度,取代計算使用者之間的相似度,並以相似度做為權重, 乘上過去評分,得出預測的評分 ( Sarwar, Karypis, Konstan & Riedl, 2001)。. 治 政 大 k個 以使用者的用戶基本資料進行推薦,以用戶資料進行相似度計算,找出 立. 三、基於用戶統計資訊的推薦. 最相似的使用者,在將他們曾購買或瀏覽過的項目推薦給該名使用者,不需要使. ‧ 國. 學. 用者的歷史資料進行分析,效率較佳,雖具個人化特色,但使用者傾向方便快速,. ‧. 不見得會填寫詳細的個人資料,而計算出的可信度是此方法最大的問題,資料相. sit er. io. 四、基於知識的推薦. y. Nat. 似的用戶,興趣不見得相同,推薦物品間也不會有相關性,此方法較少單獨使用。. al. n. v i n 在特定領域知識為基礎上,了解項目特色以及為何可以滿足使用者需求,進 Ch engchi U. 而產生對使用者而言是有用的推薦項目。此類型推薦系統是以案例做為系統基礎, 計算使用者的問題描述與建議的項目之間的相似度進行推薦,並沒有以使用者偏 好與過去紀錄做為推薦基礎,因此不會有冷啟動的問題,系統啟用初期的效果也 較其他方法佳,但若不具備學習機制,時間一長,效果就不如其他方法。. 五、基於社群的推薦 近年 Facebook、Twitter 等社群網站開始發展,基於群體的推薦方式開始受 到關注,以朋友喜歡的你也有可能會喜歡為主要構想,此種方法是以認識的朋友 所購買或瀏覽的項目推薦給使用者,Sinha & Swearingen (2001)指出,相較於匿名 15.

(25) 者所推薦的項目,人們傾向於選擇依據朋友的歷史行為所產生推薦的項目,此類 型目前仍屬早期研究階段,Jianming & Wesley (2010)的實驗中,在數據稀疏度與 冷啟動問題上較傳統 CF 有更好的效果。. 六、混合式推薦 各種推薦方式都有其優缺點,以混合的方式結合一種以上的方法,取各方法 的優點,並彌補互相的缺點,是混合式推薦方法的主要概念,其中又以內容基礎 過濾與協同過濾的混合最普遍。. 立. 政 治 大. ‧ 國. 學. 第四節 推薦系統常見問題 2.4.1 推薦系統的共同問題. ‧. (1) False Negative 與 False Positive. y. Nat. sit. False Negative 與 False Positive,前者意指使用者感興趣的產品或項目,該推. n. al. er. io. 薦而沒推薦,後者則是推薦的產品或項目,使用者不感到興趣,Sarwar, Karypis,. i n U. v. Konstan & Riedl (2000)指出此兩種錯誤會影響使用者對系統的不信任,在電子商. Ch. engchi. 務領域,特別要避免 False Positive,但不論用於何種領域,推薦使用者他們不感 興趣的項目,都會讓使用者對推薦系統失去信心。. 2.4.2 協同推薦系統的常見問題 除了上述共同的問題,協同推薦系統還有下列特有問題(Breese, Heckerman & Kadie, 1998; Sarwar, Konstan, Borchers, Herlocker, Miller & Riedl , 1998; Sarwar et al., 2000) (1) 冷啟動 冷啟動又可對使用者與被推薦的產品或項目來做說明 16.

(26) 1.. 對使用者而言 新加入的使用者,因為沒有歷史購買或瀏覽紀錄,推薦系統無法分析與 新使用者最相似的使用者為誰,此問題為協同推薦系統的通病。. 2.. 對項目而言 新加入的項目,因為還沒有使用者瀏覽、購買或尚未有使用者對其評分, 協同推薦系統無法將新的項目推薦給使用者。. (2) 稀疏性 在使用者使用系統過程中,鮮少主動會為項目進行評分,系統的評分矩陣資. 政 治 大. 料會因此顯得零散,如此一來基於使用者為項目評分而計算得出的相似度會 受影響,推薦品質不佳。. 立. (3) 同義詞. ‧ 國. 學. 不同的詞彙,但具有相同意義,或者名稱相同,但意義不同,系統無法區分. y. Nat. (4) 擴充性. ‧. 差別。. er. io. sit. 採用最接近鄰居法(k-Nearest Neighbors, kNN),計算複雜度與使用者數量成平 方關係,當使用者與系統項目越來越多,計算負載變高,會嚴重影響系統的. n. al. 運行速度。. Ch. engchi. i n U. v. 2.4.3 內容基礎推薦的常見問題 (1) 內容導向. 當內容為聲音、圖片、藝術品、影像等,需要再透過人工方式,解析其內容 特徵屬性。 (2) 無法為內容做出區別 內容基礎推薦僅針對內容,無法對品質、風格、使用者觀點等,若內容主題 與內容特徵相同,也無法過濾其品質上的差異。 (3) 過度特定化. 17.

(27) 內容基礎推薦對使用者過去瀏覽的內容找出相似的,做為推薦,卻無法推薦 與過去不同且對使用者具有意義的推薦,因此具潛在推薦可能性的產品變失 去被看到的機會。. 第五節 關聯規則探勘 2.5.1 關聯規則之定義與目的 隨著資料儲存技術的發展,人們希望在龐大的資料中,找出隱含當中有用的 資訊,而關聯規則分析正是其中一項技術,最早是由 Agrawal, Imieliński &. 政 治 大. Swami(1993)提出,由於條碼機的幫助,得已將每筆交易記錄下來,找出在資料. 立. 庫中被隱藏的項目間關係,大型資料庫,透過這些被找出來的規則,用以制訂出. ‧ 國. 學. 更好的與銷售策略。購物籃分析是關聯規則最常被用來闡述的例子。 Agrawal et al.對關聯規則最初的問題定義中,令I = {𝑖1 , 𝑖2 , … 𝑖𝑛 },為購物籃中. ‧. 所有項目之集合,D = {𝑡1 , 𝑡2 , … 𝑡𝑛 }為交易資料庫 D 中,所有交易之集合,t ⊆ I. y. Nat. sit. 每筆交易 t 為 I 的非空子集合,且每筆交易有各自獨立不重複的交易 ID,關聯規. al. n. 定閾值進行判定。. er. io. 則之形式可以以X → Y表示,X, Y ⊆ I且X ∩ Y = ∅,而關聯規則的強度可以自行設. Ch. engchi. i n U. v. 最小支持度閾值(Minimum Support)與最小信賴度閾值(Minimum Confidence) 此兩者為關聯規則最常使用之閾值,數值大小介於 0 到 1 之間,若該規則的支持 度與信賴度能大於或等於最小支持度閾值與最小信賴度閾值則稱做強規則 (Piateski & Frawley, 1991),也可將符合此兩閾值視為成為有效規則的門檻值。 支持度在關聯規則分析的過程中是一種刪除策略,對於支持度較低的規則而 言,推薦給使用者不會有太大的幫助,若設定的支持度過低,容易犯 False negative 的錯誤;信賴度用以測量規則的推論可靠度,較高的信賴度代表,Y項目包含於 X項目的交易中出現的可能性高,以下為兩者表達式。. 18.

(28) Support(X → Y) =. ∑(𝑋 ∪ 𝑌) = 𝑃(𝑋 ∪ 𝑌) 𝑁. Confidence(X → Y) =. (1). ∑(𝑋 ∪ 𝑌) = 𝑃(𝑌|𝑋) ∑𝑋. (2). 2.5.2 關聯規則探勘方法. 政 治 大 Apriori 為關聯分析中常用的基本演算法也是最經典的一個 立. Apriori 演算法. (Agarwal &. ‧ 國. 學. Srikant, 1994),其目的是從海量資料中,找到項目與項目之間的關聯規則,常用 於電子商務中的購物籃分析,由於 Apriori 需要不斷生成候選項目隊列和不斷得. ‧. 掃描整個數據庫進行比對,因此效率不佳、令人詬病。. y. Nat. er. io. sit. FP-Growth 演算法. al. v i n Ch 算法,是目前挖掘關聯規則的演算法中,最主要的演算法之一,由獨特的 FP-tree engchi U n. Jiawei H., Jian P., Yiwen Y. (2000) 提出 FP-Growth(Frequent Pattern Growth)演. 資料結構發掘出具有關聯性的項目組合,這些組合又稱做高頻項目集。 FP-Growth 因使用 FP-tree 做為儲存的資料結構,具有壓縮資料的特色,並 且能夠跳過產生候選模式的過程,從 FP-tree 結構中直接取出高頻項目集,與 Apriori 演算法不同之處在於,無需一再生成候選項目隊列並掃描整個資料庫進 行比對,僅需對資料庫做兩次掃描,大幅降低讀取資料庫的次數,Jiawei H. et al.(2000)的研究中表示,FP-Growth 在大型數據庫的執行速度相較於 Apriori 的效 率快上一個量級,且效率會隨著支持度的降低越加明顯。 FP-Growth 存取資料庫的次數少、需要的執行資源較小以及執行效率佳,因. 19.

(29) 此後來有許多研究以 FP-Growth 為基礎發展,學理研究的 FP-Growth-like 發展如 Wang, Tang, Han & Liu 於 2002 將 FP-Growth 改良,提出 TD-FP-Growth,將原先 FP-tree 的 Header table 加上計數欄位,用以記錄支持度個數,並由計數欄由上至 下進行探勘,在遞迴過程中不需再建立條件 FP-tree,大幅減少記憶體空間與 CPU 執行時間。 Lin, Hong & Lu 提出 FUFP 演算法,在資料新增時,一同更新 FP-tree 上之節點,不需另外再重新建立 FP-tree (2009),Xiaoyun, Yanshan, Pengfei, Shengfa, Weiguo & Min 提出 HPFP-Miner,發展一種新的平行高頻項目集挖掘演算法,解 決大型資料庫須橫跨多個資料庫,以及多個處理器需要可擴展的彈性問題,實驗. 治 政 大 IMDb(Internet Movie Yilmazel 於 Apache Mahout 的架構下實做 FP-Growth,並以 立. 結果表明 HPFP-Miner 具有良好的擴展性與性能。在應用研究方面 Arslan &. Database)的關鍵字詞庫為分析來源,其研究發現以電影關鍵字做為分析,同義詞. ‧ 國. 學. 間容易形成關聯,LUO & LI 改善 FP-Growth 演算法於大量資料中進行遞迴探勘. sit. n. al. er. io 第六節 小結. y. Nat. 的成效(2010)。. ‧. 之效率,並於一個實際的電子商務網站上,以真實資料進行實驗,並且得到良好. Ch. engchi. i n U. v. 關聯規則分析起源於購物籃分析,本研究將此概念應用於學術論文推薦上, 每篇文章即購物籃,透過詞頻分析得出的特徵值則為商品,本研究選用 FPGrowth 演算法,從特徵值所建立的 FP-tree 之中,抽取出規則進行推薦。. 20.

(30) 第三章 研究方法 第一節 設計科學的研究方法 資 訊 技 術 研 究 主 要 可 分 為 自 然 科 學 (natural science) 及 設 計 科 學 (design science)。自然科學包含:發現(discovery)即產生或提出科學論斷的過程,目的在 於將之理論化,證明(justification)以透過藉由確認案例來輔佐證明,目標在瞭解 原因並能夠解釋其現象。設計科學包含:建造(build)指針對某特定目的製造人造 物的流程,評估(evaluate) 測定某人造物執行有多好的流程 (張景堯,2008)。本 研究屬於設計科學,並採用 Nunamaker, Chen & Purdin 所提出的系統發展研究法 作為本研究之研究方法(1990)。. 立. 政 治 大. Nunamaker et al.對於資訊系統所提出的多元方法論中,將系統發展研究流程. ‧ 國. 學. 分為五大活動,依序為建構概念框架(Construct a Conceptual Framework)、發展系 統架構(Develop a System Architecture)、分析及設計系統(Analyze & Design the. ‧. System)、建造系統雛形(Build the Prototype System)、觀察及評估系統(Observe and. y. Nat. sit. Evaluate the System)。學者張景堯將設計科學與系統發展研究流程做了整理如圖. n. al. er. io. 3-1,將發展系統架構、分析及設計系統、建造系統雛形此三者結合成發展資訊系. i n U. v. 統,此一活動與建構概念框架屬於設計科學中的建造階段,觀察及評估系統活動 屬於評估階段。. Ch. engchi. 本研究之研究流程以學者張景堯整理的設計科學與系統發展研究流程為依 據,各階段流程說明如表 3-1。. 21.

(31) 建構概念框架 發展系統架構. 建 發展資訊系統. 分析及設計系統. 造 建造系統雛形. 立. 圖 3-1 設計科學與系統發展研究流程. sit er. al. n. 建構概念框架. 各階段工作描述. io. 研究流程. Nat. 表 3-1 本研究之研究流程工作描述. 分析與設計系統 建造系統雛形 觀察及評估系統. v. 了解現行推薦系統的發展與期刊網站推薦系統的問題,並提出. Ch. engchi. 研究動機與研究目的 發展系統架構. y. ‧. ‧ 國. 觀察及評估系統. 學. 評 估. 政 治 大. i n U. 定義推薦系統概念架構,選擇推薦方法 了解JECR期刊網站現行之網站架構,並設計資料庫架構 實作系統概念架構與各演算法模組於JECR期刊網站 評估本研究推薦系統之成效. 第二節 期刊網站現況 國際學術期刊網站是人類知識發展的前哨,到國際學術期刊搜尋論文是進行 各種尖端研究的第一步。在論文搜尋的過程中,同時影響了研究的進行,隨著網 22.

(32) 際網路的發展,開放這件事開始流行,學術研究的成果應開放於大眾取閱的開放 取用,這樣的想法正是開放取用(Open Access)的精神,布達佩斯開放獲取計劃 (Budapest Open Access Initiative)定義開放取用,係指允許用戶閱讀、下載、複製、 傳播、列印、搜尋、分享與取用進行索引,若符合此種精神且無須註冊的期刊被 稱作開放獲取期刊(Open Access Journal, OA Journal) (Association of Research Libraries [ARL], 2002)。 開放獲取期刊是以作者付費,讓讀者免費取閱下載的方式進行,此種方式受 到質疑論文的水準是否受到影響而下降,但經美國科學資訊研究所(Institute for. 治 政 大 用是否影響期刊水準的質疑聲浪也就此破除。開放獲取期刊經過學者的同儕審查 立 Scientific Information, ISI)研究後,開放與否對期刊的影響力並無差別,而開放取. 再以網際網路做為媒介,讓研究能見度提高,有興趣的一般民眾也能獲取,擴散. ‧ 國. 學. 知識的傳遞,加速了學術的發展,促進研究的進行,另一方面也對學術研究者的. ‧. 生涯發展有所幫助,對學術界整體而言更是帶來了龐大的公共利益。在開放獲取. y. Nat. 的發展下,學術期刊網站被搜尋以及利用的可能性大幅度的提升,但對於免去註. 對的過多的資料也對使用者造成負擔。. al. er. io. sit. 冊開放學術論文雖讓使用者能夠以免費又快速的方式獲取過去看不到的論文,相. n. v i n 推薦機制源起於電子商務,為提升消費者之消費,因而開始發展推薦機制以 Ch engchi U. 促進消費,增加企業營收,後來許多網站系統也相繼開始使用推薦機制。為推薦 項目標上標籤或給予關鍵字,根據相同的標籤或關鍵字給予推薦屬最基本的方法; 另外有部分類型網站,因操作與機制需要使用者註冊帳號與填寫興趣導向資料, 而在開放獲取期刊上應以不註冊即開放為原則,仍有網站希望以推薦更精確的期 刊文章給予使用者而要求註冊帳號填寫感興趣的領域;另一種則以顯性評分的方 式進行推薦,以使用者對文章的評分回饋做為推薦基準,但都對使用者造成困擾, 在資料上的收集也不易取得。. 23.

(33) 第三節 推薦系統設計 過去的研究有許多的結論都是相同的,皆表示了不同的推薦項目,會有不同 的特性,所適合的推薦方式也會有所不同,沒有一個推薦方式能夠稱的上是最好 的方法,不同的資料特性、資料內容、使用的演算法與推薦方式都會影響推薦的 結果。 以文章類型為例,新聞與論文雖然都是文章,但卻有所差別,新聞的閱讀需 求在於了解最近發生的事件,或是針對一個事件做了解,因此使用者希望得到的 推薦偏向主題事件與其他有趣的新聞;論文是以研究為其目的,使用者會在特定. 政 治 大 有所差別;再以此兩者為例 立,若以基於群體的推薦系統,做為此兩者的推薦方式,. 領域感興趣,希望系統推薦的是與閱讀習慣有關的優質論文,在使用者期望上,. ‧ 國. 學. 推薦給讀者,在其社群中,朋友讀了哪些新聞,可以推測與讀者連結較高的朋友, 品味可能會相同,且基於社群概念下,讀者會更加有興趣,反觀論文是以個人興. ‧. 趣為出發,社交圈的連結與專業領域不見得相關,如此一來推薦便沒有價值。. al. y 論文. n. 閱讀導向. sit. io 知識結構. 新聞. er. Nat. 表 3-2 新聞與論文性質比較. 事件. Ch. 社群需求. i n U. v. 領域的知識架構. engchi. 了解時事. 興趣 研究領域. 設計推薦方法前需要先考量學術研究論文的特性,其具有領域知識結構,過 去有研究(楊永芳,2002)以語意網絡實現,但需專人維護以及無法對內容的優劣 做出區別,若以關聯規則分析即可將知識結構的關聯作業自動化,而協同過濾正 可達到區別內容過濾的問題,其伴隨的冷啟動問題也能藉由關聯規則分析解決, 新的文章能因其特徵符合關聯規則被發掘,不受限於協同過濾須要先被瀏覽的限 制,新的使用者也能透過起初瀏覽文章的特徵找到相似的文章,方法兩相互補, 24.

(34) 因此本研究以混合協同過濾與關聯分析做為主要的推薦方法。 透過瀏覽紀錄計算使用者之間的相似度,找出與該使用者閱讀習慣最接近的 使用者,並提取出瀏覽紀錄,並深入到閱讀記錄之文章中的關鍵字,並將得出的 關鍵字以 FP-Growth 方法找出原先期刊文章中之關鍵字並建立出 FP-tree,由 FPtree 中產生高頻繁項目集,挑選出關聯規則,再由其關聯規則尋出符合其組合的 文章,不同於過去以文章為計算主體協同過濾或關聯規則, 研究設計如下: 1.. 每期期刊文章由管理者上傳,新增至系統的文章資料庫。. 2.. 每當系統管理者,新增期刊文章時,以系統字頻分析提取出每篇文章之關鍵. 3.. 基於開放取用原則與使用者操作便利下,採取以 IP 做為儲存於資料庫之記. 政 治 大 字,此部分與一般使用者操作獨立,為此推薦系統之線下作業。 立. ‧ 國. 學. 錄主鍵值,進入系統時便依據使用者 IP 記錄使用者瀏覽與下載記錄。. ‧. 將使用者的記錄存入使用者行為記錄資料庫中。. 5.. 將資料庫中過往歷史瀏覽紀錄進行分析,計算使用者之間的相似度。. 6.. 由相似度計算中,可找出 K 個與該使用者瀏覽習慣相近之使用者。. 7.. 將與該使用者最相似的 K 位使用者之歷史瀏覽紀錄取出。. 8.. 把取出的每篇期刊文章視為一筆交易,將這些期刊文章的關鍵字做關聯規則. n. al. er. io. sit. y. Nat. 4.. Ch. engchi. i n U. v. 分析。 9.. 由關聯規則分析中,提取高頻繁項目組合。. 10. 由這些高頻繁項目組合向系統找尋符合其條件的期刊文章,依照支持度排序。 11. 將排序好的推薦清單推薦給使用者,並透過使用者的使用行為,持續改善過 濾品質,生成出更好的推薦。. 25.

(35) 期刊文章 1. 管理者. 文章資料庫 2. 詞頻分析 計算. 使用者. 行為記錄. 政 治 大. 立. 3. 4. 7. 與使用者行為 最相似使用者 的行為記錄. ‧. ‧ 國. 學. 使用者 行為紀錄. 5. sit. y. Nat. 使用者 相似度計算. n. er. io. FP-growth al 關聯規則計算. Ch. engchi. 關鍵字 關聯規則. 10. i n U. v. 6. 使用者相關 關係清單. 推薦清單 11 圖 3-2 研究架構圖. 26.

(36) 第四節 資料蒐集 2013 年初,Journal of Electronic Commerce Research (JECR)期刊團隊為了提 高網站的服務品質,將網站改用 Drupal 內容管理系統重建。基於這個環境,研 究過程中所設計出來的推薦系統,將可以移植到其他使用相同開發環境的期刊網 站;此外,在 Drupal 的使用提升了取得推薦機制所需之輸入資料的開發便利性, 在此系統中,我們可以取得以下資料欄位最為推薦機制的輸入資料。 結構化資料: . 瀏覽記錄. 政 治 大. (使用者來源 IP、期刊文章、瀏覽次數、下載次數、停留時間) . 立. 論文之原資料. ‧ 國. 學. (題目、年份、作者、卷期別、關鍵字) 非結構化資料:. y. 論文摘要. sit. . ‧. 論文全文. Nat. . al. er. io. 本研究提出之推薦系統機制,其概念是以協同過濾加上關聯規則與關鍵字的. v. n. 推薦方法,因此需有使用者歷史瀏覽記綠與文章的完整關鍵字,因此自 2014 年. Ch. engchi. i n U. 2 月開始蒐集使用者瀏覽紀錄,做為後續分析之基礎,並將現有之期刊文章以字 頻分析,提取出關鍵字,將文章原先沒有的關鍵字加入,儲存至關鍵字詞資料庫 中。. 3.4.1 計算閱讀習慣相似之輸入與評分 對使用者而言,會點擊進入文章瀏覽,可表示對該文章議題有興趣,下載電 子檔更是對於該文章想更深入的了解或引用,可視為一種對該文的認同,我們將 此兩種情況以點數評量,計算閱讀行為最相似的使用者,相較於一般使用對文章 的評分機制作為計算基準,更容易收集資訊,且期刊文章性質,不同於新聞類型, 需要深讀,單純評分無法代表是否對該文章有興趣。 27.

(37) 第五節 詞頻分析模組 輸入資料:論文內容全文 輸出資料:論文關鍵字 每篇期刊文章皆會由作者選定關鍵字,為避免作者將關鍵詞設定太過廣泛, 因此本研究希望能透過詞頻分析,以科學方法將特徵詞(關鍵字)選出,加入文章 資料庫中,以便後續分析使用。 當每有新文章加入時,先將文章斷詞處理,拆解成組成元素,分析詞彙出現. 政 治 大. 的頻率、重要性衡量是否能做代表文章的特徵,計算方法如下: 1.. 詞頻(Term Frequency, TF). 立. 越是重要的詞,越是會在該篇文章中重複出現,TF 值表字詞 i 在該文章中,. ‧ 國. 學. 占其組成的權重值。 𝑛𝑖,𝑗 ∑𝑘 𝑛𝑖,𝑗. ‧. 𝑡𝑓𝑖,𝑗 =. y. Nat. n. 2.. al. er. io. ∑ ni,j :文章 j 中所有字詞出現次數之總和. sit. ni,j :字詞 i 在文章 j 中出現的次數 k. (3). i n 反向文件頻率(Inverse Document C h Frequency, IDF) engchi U. v. 在語言中有些詞彙是常用且必須用到,但根據 TF 之定義,這些詞彙必定也. 具備高頻率,重要的詞彙只會某些文章中出現頻率較高,並非每篇都是高頻 率,包含字詞 i 的文檔越少,IDF 越大,則字詞 i 具有類別區分能力。因此藉 由 IDF 協助修正 TF 的權重。 idf𝑖 = log. |𝑁| 𝑑𝑓𝑖. (4). |N|:文章集之文章數目 dfi:字詞 i 出現在整個文章集中的文章數 3.. TF-IDF 28.

(38) 經 IDF 修正後的 TF,稱之 TF-IDF,其公式如下: TF − IDF = tfi,j × idf𝑖. 4.. (5). 正規化 文章的長度不同,會對權重值造成影響,因此需對 TF-IDF 做權重正規化的 修正,其公式如下:. weight =. 𝑤𝑖,𝑗 √∑𝑇𝑡=1(𝑤𝑖,𝑡 )2. 𝑤𝑖,𝑗. 𝑡𝑓𝑖,𝑗 × idf𝑖. =. (6). √∑𝑇𝑡=1(𝑡𝑓𝑖,𝑗 × idf𝑖 )2. 政 治 大 :字詞 i 在文章 j 中的權重 立 ‧. ‧ 國. 學. ∑𝑇𝑡=1(𝑤𝑖,𝑡 )2 :所有字詞原權重的平方總和再開根號,即文章長度。. 第六節 使用者相似度計算模組. y. Nat. io. n. al. er. 輸出資料:相似使用者 IP. sit. 輸入資料:使用者 IP address、使用者瀏覽文章編號. i n U. v. 在協同過濾中,通常會以使用者的瀏覽或購買記錄,做為計算使用者之間相. Ch. engchi. 似度的輸入資料,而協同過濾中計算使用者相似度的方法有 Pearson 相關係數、 Spearman 相關係數與均方差,其中以 Pearson 相關係數效果較佳(Herlocker, Konstan, Borchers & Riedl, 1999),因此本研究以 Pearson 相關係數做為計算方法。 Pearson 相關係數是一種常用來計算相似度的計算方法,其取值範圍由-1 到 1 之間,越接近-1 代表其之間具強烈負相關性,越接近 1 代表其之間具強烈正相 關性,以下是相關符號與公式。 由於開放獲取期刊的關係,在設計架構上不希望使用者註冊或輸入任何有關 個人的資料,此模組以使用者 IP 做為區別各使用者身分之依據。. 29.

(39) 3.6.1. Pearson 變數說明與公式 以評分矩陣 R,計算使用者 a 與使用者 b 的相似度 sim(a,b) ∑𝑝∈𝑃(𝑟𝑎,𝑝 − 𝑟̅𝑎 ) (𝑟𝑏,𝑝 − 𝑟̅𝑏 ). sim(a, b) =. 2. √∑𝑝∈𝑃(𝑟𝑎,𝑝 − 𝑟̅𝑎 ) √∑𝑝∈𝑃(𝑟𝑏,𝑝 − 𝑟̅𝑏 ). (7). 2. U = {𝑢1 , 𝑢2 … , 𝑢𝑛 } P = {𝑝1 , 𝑝2 … , 𝑝𝑚 } 𝑟̅𝑎 : 使用者 a 的平均評分. 立. U:使用者集合. 政 治 大. ‧ 國. 學. P:項目集合. R:項目評分 rij 的 nxm 評分矩陣,並𝑖 ∈ 1 … 𝑛; 𝑗 ∈ 1 … 𝑚,若無評分記錄陣列. ‧. 可為空. n. er. io. al. sit. y. Nat. 第七節 關聯規則分析模組. i n U. v. FP-Growth 演算法具有運算速度的優勢,比起經典的 Apriori 演算法更適合. Ch. engchi. 採用於本推薦架構,同時,此方法也是目前關聯規則的主流演算法。 輸入資料:論文內容全文 輸出資料:論文關鍵字. 3.7.1 FP-tree 之建構與表示 FP-Growth 僅需對資料庫掃描兩次,第一次掃描資料庫,取得 1 維頻繁項目 之集合及其支持度,利用 1 維頻繁項目集過濾低於最小支持個數之項目,並按照 之持降冪排序,;第二次掃描資料庫時,同時生成 FP 樹,以下是 FP-tree 之建構 過程。 30.

(40) null a:1. b:1 (I) null. b:1. a:1. c:1. b:1. d:1. 政 治 大 null. a:2. b:1. 學. c:1. b:1. c:1. ‧. d:1. e:1. Nat. n. er. io. al. y. (Ⅲ). sit. ‧ 國. 立. (Ⅱ). i n U. Ch. v. e n g c h inull a:8. b:2 c:2. b:5. c:2. d:2. c:2. d:1. d:1. e:1. e:1. e:1. (Ⅳ) 圖 3-3 FP-tree 之建構 FP-tree 之建構過程是以讀取每筆交易並對應建立在 FP-tree 中,透過每筆交 31.

(41) 易重複的項目,壓縮儲存結構。在建立之前,需要將項目需依照支持個數排序, 剔除非高頻的項目,圖 3-3 中共有 10 筆交易,其中有 5 種項目。 1. 最初 FP-tree 僅有根節點,讀取完第一筆交易(a,b)後,建立該筆交易之項目如 (Ⅰ),形成 null→a→b,並記錄其高頻個數為 1。 2. 加入第二筆交易記錄(b,c,d)後如(Ⅱ),其第一個項目與第一筆不重複,因此建 立新的節點群,並記錄高頻個數。 3. 第三筆交易(a,c,e),與第一筆交易的第一個項目相同,因此將重疊之 a 項目高 頻個數記為 2,再不同的 c,e 項目分支,另建節點群。. 政 治 大. 4. 將每筆交易讀取完後,建立的 FP-tree 如(Ⅳ)。. 立. ‧ 國. 學. 3.7.2 FP-growth 高頻項目集之產生. FP-Growth 演算法將問題切割成多個子問題,由下往上的方式提取 FP-tree 中. ‧. 的高頻項目集,採用各個擊破(Divide-and-Conquer)策略(Tan, Steinbach & Kumar,. sit. y. Nat. 2005)。以圖 3-3 為例,從項目集中尋找高頻個數最小的開始,即由 e、d、c、b、. al. n. 的子問題。以取出路徑結尾為 e 做為範例說明:. Ch. engchi. 32. er. io. a 依序,找出包含其項目的路徑,建立出字首路徑,再進一步將問題切割成更小. i n U. v.

(42) 一、建立 e 之字首路徑 將包含 e 結尾之路徑取出。. null a:8. b:2 c:2. b:5. c:2. d:2 e:1. e:1 e:1. 政 治 大. 圖 3-4 e 之字首路徑圖. 立. 二、建立 e 之條件 FP-tree. ‧ 國. 學. 把未包含 e 之交易移除,調整路徑節點支持個數,並將 e 去除,僅保留. ‧. 先前之路徑如圖 3-5(Ⅰ),再檢視調整後的節點支持度是否低於最小支持個. y. Nat. 數,假設最小支持個數為 2,而 d 之支持個數為 1,所有 de 結尾之項目集必. n. al. er. io. 5(Ⅱ)。. sit. 非高頻,因此包含 d, e 之交易不必再深入探討,並得 e 之條件路徑如圖 3-. a:2. C hnull engchi. i n U. v. b:1. c:1. b:1 c:1. d:1 (I). null. a:2. b:1. b:1. c:1. c:1 (Ⅱ) 圖 3-5 e 之條件路徑 33.

(43) 三、由條件 FP-tree 分割成子問題 得到 e 之條件路徑後,再按照支持個數由小到大,解決 de、ce、be、ae 高頻項目集之子問題,由於 d 的支持個數低於先前設定的最小支持個數,de 與其子問題,不必再深入探討,ce 之條件路徑如圖 3-6(Ⅰ),ce 之條件路徑 如圖 3-6(Ⅱ),a 支持度為 1,低於最小支持個數,因此僅得出 ce 為高頻項目 集;be 之字首路徑如圖 3-6(Ⅲ),其條件路徑圖 3-6(Ⅳ),a 支持度為 2,得 be、abe 集合為高頻項目集;ae 之條件路徑如圖 3-6(Ⅴ),得 a 為高頻項目集, 再將各個子問題的解答合併後,得出 e 之高頻項目集為 e、ce、be、abe、a。. 立. 政 治 大 null a:1. ‧ 國. 學. b:1. c:1. ‧. c:1. null. y. Nat. (I). n. al. null. er. io. sit. a:1. C ha:2 engchi. i n U. v. (Ⅱ). b:1. b:1 (Ⅲ) null a:2 (Ⅳ) null a:2 (Ⅴ ) 圖 3-6 子問題之字首路徑、條件路徑 從 FP-tree 中得出高頻項目集後,依照使用者當下所瀏覽的文章特徵值做為 34.

(44) 比對的標準,與該文章的特徵值符合越多的規則,被推薦之優先權較高,依順序 排列,排序後,再以高頻項目集之特徵值組合,找出文章庫內符合的期刊文章, 推薦給使用者。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 35. i n U. v.

(45) 第四章 實驗設計 一、. 正確推薦之定義問題. 決定評估推薦成效之前,須先定義出對於學術論文推薦系統而言,什麼才是 正確的推薦,雖然推薦系統多以 F1-Measure 做為評估方法,但用來評估學術論 文之推薦之前須先定義什麼是正確的推薦。學術論文的推薦情境中,什麼叫做有 效的推薦,此定義對每個使用者來說可能都不同,可以是使用者點選了系統的推 薦,又或者使用者下載該篇文獻,更可以嚴格說使用者完成的研究中引用才算是 成功的推薦,如何定義都有失偏頗。. 二、. 治 政 評估推薦系統之方法 大 立. 而推薦系統常見的評估方法有平均絕對誤差(Mean Absolute Errors, MAE)與. ‧ 國. 學. 計算精準度及召回率,前者對所有預測用戶對項目之評分與實際評分做計算,後. ‧. 者對正確推薦給使用者的項目數量比做計算,過去的研究中發現,以精準率及召. 精準率. sit. io. al. v i n 定義:推薦之項目中,有多少比例是顧客在期間 n+1,有實際購買或選擇的 Ch engchi U n. 1.. er. 如下。. y. Nat. 回率做為衡量標準的效果相較 MAE 好(McLaughlin & Herlocker, 2004),其公式. 項目。公式如下: precicsion =. 2.. Number of correctly recommended resources Number of recommended resource. (8). 召回率 定義:顧客在期間 n+1,有實際購買或選擇的項目,有多少比例是由推薦系 統所推薦的。公式如下: Recall =. 3.. Number of correctly recommended resources Number of interesting resource. 調和平均數 36. (9).

(46) 定義:將精準率與召回率二者相結合計算,以更準確地衡量出推薦效能。公 式如下: F1 − Measure =. 2 × Precision × Recall Precision + Recall. (10). 但由於推薦數增加時,精準率會下降,召回率反而會提高,兩者具有衝突, 一般將二者結合,計算出調和平均數(F1-Measure),便能更準確地衡量出推薦效 能。 由公式 8、公式 9 與公式 10 可得知,定義使用者接受了系統的推薦是使用. 治 政 大 et al.(2000)指出 題,採用 F1-Measure 做為評估標準是不適當的,另外,Sarwar 立 F1-Measure 進行評估的第一步,鑒於上述定義學術論文系統正確推薦之定義問. False Negative 與 False Positive 此兩種錯誤會影響使用者對系統的不信任,一旦. ‧ 國. 學. 產生不信任感,推薦系統便容易被使用者忽略,收集資料上也會造成困難。因此. ‧. 應避免受現有網站推薦成效之影響與定義問題,本研究根據過去研究(楊永芳,. n. al 第一節 研究假說. er. io. sit. y. Nat. 2002)為參考依據,先進行實驗,再以問卷形式評分作為評估。. Ch. engchi. i n U. v. 為了驗證本研究推薦機制之成效,將與另外兩種推薦方法進行比較,分別是 FP-Growth 關聯規則與最近鄰居法,前者以內容為考量,後者以同儕過濾進行推 薦,因此本研究提出以下虛無假說: 研究假說 H1:本研究推薦機制沒有比 FP-Growth 關聯規則的推薦有幫助 H2:本研究推薦機制沒有比最近鄰居法的推薦有幫助. 37.

(47) 第二節 資料前置處理 在本研究推薦機制下,需要先建立期刊文章特徵資料庫,其中包含詞頻分析 所產生的關鍵字詞、期刊文章作者所編列的關鍵字與作者姓名。 清除圖表與格式. 詞頻分析處理. 原始文件. 純文字檔. 立. 特徵值. 存 入. 政 治 大 存入. ‧ 國. 學 ‧. 文件資訊 (作者、關鍵字). 特徵資料庫. 圖 4-1 資料前置處理流程. sit. y. Nat. al. er. io. 進行詞頻分析之前,須先將文章全文檔案剔除圖片、表格、超連結等內容,. v. n. 僅保留純文字,若讀入具有格式的檔案會造成亂碼,影響詞頻分析,分析 JECR. Ch. engchi. i n U. 中 278 篇文章後,共得 14881 筆特徵記錄,做為關聯分析之依據。. 第三節 實驗設計與實驗流程 學術論文網站使用者主要目的在於尋找撰寫研究論文的文獻與靈感,因此受 測者需具備撰寫論文、尋找文獻的動機或經驗,選擇受測者時必須為碩士班或博 士班學生或具有學位資格者,且必須修習過電子商務或行動商務相關課程者,本 研究受測者以政治大學、中央大學及中山大學碩士班與博士班在學學生與畢業生 為主要受測來源。 實驗共分兩階段,第一階段為建立訓練集資料,考量電子商務範圍廣大,實 38.

(48) 驗範圍訂定為尋找行動商務相關文獻以便建立訓練集,受測者 60 人。第二階段 是以問卷方式評估推薦方法之成效,受測者 30 人,以下分別為兩階段進行詳述. 第一階段 1.. 實驗流程. 任務說明. 政 治 大 因撰寫論文需要,而到 立 JECR 期刊網站上搜尋與主題「行動商務」相關. 任務情境. 學. 之文獻。 3.. 繳交檔案. ‧ 國. 2.. 進行任務. 任務內容. ‧. 於四十分鐘內在 JECR 期刊網站上找尋與行動商務相關文獻,可使用. sit. y. Nat. JECR 期刊網站上任何工具,以及翻譯網站。實驗進行中,僅可開啟 JECR 期. 任務限制. al. n. 4.. er. io. 刊網站與翻譯網站。. Ch. engchi. i n U. v. 受測者必需繳交一份文件,內容包含覺得有興趣、可以做為寫論文的主 要論文或可以深入研究仔細詳讀的文獻之標題以及具體選擇理由,只要符合 情境,也可選擇電子商務相關文獻。. 第二階段 從第一階段 60 名受測者中,隨機挑選 30 位,由第一階段受測者繳交文件所 挑選的期刊文章做為推薦之依據,每位受測者將有不同的客製化問卷,因同一篇 期刊文章可能會有不同的推薦產生,本研究推薦機制、FP-Growth 關聯規則、最. 39.

(49) 近鄰居法此三種推薦方法各推薦出兩篇,合計共六篇,若有重複推薦則分數共用。 填寫問卷前,請使用者閱讀先前所挑選的其中一篇文章之摘要,再對基於該 篇文章所推薦的六篇文章摘要評分,此問卷以李克特七點量表,評量幫助程度, 評分範圍 1~7,1:極度沒幫助;7 極度有幫助。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 4-2 網站首頁畫面. 40. v.

(50) 圖 4-3 網站期刊文章畫面. ‧ er. io. sit. y. Nat. 第四節 實證結果分析 4.4.1 分析方法. 學. ‧ 國. 立. 政 治 大. al. n. v i n 首先,將受測者每種方法的兩個分數平均 ,接著將本研究混合機制分別對 FPCh engchi U. Growth 關聯規則、最近鄰居法做 95%信心水準的成對相依樣本 t 檢定,檢定本 研究推薦機制的幫助程度是否優於另外兩個方法。. 4.4.2 資料分析 本實驗以 SPSS 進行統計資料分析,得表 4-1 與表 4-2,並對前述假說檢視 與分析. H1:本研究推薦機制沒有比 FP-Growth 關聯規則的推薦有幫助 本研究之推薦機制平均數得 5.35 高於 FP 關聯規則平均數 4.7,檢定結 41.

(51) 果的顯著性為 0.0115,因 α=0.05 大於 0.0115,差異達顯著水準,因此 有證據支持本研究推薦機制較 FP-Growth 關聯規則的推薦有幫助。. H2:本研究推薦機制沒有比最近鄰居法的推薦有幫助 本研究之推薦機制平均數得 5.35 高於 FP 關聯規則平均數 4.5,檢定結 果的顯著性為 0.0115,因 α=0.05 大於 0.002,差異達顯著水準,因此有 證據支持本研究推薦機制較最近鄰居法的推薦有幫助。. 對組 1. 治 政 平均數 標準偏差 大 N 混合推薦機制 立 5.3500 30 .97512. 對組 2. FP 關聯規則 混合推薦機制. 4.7000 5.3500. 30 30. 1.11880 .97512. .20426 .17803. 最近鄰居. 4.5000. 30. 1.28654. .23489. .17803. io. T. er. 表 4-2 成對樣本檢定. sit. y. ‧. Nat. 42. 顯著性 (單尾). df. a 混合推薦機制 -lFP 關聯規則 2.405 i v n Ch U 混合推薦機制 - 最近鄰居法 3.132 engchi n. 對組 1 對組 2. 標準錯誤平均值. 學. ‧ 國. 表 4-1 成對樣本統計資料. 29 29. .0115 .002.

參考文獻

相關文件

職業 教師 輔導員 神職人員 社會工作者 記者.

港大學中文系哲學碩士、博士,現 任香港中文大學人間佛教研究中心

電機工程學系暨研究所( EE ) 光電工程學研究所(GIPO) 電信工程學研究所(GICE) 電子工程學研究所(GIEE) 資訊工程學系暨研究所(CS IE )

z 當時有不少在華穆斯林對中國文化有深刻 研究,這些以漢文寫成的文學及藝術作

This research proposes a Model Used for the Generation of Innovative Construction Alternatives (MUGICA) for innovation of construction technologies, which contains two models:

本研究以 2.4 小節中之時程延遲分析技術相關研究成果為基礎,針對 Global Impact Technique、Net Impact Technique、As-Planned Expanded Technique、Collapsed

Tadei, A greedy based neighborhood search approach to a nurse rostering problem, European Journal of Operational Research 153 (2004) pp. Michelon, “A Multi-Objective Approach to

通常在研究賽格威這類之平衡系統時在於機構之設計是十分的昂貴,本論文