矩陣分解法與隨機效應模型法應用於電影評分資料分析比較 - 政大學術集成

全文

(1)國立政治大學統計學系研究所碩士學位論文. 矩陣分解法與隨機效應模型法應用於電影評分資料分析比較政治. 大. 立 Factorization and Random Effect Model Application of Matrix. ‧ 國. 學. to Analysis and Comparison of Movie Rating Data. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. 指導教授：翁久幸研究生：周鼎智. i n U. v. 博士撰. 中華民國 107 年 4 月.

(2) 摘要推薦系統的出現是為了解決訊息過載的問題，其需求隨著科技的進步、網路的普及而增加，相關技術也越發多樣且成熟。廣泛應用於各領域的統計模型也在技術的行列中。. 推薦系統的運作仰賴使用者偏好訊息，而使用者對項目所組成的偏好空間往往十分巨大且不平衡，統計上需要相對複雜的隨機效應模型或混合效應模型來描繪這樣的變數結構，且通常需要計算效率相對低的反覆疊代過程來估計模型參數。因此 Perry（2014）、Gao & Owen（2016）先後提出以動差法處理階層. 政治大. 線性模型與兩因子隨機效應模型，是一種犧牲統計效率換取計算效率的做法。. 立. ‧ 國. 學. 本研究便是採用統計模型中的隨機效應模型法，分別以最大概似法和動差法估計參數，與同為協同過濾技術觀點的矩陣分解法進行分析比較。透過預測. 表現。. ‧. 準確度和運算效率兩個層面，來評估各演算法在 MoiveLens 這筆資料上的推薦. sit. y. Nat. n. al. er. io. 根據試驗結果歸納出隨機效應模型法無論以什麼樣的參數估計方式，在預測. v. 準確度的表現上都不如矩陣分解法來得好；但以動差法估計參數在穩定度上與. i n C 矩陣分解法的表現差不多，且在運算效率上好很多。 hengchi U. 關鍵字：推薦系統、隨機效應模型法、矩陣分解法、MoiveLens.

(3) Abstract The recommender system (RS) appeared to solve the problem of information overload. The demand of the RS has increased with the advancement of technology and the popularity of the Internet, and related techniques have become more diverse and mature. The statistical models widely used in various fields are also in the list of techniques. The operation of the RS relies on user preference information, and the space of users’ preference to items is often large and unbalanced. Statistically, relatively. 政治大 variable structures, and often require a large number of iterations to estimate model 立. complex random effects models or mixed effects models are needed to describe such parameters. Perry (2014), Gao & Owen (2016) proposed using the moment-based. ‧ 國. 學. method to deal with hierarchical linear models and two-factor random effects models, respectively, expressing an idea of sacrificing statistical efficiency in exchange for. ‧. computational efficiency.. y. Nat. io. sit. In this study, we analyze and compare the random effects model, using the. n. al. er. maximum likelihood method and the moment-based method to estimate the. i n U. v. parameters with the matrix factorization. Through the prediction accuracy and. Ch. engchi. computational efficiency to evaluate the performance of each algorithm on the MoiveLens data. According to the experiment results, the random effects model is not as good as the matrix factorization in terms of the prediction accuracy no matter what kind of parameter estimation method is used; however, the performance of the moment-based parameter estimation is consistent with the matrix factorization in terms of the prediction stability, and much better in terms of the efficiency. Key Words: Recommender system, Random effects model, Matrix factorization, MoiveLens.

(4) 目錄第一章. 緒論 ............................................................................................................ 1. 1.1. 研究背景 .................................................................................................... 1 1.1.1. 推薦系統簡介 ................................................................................ 1. 1.1.2. 推薦系統面臨的問題 .................................................................... 4. 1.2. 研究目的 .................................................................................................... 5. 第二章. 文獻探討 .................................................................................................... 6. 2.1. 最近鄰法 .................................................................................................... 6. 2.2. 矩陣分解法 ................................................................................................ 9. 2.3. 統計模型法 .............................................................................................. 11. 第三章. 研究方法 .................................................................................................. 13. 3.1. 矩陣分解法 .............................................................................................. 13. 3.2. 隨機效應模型法 ...................................................................................... 16. 立. ‧ 國. 最大概似法 .................................................................................. 16 動差法 .......................................................................................... 19. ‧. 3.2.2. 學. 3.2.1. 政治大. 實證研究 .................................................................................................. 21. 4.1. 資料描述 .................................................................................................. 21. 4.2. 試驗流程 .................................................................................................. 22. 4.3. 結果分析 .................................................................................................. 25. sit. al. v i n MovieLens C 100K 25 h e數據集 n g ............................................................. chi U n. 4.3.2. er. io. 4.3.1. 第五章. y. Nat. 第四章. MovieLens 1M 數據集 ................................................................ 29. 結論與建議 .............................................................................................. 34. 參考文獻 ...................................................................................................................... 36.

(5) 圖目錄圖 2.1. 基於使用者的最近鄰法說明範例 ................................................................. 7. 圖 3.1 DSGD 運作示意圖 ....................................................................................... 15 圖 3.2 3 線程 DSGD 所有可能獨立區塊分配樣式 ............................................... 15 圖 4.1 MovieLens 100K 數據集的評分數分布 ...................................................... 21 圖 4.2 MovieLens 1M 數據集的評分數分布 ......................................................... 22 圖 4.3. 矩陣分解法的試驗流程 ............................................................................... 23. 圖 4.4. 隨機效應模型法的試驗流程 ....................................................................... 23. 圖 4.5 100K 數據集的預先試驗（絕對損失函數） ............................................. 25 圖 4.6 100K 數據集的預先試驗（二次損失函數） ............................................. 26. 政治大. 圖 4.7 100K 數據集各演算法 MAE 的 Boxplot .................................................... 26. 立. 圖 4.8 100K 數據集各演算法 RMSE 的 Boxplot .................................................. 27. ‧ 國. 學. 圖 4.9 1M 數據集的預先試驗（絕對損失函數） ................................................ 29 圖 4.10 1M 數據集的預先試驗（二次損失函數） .............................................. 29. ‧. 圖 4.11 1M 數據集各演算法 MAE 的 Boxplot ...................................................... 30 圖 4.12 1M 數據集各演算法 RMSE 的 Boxplot.................................................... 31. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(6) 表目錄表 4.1 100K 數據集各演算法 MAE 的平均值和變異數 ...................................... 27 表 4.2 100K 數據集各演算法 RMSE 的平均值和變異數 .................................... 28 表 4.3 100K 數據集各演算法的平均單次運算時間 ............................................. 28 表 4.4 1M 數據集各演算法 MAE 的平均值和變異數 ......................................... 31 表 4.5 1M 數據集各演算法 RMSE 的平均值和變異數 ....................................... 32 表 4.6 1M 數據集各演算法的平均單次運算時間 ................................................ 32 表 5.1 100K 數據集以 MLE 法預測訓練集所得 MAE 的平均值和變異數 ........ 34 表 5.2 100K 數據集以 MLE 法預測訓練集所得 RMSE 的平均值和變異數 ...... 34 表 5.3 100K 數據集各演算法平均預測遺失值比例 ............................................. 35. 政治大. 表 5.4 1M 數據集各演算法平均預測遺失值比例 ................................................ 35. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(7) 第一章. 緒論. 研究背景. 1.1. 試想在撰寫論文時，面對無法理解的部分，除了與同儕或教授討論外，我們還能如何解決問題？拜網路發達所賜，我相信大家第一時間想到的就是利用搜尋引擎，只要簡單在搜尋框中輸入適當的關鍵字，立馬就會跳出許多相關連結可供瀏覽。如果需要更詳盡的資料，可能會到圖書館，根據書目索引找到相關書籍，再根據附錄索引找到所需的相關知識。這個例子描述我們在有明確需求時，面對訊息過載所採取的措施，這樣透過關鍵字去過濾訊息的過程稱為資訊檢索（Information Retrieval）。. 政治大伴隨著網路上的訊息爆炸式的增長，搜尋引擎動輒返回幾千幾萬個結果，立. 某些想要的資訊可能被淹沒其中而不知其存在，或是某些需求無法清楚的以關. ‧ 國. 學. 鍵字表達時，資訊檢索便無法滿足所需，推薦系統（Recommender System）就此應運而生，推薦系統會分析使用者的歷史行為，從海量的訊息中自動篩選能. ‧. 滿足使用者興趣和需求的內容。如今，幾乎所有的網路服務都有推薦系統的蹤. sit. y. Nat. 影，像是 Amazon 商品推薦、Facebook 好友推薦、Netflix 電影推薦、YouTube. io. n. al. er. 影音推薦等，可見其應用之廣。. 推薦系統簡介. 1.1.1. Ch. engchi. i n U. v. 推薦系統的任務在於聯繫使用者和訊息並解決訊息過載的問題，一方面幫助使用者發現對其有價值的訊息，另一方面讓訊息能夠展現在對其感興趣的使用者前，製造一個訊息消費者和訊息生產者雙贏的局面。一個完整的推薦系統大致上可分為三個環節，從前期的資料蒐集、具體地推薦過程、到結果的輸出與評估，以下我們將一一簡述各環節，綜觀整個推薦系統的運作。. 任何分析必然得在有資料的前提下才可開始，資料結構也必定會影響後續處理，因此，首先要探討的就是資料蒐集。就推薦系統而言，唯一不可或缺的是代表使用者偏好的行為數據，就獲取方式分為顯性（Explicit）反饋和隱性（Implicit）反饋兩類。 1.

(8) 顯性的反饋數據來自使用者主動給予項目（泛指推薦系統可提供給使用者的訊息或商品）的評分行為，必須由系統提供使用者評分機制；隱性的反饋數據來自使用者被動的由系統記錄著的行為，像是購買記錄、瀏覽記錄、停留時間等。此外，為了構築更可靠的系統，還可整合使用者特性或項目屬性等其他數據。. 具體地推薦過程會視資料結構和問題背景而有所不同，可能只是個簡單的規則，也可能來自複雜的演算法，更可能是混合多種演算法的結果，簡單來說就是個建模的過程。多數研究將推薦技術，也就是上述過程分為基於內容（Content-based）、協同過濾（Collaborative Filtering）、混合（Hybrid）三大類。. 政治大基於內容的基本思想是，為使用者推薦與其過往興趣雷同的項目，是資訊立檢索技術的延伸，建立在項目的內容及屬性上，仰賴機器學習的方法，從關於. ‧ 國. 學. 項目的屬性描述中找出使用者的興趣。在基於內容的推薦系統中，所有項目都會以某組屬性向量來定義，項目間的相似程度將根據彼此的屬性向量計算而. ‧. 得，系統基於使用者感興趣的項目，找出與之相似的項目給予推薦。. sit. y. Nat. 協同過濾的基本思想是，共享其他使用者的經驗給予推薦，就像我們會根. io. n. al. er. 據某些有相同興趣的朋友的建議來進行一些選擇。與基於內容關注的是項目本. i n U. v. 質不同，協同過濾關注的是使用者行為，舉例來說，建立在拍賣網站下的推薦. Ch. engchi. 系統，協同過濾著眼於使用者的購買行為，基於內容則著眼於使用者購買什麼樣的商品。由於本研究的重點在協同過濾分類下的某些演算法，更多的細節將留待之後討論。. 各種演算法都有其優缺點，基於內容的推薦並不善於幫助使用者發現那些感興趣卻不知其存在的項目，相較之下，協同過濾能藉由發掘使用者的潛在行為找出這點，但需要大量的使用者歷史行為資料才有辦法做到。因此，實務上常使用的是混合推薦，混合的方式有很多，像是加權多種技術的結果、根據問題背景或情況變換使用不同的技術、以某一種技術產生的初步結果為基礎，放到另一種技術裡做出更精確的推薦等。無論選擇哪種混合方式，原則上要能避免且彌補不同技術的缺點。 2.

(9) 有了模型，就可對使用者未表態的項目進行評分預測，除了以評分值作為使用者對各個項目的絕對偏好程度外，還有一種給予相對偏好的預測結果，稱為 Top-N 推薦，就是為使用者制定一個長度為 N 的推薦列表，不管選擇哪種結果輸出，都還要以合適的方式評估這個結果。. 既然是預測，我們就會考慮預測的準確度，針對評分預測，通常為以平均絕對誤差（Mean Absolute Error, MAE） MAE =. ∑(𝑢,𝑖)∈𝑇|𝑟𝑢𝑖 − 𝑟̂𝑢𝑖 | |𝑇|. （1.1）. 或均方根誤差（Root Mean Squared Error, RMSE）. 政治大 ∑ (𝑟 − 𝑟̂ ). RMSE = √ 立. (𝑢,𝑖)∈𝑇. 𝑢𝑖. 𝑢𝑖. 2. （1.2）. |𝑇|. ‧ 國. 學. 來衡量，其中 𝑇 表示測試集， 𝑟𝑢𝑖 、 𝑟̂𝑢𝑖 分別表示實際評分和預測評分。從式子. ‧. 來看，概念就是誤差的總和，又 RMSE 以平方為懲罰，對評測更為嚴苛。. Nat. n. al. 和召回率（Recall）. Ch. Recall =. sit. ∑𝑢∈𝑈|𝑅(𝑢) ∩ 𝑇(𝑢)| |𝑅(𝑢)|. er. io. Precision =. y. 針對 Top-N 推薦，則以精確率（Precision）. n U engchi. iv. ∑𝑢∈𝑈|𝑅(𝑢) ∩ 𝑇(𝑢)| |𝑇(𝑢)|. （1.3）. （1.4）. 來衡量，其中 𝑈 為所有使用者的集合， 𝑅(𝑢) 為推薦系統給予使用者的推薦列表， 𝑇(𝑢) 是使用者在測試集上的偏好列表。精確率能評估推薦出的列表有多少正確的，召回率則能評估所有正確的列表有多少被推薦出來。. 為了解推薦系統是否有幫助到使用者發現對其有價值的訊息，使用者滿意度是一個很重要的指標，但使用者滿意度多半只能通過問卷調查或在線實驗獲得，因此可輕易透過離線實驗獲得的預測準確度，在學術研究上是一個常被用來替代使用者滿意度的重要指標。 3.

(10) 另一方面，為了解推薦系統是否有讓訊息展現在使用者前，覆蓋率（Coverage）是另一個可透過離線實驗獲得的重要指標，最簡單的想法就是推薦的項目集合占總項目集合多少比例，以式子表達為 Coverage =. |⋃𝑢∈𝑈 𝑅(𝑢)| |𝐼|. （1.5）. 其中 𝑈 為所有使用者的集合， 𝑅(𝑢) 為推薦系統給予每個使用者的推薦列表， 𝐼 為所有項目的集合。但很多時候我們想更多了解的是推薦系統對長尾發掘的能力，也就是那些比較冷門的項目是否有如流行項目般被同等次數的推薦出去，可想而知（1.5）式過於粗糙，因此常會使用到資訊理論裡的熵（Entropy）和經濟學裡的吉尼指数（Gini Index）來取代（1.5）式來探討覆蓋率。. 立. 政治大. 準確度和覆蓋率是評估推薦系統是否有達成其任務的最基本也最重要的指. ‧ 國. 學. 標，此外還有以多樣性評估推薦列表是否能夠涵蓋使用者不同領域的興趣、以新穎性評估推薦列表是否有使用者感興趣卻不知其存在的項目等，從各種角度. y. Nat. sit. 推薦系統面臨的問題. 1.1.2. ‧. 評估推薦系統好壞的準則，在此就不多加贅述。. er. io. 儘管推薦系統的技術越發成熟，但有許多問題仍被反覆討論及改善，稀疏. al. v i n Ch 題，這些問題彼此環環相扣，是我們在研究前必須了解的課題。 engchi U n. 性（Sparsity）、冷啟動（Cold Start）、可擴充性（Scalability）是幾個常見的問. 前面提到推薦系統需要代表使用者偏好的行為數據來運作，在項目動輒數以千萬計下，使用者不可能瀏覽過所有項目，更不可能對所有項目給予評分，由使用者對項目所組成的整個偏好空間，實際上有值，也就是被瀏覽或評分過的可能非常稀少，就是稀疏性問題。推薦的過程常建立在數據的關聯性上，尤其是僅仰賴使用者偏好數據的協同過濾技術，可想而知稀疏性會如何的影響推薦成效。. 4.

(11) 一個剛進入系統的新使用者可能尚未對任何項目表態，同樣地一個剛進入系統的項目可能也未被任何使用者瀏覽，在沒有數據的情形下系統連運作都無法，就是冷啟動問題。相較於稀疏性探討的是整個系統，冷啟動聚焦在這些新使用者或新項目的推薦成效。. 由於科技的發展和網路的普及，無論是網路的使用者還是充斥在網路上各式各樣的項目（商品、文章、音樂、影像）都持續在增長，也就是說不斷會有新使用者和新項目進入系統，系統能否有效因應並即時更新模型，便產生可擴充性問題。可擴充性影響的是系統運算效率，對於某些需給予即時推薦的服務更極其重要。. 1.2. 立. 研究目的. 政治大. ‧ 國. 學. 前面提到各種演算法都有其優缺點，本研究聚焦在協同過濾技術下的矩陣分解法（Matrix Factorization, MF）和隨機效應模型法（Random Effects Model）. ‧. 的分析與比較，並以 MoiveLens 提供的 100K 和 1M 兩種不同量級的電影評分資料進行實證研究。. sit. y. Nat. er. io. 試圖以 100 次不同的測試資料試驗，模擬各演算法在不同數據結構下，以. al. n. v i n Ch 體預測穩定度的表現、平均運算時間評估運算效率，且探討兩個不同量級的數 engchi U. 統計上的集中趨勢量評估整體預測準確度的表現、統計上的離散趨勢量評估整. 據集是如何影響結果。. 5.

(12) 第二章. 文獻探討. 協同過濾是實現集體智慧的一種技術，系統藉由協同使用者間的行為或偏好訊息，自動過濾並篩選使用者所需訊息，被廣泛使用在推薦系統上。. 這樣的技術最早被 Tapestry（1992）應用在電子郵件的篩選上，但使用者必須透過複雜的查詢手續才能過濾所需訊息。直到 GroupLens（1994）團隊提出基於使用者（User-based）的演算法，系統能記錄使用者們的行為數據，藉此建立關聯性，自動過濾使用者所需訊息，其便利性和通用性才使得此技術開始被廣泛應用在各領域的推薦。. 政治大. 本章將分三小節，從第一節的最近鄰法（Nearest Neighborhood）、第二節的. 立. 矩陣分解法（Matrix Factorization）、到第三節統計模型法（Statistical Models）. ‧ 國. ‧. 2.1. 學. 探討協同過濾技術的發展。. 最近鄰法. sit. y. Nat. 最近鄰法旨在找到與目標使用者有相同喜好、經驗的群體，然後將相似群. io. er. 體的偏好推薦給使用者，簡單來說就是物以類聚的概念。依觀點可分為基於使用者和基於項目（Item-based）兩種，分別探討使用者與使用者之間的關係和項. al. n. 目與項目之間的關係。. Ch. engchi. i n U. v. 基於使用者的演算法是由 GroupLens（1994）團隊提出，應用在網路新聞的篩選上，使用者會在看過文章後給予評分，GroupLens 記錄並透過這些評分建立關聯性，找出哪些使用者的評分相似，藉由相似的使用者來預測某特定使用者對某篇新文章的評分。. 具體來說，要先透過使用者的歷史評分訊息來計算兩兩使用者的相似程度，皮爾森相關係數（Person Correlation Coefficient）在統計上常被用來衡量兩個變量的線性相關程度，GroupLens（1994）以此衡量兩使用者評分的相似程度，即使用者 𝑢 和使用者 𝑣 的相似程度 𝑠𝑖𝑚(𝑢, 𝑣) 為 6.

(13) 𝑠𝑖𝑚(𝑢, 𝑣) =. ∑𝑖∈𝐼(𝑟𝑢𝑖 − 𝑟̅𝑢 )(𝑟𝑣𝑖 − 𝑟̅𝑣 ) √∑𝑖∈𝐼(𝑟𝑢𝑖 − 𝑟̅𝑢 )2 √∑𝑖∈𝐼(𝑟𝑣𝑖 − 𝑟̅𝑣 )2. （2.1）. 其中 𝑟𝑢𝑖 、 𝑟𝑣𝑖 分別表示使用者 𝑢 和使用者 𝑣 對項目 𝑖 的評分， 𝑟̅𝑢 、 𝑟̅𝑣 分別表示使用者 𝑢 和使用者 𝑣 對已評分項目的平均評分， 𝐼 表示使用者 𝑢 和使用者 𝑣 皆有評分的項目集合。. 接著，為每個使用者找到與之相似度最高的幾個鄰近使用者，使用者 𝑢 對項目 𝑖 的預測評分 𝑟̂𝑢𝑖 就可藉由鄰近使用者對項目 𝑖 評分的加權平均獲得 𝑟̂𝑢𝑖 = 𝑟̅𝑢 +. ∑𝑣∈𝒦(𝑢) 𝑤𝑢𝑣 (𝑟𝑣𝑖 − 𝑟̅𝑣 ) ∑𝑣∈𝒦(𝑢)|𝑤𝑢𝑣 |. （2.2）. 治政其中 𝑟 表示使用者 𝑣 對項目 𝑖 的評分， 𝑟̅ 、 𝑟̅ 分別表示使用者 𝑢 和使用者 𝑣 大立𝒦(𝑢) 表示與使用者 𝑢 鄰近的使用者集合， 𝑤 表對已評分項目的平均評分， 𝑣𝑖. 𝑢. 𝑣. 𝑢𝑣. ‧ 國. 學. 示與使用者 𝑢 鄰近的使用者 𝑣 所給予的權重，取決於兩使用者之間的相似程度. A. 4. 4. a lB. 3. n. 2. 使 C 用者 D E F. Ch 4. 3. 4. 5. 4 2. e2 n 5g c5h i 4. 4. 5. ?. 2. 4. 3. 6. 7. 5. 3. iv n U 5 3. 3 5. sit. io. 1. y. ‧. Nat. 項目. er. 𝑠𝑖𝑚(𝑢, 𝑣) 。. 2. 5. 圖 2.1 基於使用者的最近鄰法說明範例. 舉例來說，圖 2.1 有 6 個使用者分別對 7 個項目的評分數據，若想預測使用者 E 對項目 4 的評分，系統會先查找有對項目 4 評分的其他使用者為 A、C、 F，並根據（2.1）式計算使用者 E 與其他使用者的相似程度，使用者 E 與使用 (4−4)(4−3)+(5−4)(3−3)+(3−4)(2−3). 者 A 的相似程度 𝑠𝑖𝑚(E, A) = √(4−4)2+(5−4)2+(3−4)2√(4−3)2+(3−3)2+(2−3)2 = 0.5 ，同理 𝑠𝑖𝑚(E, C) = −0.19 、 𝑠𝑖𝑚(E, F) = −0.33 。 7.

(14) 姑且將使用者 A、C、F 都視為使用者 E 的鄰近使用者，便可根據（2.2）式計算使用者 E 對項目 4 的預測評分 𝑟̂E4 = 3.5 +. 0.5×0−0.19×0.75−0.33×(−0.8) |0.5|+|−0.19|+|−0.33|. = 3.62 。. 基於使用者演算法的計算成本會隨著使用者數量增加而增加，為了解決這個問題，Sarwar et al.（2001）提出了基於項目的演算法，其原理與基於使用者的演算法類似，一樣是透過使用者評分訊息建立關聯性，但是以計算項目之間的相似度取代使用者之間的相似度。. 具體實現的手法與基於使用者的演算法雷同，要先透過使用者的歷史評分訊息來計算兩兩項目的相似程度，接著，為每個項目找到與之相似度最高的幾. 政治大. 個鄰近項目，使用者 𝑢 對項目 𝑖 的預測評分 𝑟̂𝑢𝑖 就可藉由使用者 𝑢 對鄰近項目評分的加權平均獲得。. 立. ‧ 國. 學. 一般來說，基於項目的演算法因較少考慮使用者之間的差異，預測的平均精確度略遜基於使用者的演算法；但同一項目不同使用者的評分往往比同一使. ‧. 用者不同項目的評分變化劇烈，前者預測的穩定度反而優於後者。. y. Nat. io. sit. 在計算的效率上並無孰優孰劣，端看應用的場合，對於新聞或網路文章的. n. al. er. 推薦，項目（文章）數量往往是海量且更新頻繁，基於使用者的演算法就比較. i n U. v. 適合；對於電子商務在商品的推薦，使用者數量遠大於項目（商品）數量且更. Ch. engchi. 新頻繁，基於項目的演算法反而比較適合。. 然而，無論是基於使用者或基於項目，最近鄰法在每次推薦時，都需要動用到當前整個使用者評分資料庫，伴隨著使用者和項目的擴充，龐大的計算難以獲得即時的推薦結果。. 因此發展出基於模型的協同過濾技術，從歷史或部分資料中建立一個模型，每次推薦都是基於這個模型進行計算或預測，不需調用當前整個資料庫，大大提高了計算效率與系統擴充性，在其眾多演算法中又以矩陣分解法發展最為成熟。. 8.

(15) 2.2. 矩陣分解法將使用者偏好以矩陣的形式呈現，每一列對應一個使用者，每一行對應一. 個項目，其中的元素即為某使用者對某項目的偏好程度，那麼我們感興趣的是那些未被使用者表達的偏好，也就是矩陣中空缺的部分，這樣推薦問題就可視為一矩陣補全（Matrix Completion）的問題。. 矩陣分解為處理矩陣補全一經典算法，其核心概念認為，使用者的偏好只會受到少數幾個因子影響，所以我們可以從使用者偏好訊息中截取出一組潛在因子，藉由這些因子向量描述使用者和項目。. 政治大. 早期的矩陣分解手法為奇異值分解（Singular Value Decomposition, SVD），. 立. 此方法僅適用於稠密矩陣，而我們要處理的使用者評分矩陣往往是稀疏的，若. ‧ 國. 學. 要採用奇異值分解，得先填補使用者評分矩陣中大量的遺失值。很明顯的這樣會造成兩個問題，一，填補大量數值的過程會增加運算的複雜度和成本；二，. ‧. 填補的數值並非真實值，容易造成資料失真。. y. Nat. sit. 上述問題導致矩陣分解在推薦系統早期並未受到廣泛的關注，直到 Simon. al. er. io. Funk（2006）在部落格上發表了一個僅考慮已知評分訊息的矩陣分解方法，稱. v. n. 為 Funk-SVD，也就是後來被 Koren（2009）稱為潛在因子模型（Latent Factor Model）的矩陣分解方法。. Ch. engchi. i n U. 具體來說，我們希望將使用者評分矩陣 𝑅 分解為兩個低維矩陣相乘，即藉由已知的使用者評分訊息來學習使用者特徵矩陣 𝑃 和項目特徵矩陣 𝑄 （此處特徵的意義同前述的潛在因子），通過重構低維矩陣來預測使用者評分 𝑅 ≈ 𝑃𝑇 𝑄. （2.3）. 其中 𝑅 ∈ ℝ𝑚×𝑛 表示使用者歷史評分矩陣，在選定特徵維度 𝑘 下， 𝑃 ∈ ℝ𝑘×𝑚 、 𝑄 ∈ ℝ𝑘×𝑛 分別表示降維後的兩個特徵矩陣，那麼使用者 𝑢 對項目 𝑖 的預測評分 𝑟̂𝑢𝑖 可藉由下式求得. 9.

(16) 𝑟̂𝑢𝑖 = 𝑝𝑢𝑇 𝑞𝑖. （2.4）. 其中 𝑝𝑢 ∈ ℝ𝑘×1 表示使用者 𝑢 對於各特徵的偏好程度， 𝑃 = [𝑝1 𝑝2 … 𝑝𝑚 ] ； 𝑞𝑖 ∈ ℝ𝑘×1 表示項目 𝑖 所具備的特徵權重， 𝑄 = [𝑞1 𝑞2 … 𝑞𝑛 ] 。 Simon Funk（2006）認為，既然我們以 RMSE 作為評估準則，那麼藉由最小化訓練集的預測誤差來學習 𝑃 和 𝑄 ，也能最小化測試集的預測誤差，即最小化目標函數 𝐿 為 min 𝐿(𝑝∗ , 𝑞∗ ) = 𝑝∗ ,𝑞∗. (𝑟𝑢𝑖 − 𝑝𝑢𝑇 𝑞𝑖 )2. ∑. （2.5）. (𝑢,𝑖)∈𝑡𝑟𝑎𝑖𝑛. 政治大. 並藉由正則化項（Regularization）來避免過度配適（Overfitting），調整最小化. 立. 目標函數 𝐿 為. ‧ 國. 𝑝∗ ,𝑞∗. (𝑟𝑢𝑖 − 𝑝𝑢𝑇 𝑞𝑖 )2 + 𝜆(‖𝑝𝑢 ‖2 + ‖𝑞𝑖 ‖2 ). ∑. 學. min 𝐿(𝑝∗ , 𝑞∗ ) =. (𝑢,𝑖)∈𝑡𝑟𝑎𝑖𝑛. Nat. y. ‧. 其中 𝜆 為正則化係數， ‖𝑝𝑢 ‖2 、 ‖𝑞𝑖 ‖2 為 L2 正則化項。. （2.6）. sit. 接下來就是最佳化（Optimization）問題，基本上就是透過不斷的疊代找到. al. er. io. 目標函數 𝐿 的最佳解。一個可行的方法是隨機梯度下降法（Stochastic Gradient. v. n. Descent, SGD），藉由不斷的向函數負梯度方向搜索，在給定步幅大小 𝛼 下，就可透過下式. Ch. engchi. i n U. 𝑝𝑢 ← 𝑝𝑢 + 𝛼(2(𝑟𝑢𝑖 − 𝑝𝑢𝑇 𝑞𝑖 )𝑞𝑖 − 𝜆𝑝𝑢 ) （2.7） 𝑞𝑖 ← 𝑞𝑖 + 𝛼(2(𝑟𝑢𝑖 −. 𝑝𝑢𝑇 𝑞𝑖 )𝑝𝑢. − 𝜆𝑞𝑖 ). 更新 𝑝𝑢 、 𝑞𝑖 直到目標函數收斂。另一個可行的方法是交錯最小平方法（Alternating Least Squares），在給定 𝜆 的情況下，我們可在固定 𝑞𝑖 時以最小平方法得到 𝑝𝑢 ，亦可在固定 𝑝𝑢 時以最小平方法得到 𝑞𝑖 ，如此不斷的交錯重複上述兩步驟，可確保目標函數逐漸遞減直到收斂。. 10.

(17) 一般來說，隨機梯度下降法較簡單且快速，作為本研究重點討論的方法，將於第三章對此有更深入的探討，但交錯最小平方法的優勢在於可平行化（Parallel）運算且在處理二元的反饋資料上較有效。. 然而，無論是最近鄰法還是基於模型的矩陣分解法，協同過濾技術通常具有冷啟動和稀疏性的問題，面對稀少、甚至沒有任何偏好資訊的使用者，我們無法給予有效的推薦。. 因此，實務上常使用混合的技術進行推薦，以保有各種技術的優勢，彌補不同技術的缺陷。統計模型法在僅藉由使用者偏好訊息建模下，是一種基於模. 政治大. 型的協同過濾技術，若納入使用者特性或項目屬性等其他訊息建模，就是一種混合技術的概念。. ‧ 國. 學. 2.3. 立. 統計模型法. ‧. 貝氏混合效應模型（Bayesian Mixed Effects Models），或在某些領域被稱作. er. io. sit. Nat. 料的統計技術，被應用在推薦系統上。. y. 階層線性模型（Hierarchical Linear Models），是一種將迴歸原理推廣到多層次資. al. v i n C h，以線性函數模型建立其關係，並根據觀測資與反應變數（Response Variables） engchi U n. 概念上就是將研究者感興趣的變數分為解釋變數（Explanatory Variables）. 料估計模型中的參數，藉此了解變數之間的關係及強度，或是透過解釋變數預測反應變數。. Condliff et al.（1999）最早提出將貝氏混合效應模型應用在二元（系統以 1、0 紀錄有無特定行為）的反饋資料上，隔年 Ansari et al.（2000）將貝氏混合效應模型推廣，應用在評分式（系統給予 1-5 這樣一個區間或一組序列讓使用者選擇偏好程度）的反饋資料上，以使用者的偏好或評分為反應變數、使用者特性或項目屬性等資訊為解釋變數建立模型。. 11.

(18) 具體來說，令反應變數 𝑟𝑢𝑖 表使用者 𝑢 對項目 𝑖 的評分， 𝑧𝑢 、 𝑤𝑖 、 𝑥𝑢𝑖 為一些選定的解釋變數， 𝑧𝑢 含有使用者 𝑢 的特性， 𝑤𝑖 含有項目 𝑖 的屬性， 𝑥𝑢𝑖 同時含有使用者 𝑢 的特性、項目 𝑖 的屬性及其交互作用，便可假設模型如下 𝑟𝑢𝑖 = 𝑥𝑢𝑖 𝜇 + 𝑧𝑢 𝛾𝑖 + 𝑤𝑖 𝜆𝑢 + 𝜀𝑢𝑖 , （2.8） 𝛾𝑖 ~𝑁(0, 𝛤) , 𝜆𝑢 ~𝑁(0, Λ) , 𝜀𝑢𝑖 ~𝑁(0, 𝜎. 2). 其中 𝜇 、 𝛾𝑖 、 𝜆𝑢 、 𝜀𝑢𝑖 、 𝛤 、 Λ 、 𝜎 2 等參數用以描繪變數間的關係， 𝜇 稱為固定效應（Fixed Effects），說明評分來自眾解釋變數的可觀測之影響； 𝛾𝑖 、 𝜆𝑢 稱為隨機效應（Random Effects）， 𝛾𝑖 說明評分來自項目的不可觀測之影響並與觀測到的使用者特性有關， 𝜆𝑢 說明評分來自使用者的不可觀測之影響並與觀測. 政治大自其他未知因素的不可觀測之影響，且以 𝜎 表示其異質性。立. 到的項目屬性有關，且分別以 𝛤 、 Λ 表示 𝛾𝑖 、 𝜆𝑢 的異質性； 𝜀𝑢𝑖 說明評分來 2. ‧ 國. 學. Ansari et al.（2000）選擇以一種模擬的方式描繪出結構相對複雜的貝氏模型，也就是馬可夫鏈蒙地卡羅法（Markov Chain Monte Carlo, MCMC），藉此估. ‧. 計各項參數並預測使用者偏好。但如同最大概似法（Likelihood Maximization）、. sit. y. Nat. 最大期望法（Expectation Maximization）、變分近似法（Variational Approxima-. io. al. n. 大量的疊代計算。. er. tions）等方法，大部分應用在貝氏模型的參數估計方法都有個通病，就是需要. Ch. engchi. i n U. v. 因此，Perry（2014）就階層線性模型的觀點，提出以動差法（Momentbased）來估計參數，除了不需要這麼強的假設，也不需要大量的疊代計算，是一種犧牲統計效率換取計算效率的想法。統計模型的應用廣泛、結構多樣，衍伸出許多參數估計方式，作為本研究重點討論的方法，在模型結構及參數估計方式的選擇將於第三章有更深入的探討。. 12.

(19) 第三章. 研究方法. 本研究聚焦在矩陣分解法及隨機效應模型法的討論上，會使用到統計軟體 R 並配合 recosystem、rectools、lme4 等相關封包。第一節會更詳細的介紹隨機梯度下降法如何最佳化矩陣分解所需的目標函數，以及一種提升運算效率的改良隨機梯度下降法稱作 Fast Parallel SGD。第二節主要以統計模型當中的隨機效應模型角度建模，探討如何分別以最大概似法和動差法估計模型參數並預測。. 3.1. 矩陣分解法矩陣分解法的脈絡已在第二章論及，這一節將討論如何以隨機梯度下降法. 政治大. 最佳化目標函數來學習特徵矩陣 𝑃 和 𝑄 。. 立. 梯度下降法的思想是以函數當前位置所對應的負梯度方向進行搜索，因為. ‧ 國. 學. 該方向為當前位置下降最快的方向，藉此不斷的疊代搜索目標函數的極小值。為了探討其如何實現，我們先將（2.6）式寫成更一般化的形式. ‧. (𝑢,𝑖)∈𝑡𝑟𝑎𝑖𝑛. io. al. 𝜆𝑝 𝜆𝑞 ‖𝑝𝑢 ‖2 + ‖𝑞𝑖 ‖2 2 2. y. 𝑓(𝑝𝑢 , 𝑞𝑖 ; 𝑟𝑢𝑖 ) +. （3.1）. sit. ∑. er. 𝑝,𝑞. Nat. min 𝐿(𝑝, 𝑞) =. n. 其中 𝑓(𝑝𝑢 , 𝑞𝑖 ; 𝑟𝑢𝑖 ) 為誤差函數， ‖𝑝𝑢 ‖2 、 ‖𝑞𝑖 ‖2 為 L2 正則化項， 𝜆𝑝 、 𝜆𝑞 為對應的正則化係數。. Ch. engchi. i n U. v. 不同的誤差函數會得到不同的疊代更新式，若以 MAE 為評估準則，誤差函數為 |𝑟𝑢𝑖 − 𝑝𝑢𝑇 𝑞𝑖 | ，那麼目標函數的梯度為 𝜕𝐿 = −sign(𝑟𝑢𝑖 − 𝑝𝑢𝑇 𝑞𝑖 )𝑞𝑖 + 𝜆𝑝 𝑝𝑢 𝜕𝑝𝑢. （3.2）. 𝜕𝐿 = −sign(𝑟𝑢𝑖 − 𝑝𝑢𝑇 𝑞𝑖 )𝑝𝑢 + 𝜆𝑞 𝑞𝑖 𝜕𝑞𝑖 若以 RMSE 為評估準則，則誤差函數為第二章所提及的 (𝑟𝑢𝑖 − 𝑝𝑢𝑇 𝑞𝑖 )2 ，那麼目標函數的梯度為. 13.

(20) 𝜕𝐿 = −2(𝑟𝑢𝑖 − 𝑝𝑢𝑇 𝑞𝑖 )𝑞𝑖 + 𝜆𝑝 𝑝𝑢 𝜕𝑝𝑢. （3.3）. 𝜕𝐿 = −2(𝑟𝑢𝑖 − 𝑝𝑢𝑇 𝑞𝑖 )𝑝𝑢 + 𝜆𝑞 𝑞𝑖 𝜕𝑞𝑖 根據（3.2）和（3.3）式可分別得到不同誤差函數下的特徵矩陣更新公式為 𝑝𝑢 ← 𝑝𝑢 + 𝛼(sign(𝑟𝑢𝑖 − 𝑝𝑢𝑇 𝑞𝑖 )𝑞𝑖 − 𝜆𝑝 𝑝𝑢 ) （3.4） 𝑞𝑖 ← 𝑞𝑖 + 𝛼(sign(𝑟𝑢𝑖 −. 𝑝𝑢𝑇 𝑞𝑖 )𝑝𝑢. − 𝜆𝑞 𝑞𝑖 ). 和. 政治大. 𝑝𝑢 ← 𝑝𝑢 + 𝛼(2(𝑟𝑢𝑖 − 𝑝𝑢𝑇 𝑞𝑖 )𝑞𝑖 − 𝜆𝑝 𝑝𝑢 ). 立. 𝑞𝑖 ← 𝑞𝑖 + 𝛼(2(𝑟𝑢𝑖 −. 𝑝𝑢𝑇 𝑞𝑖 )𝑝𝑢. （3.5）. − 𝜆𝑞 𝑞𝑖 ). ‧ 國. 學. 其中 𝛼 表示學習率，相當於下降的步幅，可自己選擇並視情況調整。. ‧. 選擇合適的學習率，根據（3.4）和（3.5）式疊代一定次數，直到目標函數. y. Nat. 收斂或在一個可接受的誤差下，此時得到的特徵矩陣 𝑃 和 𝑄 即為所求，接著便. n. er. io. al. sit. 可根據（2.4）式預測特定使用者對特定項目的偏好。. i n U. v. 最原始的梯度下降法是批量（Batch）梯度下降法，每次學習都會使用所有. Ch. engchi. 訓練集的資料，每次疊代都是朝著全局的最佳化方向下降，可想而知，當資料量越大運算成本也越大。取而代之的是隨機梯度下降法，每次學習從訓練集抽出一定數量的樣本來使用，每次疊代是依據樣本朝著相對最佳方向下降。後者因受到擾動，收斂所需疊代次數比起前者要高，但整體運算成本可能較低。. 早期的梯度下降法被認為不容易平行化運算，但隨者矩陣分解法的發展越發成熟，已經有越來越多能夠平行化處理矩陣分解的方法問世，像是 Chin et al. （2015）提出的 Fast Parallel SGD（FPSGD）演算法。本研究在使用矩陣分解法進行實證研究時，便是使用到 Qiu et al.（2017）以 FPSGD 演算法為基礎開發的 recosystem 封包。. 14.

(21) Chin et al.（2015）提到 FPSGD 不僅做到平行化處理，還優化了平行化運算常會遇到的 locking problem 和 memory discontinuity 問題，是一種高效的演算法。所謂的 locking problem 是指當某一線程先完成了工作在等待其他線程完成工作而空轉的現象；而 memory discontinuity 是指不連續地訪問內存記憶體中的數據，可想而知，這兩個問題都會影響運算效率。. T. R. R 11. R 12. P1. 13. T. R. R 21. R 22. P2. 23. Q1. Q2. Q3. T. R. R 31. R 32. 33. P3. 政 P治大 T. R. 立圖 3.1. Q. DSGD 運作示意圖. ‧ 國. 學. FPSGD 改良於 Distributed SGD（DSGD），DSGD 的概念就是根據線程數. ‧. 𝑠 ，將評分矩陣分割成 𝑠 × 𝑠 塊等大小的區塊，當某線程在運行某區塊時，其他線程可同步運行其他獨立區塊。圖 3.1 即為一個 3 線程 DSGD 的運作示意圖，. y. Nat. sit. 某線程在運行 𝑅11 時，相當於在學習 𝑃1𝑇 、 𝑄1 ，因此與 𝑅11 同列或同行的區塊. er. io. 和 𝑃1𝑇 或 𝑄1 有關將無法被其他線程運行，但與 𝑅11 獨立的 𝑅22 、 𝑅23 、 𝑅32 、. al. v i n Ch 區塊分配樣式，3 線程會同時開始在某種樣式下運作，待所有區塊運作完畢，便 engchi U n. 𝑅33 等區塊仍可由其他線程同步運行。圖 3.2 即為 3 線程 DSGD 的所有可能獨立. 會選擇另種樣式運作。. 圖 3.2 3 線程 DSGD 所有可能獨立區塊分配樣式. 由於有些使用者評分多、有些使用者評分少，使得評分矩陣往往是不平衡的，因此每個分割區塊多半也是不平衡的，進而造成 locking problem，也就是先完成的線程要等待最慢完成（可能是區塊最稠密）的線程。. 15.

(22) Chin et al.（2015）便提出以 lock-free scheduling 解決此問題，根據安排的線程數 𝑠 ，系統會將區塊至少分割成 (𝑠 + 1) × (𝑠 + 1) 個區塊，如此能確保在最多 𝑠 塊被同步運行時，必定至少有一塊獨立區塊可供先完成線程接續運行。. 另外，SGD 是隨機選取樣本點來進行更新，必然會不連續地訪問內存記憶體中的數據，進而造成 memory discontinuity，又 Chin et al.（2015）實驗顯示若將運算過程完全依使用者或項目排序後訪問，收斂結果可能不如隨機訪問來得好。. Chin et al.（2015）便折衷提出了 partial random method，當一個線程要訪問. 政治大隨機性可在一開始分割更多區塊，但是每個區塊內的運算則都會依使用者或項立目排序後訪問，如此便能在運算效率和收斂速度上取得平衡。. 一個新的區塊，是從被訪問次數最少的幾個獨立區塊中隨機選擇一個，為提高. ‧ 國. 學 ‧. 隨機效應模型法. 3.2. 第二章我們看到以某種混合效應模型建模應用在推薦系統上，然而統計模. y. Nat. sit. 型在建模過程會根據經驗或實驗，在解釋變數的選擇上有諸多可能，隨機變數. er. io. 的分配、共變異數矩陣的結構上也有諸多因應假設，衍伸出的參數估計方法也. al. n. v i n Ch 似法和動差法估計參數後探討；輔以整合使用者特性或項目屬性等訊息建立混 engchi U 不盡相同。本研究主要以使用者評分訊息建立隨機效應模型，並分別以最大概. 合效應模型，以最大概似法估計參數後探討。. rectools 封包由 Matloff（2017）開發，是個整合最近鄰法、矩陣分解法、隨機效應模型法等協同過濾技術，以及平行化運算的封包，本研究會使用到當中與隨機效應模型法相關的函數。. 最大概似法. 3.2.1. Rectools 封包中使用到 Bates et al.（2017）所開發的 lme4 封包，以最大概似法處理隨機效應模型和混合效應模型，然而隨機效應模型不過是混合效應模型的特例，因此本小節會以較一般的混合效應模型結構進行論述。 16.

(23) Bates et al.（2015）以隨機變數 𝒴 表示 𝑠 維的反應變數向量和隨機變數 ℬ 表示 𝑞 維的隨機效應向量，並以 (𝒴|ℬ = 𝑏) 的條件分配和 ℬ 的非條件分配兩部分呈現混合效應模型 (𝒴|ℬ = 𝑏) ~ 𝑁(𝑋𝛽 + 𝑍𝑏, 𝜎 2 𝑊 −1 ), （3.6） ℬ ~ 𝑁(0, Σ) 其中 (𝒴|ℬ = 𝑏) 的條件期望值為 𝑋𝛽 + 𝑍𝑏 ，取決於 𝑝 維的固定效應 𝛽 和 𝑞 維的 𝑏 ； 𝑋 、 𝑍 維度分別為 𝑠 × 𝑝 、 𝑠 × 𝑞 表解釋變數構成的設計矩陣； 𝜎 2 𝑊 −1 表條件隨機變數 (𝒴|ℬ = 𝑏) 的共變異數矩陣， 𝜎 為尺度參數， 𝑊 為一對角矩陣表事先給予的權重； Σ 維度為 𝑞 × 𝑞 表隨機變數 ℬ 的共變異數矩陣。. 政治大令 𝒴 表使用者評分將（3.6）式應用在推薦系統上，僅以使用者評分訊息可立. ‧ 國. 學. 令 𝛽 = [ 𝜇 ] 、 ℬ = [𝜏1 … 𝜏𝑚 𝛼1 … 𝛼𝑛 ]𝑇 建立隨機效應模型，其中固定效應 𝜇 表. 示不受其他影響下的整體平均評分，隨機效應 𝜏𝑢 , 𝑢 = 1, … , 𝑚 、 𝛼𝑖 , 𝑖 = 1, … , 𝑛 分別表示評分來自第 𝑢 個使用者和第 𝑖 個項目的影響。. ‧ sit. y. Nat. 整合其他訊息則可令 𝛽 = [ 𝛽1 … 𝛽𝑝 ] 、 ℬ = [𝜏1 … 𝜏𝑚 𝛼1 … 𝛼𝑛 ]𝑇 建立混合效. io. er. 應模型，其中固定效應 𝛽1 … 𝛽𝑝 表示評分來自整合訊息的可觀測影響，隨機效應 𝜏𝑢 , 𝑢 = 1, … , 𝑚 、 𝛼𝑖 , 𝑖 = 1, … , 𝑛 同樣分別表示評分來自第 𝑢 個使用者和第 𝑖 個. al. n. 項目的影響。. Ch. engchi. i n U. v. 回到（3.6）式討論如何估計參數，Bates et al.（2015）首先定義 𝑞 × 𝑞 的 relative covariance factor, 𝛬𝜃 與 variance-component parameter, 𝜃 有關，根據下式生成 𝑞 × 𝑞 的共變異數矩陣 𝛴 𝛴𝜃 = 𝜎 2 𝛬𝜃 𝛬𝑇𝜃. （3.7）. 再定義一個 spherical random effects, 𝒰 ~ 𝑁(0, 𝜎 2 𝐼𝑞 ) 並令其與 ℬ 的關係為 ℬ = 𝛬𝜃 𝒰 重新表現（3.7）式的條件分配為. 17. （3.8）.

(24) (𝒴|𝒰 = 𝑢) ~ 𝑁(𝑋𝛽 + 𝑍𝛬𝜃 𝑢, 𝜎 2 𝑊 −1 ). （3.9）. 這樣重新表現能讓計算更穩定且有效率，並允許我們處理奇異（Singular）的共變異數矩陣。. Bates et al.（2015）以最大概似法配適模型時，會不斷的利用到懲罰最小平方法（Penalized Least Squares, PLS），具體來說，就是要最小化受懲罰的加權殘差平方和（Penalized Weighted Residual Sum of Squares） 2. （3.10）. 𝑟 2 (𝜃, 𝛽, 𝑢) = ‖𝑊 1/2 (𝑦 − 𝑋𝛽 − 𝑍𝛬𝜃 𝑢)‖ + ‖𝑢‖2. 政治大. 其中 ‖𝑢‖2 即為懲罰項。接著，改寫 𝑟 2 (𝜃, 𝛽, 𝑢) 為. 立. 1/2. 0. 𝑦 ] − [𝑊. 1/2. 2. 𝑊 1/2 𝑋 𝑢 ] [𝛽 ]‖ 0. 𝑍𝛬𝜃. 𝐼𝑞. （3.11）. 學. ‧ 國. 𝑟 2 (𝜃, 𝛽, 𝑢) = ‖[𝑊. 這樣的表達式相當於處理一般的最小平方問題，也就是說，最小化 𝑟 2 (𝜃, 𝛽, 𝑢) 𝛽̂𝜃 ]𝑇 會滿足 normal equations. y. 𝛽̂𝜃 ]𝑇 與 𝜃 有關。再來，將（3.12）式的外積矩陣進行. al. n. Cholesky decomposition. （3.12）. er. io. 且從（3.12）式可知 [𝑢̂𝜃. 𝛬𝜃 𝑇 𝑍 𝑇 𝑊𝑋 𝑢̂𝜃 ][ ̂ ] 𝛽𝜃 𝑋 𝑇 𝑊𝑋. sit. 𝛬𝜃 𝑇 𝑍 𝑇 𝑊𝑦 𝛬𝜃 𝑇 𝑍 𝑇 𝑊𝑍𝛬𝜃 + 𝐼 = ] [ 𝑋 𝑇 𝑊𝑦 𝑋 𝑇 𝑊𝑍𝛬𝜃. Nat. [. ‧. 的 [𝑢̂𝜃. 𝛬𝜃 𝑇 𝑍 𝑇 𝑊𝑍𝛬𝜃 + 𝐼 [ 𝑋 𝑇 𝑊𝑍𝛬𝜃. Ch. engchi. i n U. 𝐿𝜃 𝛬𝜃 𝑇 𝑍 𝑇 𝑊𝑋 = [ ] 𝑇 𝑅𝑍𝑋 𝑋 𝑇 𝑊𝑋. v. 0 𝐿𝑇𝜃 ][ 𝑅𝑋𝑇 0. 𝑅𝑍𝑋 ] 𝑅𝑋. （3.13）. 根據（3.13）式重寫 𝑟 2 (𝜃, 𝛽, 𝑢) 為 𝑟 2 (𝜃, 𝛽, 𝑢) = 𝑟 2 (𝜃, 𝛽̂𝜃 , 𝑢̂𝜃 ) + （3.14） 2. ‖𝐿𝑇𝜃 (𝑢 − 𝑢̂𝜃 ) + 𝑅𝑍𝑋 (𝛽 − 𝛽̂𝜃 )‖ + ‖𝑅𝑋 (𝛽 − 𝛽̂𝜃 )‖. 2. 這樣處理可提升後續數值運算的效率。接下來，就要透過 (𝒴|𝒰 = 𝑢) 和 𝒰 的機率密度函數取得概似函數，事實上，這裡的機率密度函數都會與 𝑟 2 (𝜃, 𝛽, 𝑢) 有關，這也是為什麼在最大化概似函數前要先探討懲罰最小平方法。 18.

(25) lme4 在參數估計上除了使用一般的最大概似法外，還可選擇使用限制最大概似法（Restricted Maximum Likelihood），相較於一般的最大概似法，限制最大概似法最大化一個移除固定效應影響的概似函數，以獲取不偏的變異數成分（Variance Component）估計值，較適用於具有隨機效應的統計模型上。. 本研究便選擇以限制最大概似法估計參數，其概似函數會與一般的最大概似法不同，透過 (𝒴|𝒰 = 𝑢) 和 𝒰 的機率密度函數得到負二倍概似函數為 −2 𝑙𝑛 𝐿(𝜃, 𝜎 2 |𝑦) = (𝑛 − 𝑝) 𝑙𝑛(2𝜋𝜎 2 ) + 𝑙𝑛. |𝐿𝜃 |2 |𝑅𝑋 |2 𝑟 2 (𝜃, 𝛽̂𝜃 , 𝑢̂𝜃 ) + |𝑊| 𝜎2. （3.15）. 僅與 𝜃 和 𝜎 2 有關，若先針對 𝜎 2 偏微分得到 𝜎 2 的條件估計為. 立. 政𝑟 (𝜃, 𝛽̂治 , 𝑢̂ ) 大 𝜎̂ = 2. 2 𝜃. 𝜃. 𝜃. （3.16）. 𝑛−𝑝. ‧ 國. 學. 再代回（3.15）式便可得到一個僅與 𝜃 有關的負二倍概似函數為 |𝐿𝜃 |2 |𝑅𝑋 |2 2𝜋𝑟 2 (𝜃, 𝛽̂𝜃 , 𝑢̂𝜃 ) + (𝑛 − 𝑝) [1 + 𝑙𝑛 ] |𝑊| 𝑛−𝑝. ‧. −2 𝑙𝑛 𝐿(𝜃|𝑦) = 𝑙𝑛. （3.17）. sit. y. Nat. 最小化（3.17）式就可得 𝜃 的最大概似估計 𝜃̂ ，這又是個需要反覆疊代的最佳. er. io. 化問題。得到 𝜃̂ 便可回推的 𝛽 、 𝑢 、 𝜎 2 的最大概似估計 𝛽̂𝜃̂ 、 𝑢̂𝜃̂ 、 𝜎̂𝜃̂2 ，並根據（3.9）式條件期望的估計預測評分. n. al. Ch. engchi. i n U. v. 𝜇̂ 𝒴|𝒰=𝑢̂𝜃̂ = 𝑋𝛽̂𝜃̂ + 𝑍𝛬𝜃̂ 𝑢̂𝜃̂. 3.2.2. （3.18）. 動差法. Rectools 封包以 Gao & Owen（2016）所提出的方法為基礎，開發以動差法處理隨機效應模型的函數。若 𝑟𝑢𝑖 作為反應變數表使用者 𝑢 對項目 𝑖 的評分，則整個系統可以將使用者和項目當作因子，視為一個兩因子隨機效應模型，假設模型如下 𝑟𝑢𝑖 = 𝜇 + 𝜏𝑢 + 𝛼𝑖 + 𝜀𝑢𝑖 （3.19） 𝜏𝑢 ~(0, 𝜎𝛵2 ). ,. 𝛼𝑖 ~(0, 𝜎𝛢2 ) 19. ,. 𝜀𝑢𝑖 ~(0, 𝜎𝐸2 ).

(26) 其中 𝜇 為固定效應，表示不受使用者和項目影響下的平均評分； 𝜏𝑢 、 𝛼𝑖 為隨機效應，分別表示評分來自第 𝑢 個使用者和第 𝑖 個項目的影響，以 𝜎𝛵2 、 𝜎𝛢2 描述其異質性； 𝜀𝑢𝑖 表示評分來自其他未知因素之影響，以 𝜎𝐸2 描述其異質性。 Gao & Owen（2016）使用動差法來估計變異數成分，並應用其在估計未知的 𝑟𝑢𝑖 上，他們從最佳線性預測量（Best Linear Predictor）角度切入，得到一個在計算效率不是那麼好的結果，因此考慮一個限制較多的線性預測量稱作 shrinkage predictor，並給出一個定理。. 若 𝑁𝑢∙ 表示第 𝑢 個使用者的評分數， 𝑁∙𝑖 表示第 𝑖 個項目的被評分數，假設. 政治大 < ∞ ，那麼使用者 𝑢 對項目 𝑖 的預測評分 𝑟̂ 可得立. 對於某個 𝜂 ∈ (0, 1) 滿足 1⁄𝜂 ≤ 𝑁𝑢∙ ≤ 𝜂𝑁 和 1⁄𝜂 ≤ 𝑁∙𝑖 ≤ 𝜂𝑁 ，且 0 < 𝜇2 , 𝜎𝐴2 , 𝜎𝐵2 , 𝜎𝐸2. 𝑢𝑖. ‧ 國. as 𝜂 → 0. 學. 𝑟̂𝑢𝑖 = (𝑟̅𝑢∙ + 𝑟̅∙𝑖 − 𝑟̅∙∙ )(1 + 𝑂(𝜂)),. （3.20）. 其中 𝑟̅𝑢∙ 為使用者 𝑢 的平均評分， 𝑟̅∙𝑖 為項目 𝑖 的平均評分， 𝑟̅∙∙ 為整個歷史資料. ‧. io. sit. y. Nat. n. al. er. 的平均評分。. Ch. engchi. 20. i n U. v.

(27) 第四章. 實證研究. 本研究使用的 MovieLens 數據來自明尼蘇達大學 GroupLens 團隊的一項計畫，其運作 MovieLens 網站（http://movielens.org）用於收集評分數據並研究協同過濾和個性化推薦等相關技術，且將收集到的數據提供給其他研究者使用，可於（https://grouplens.org/datasets/movielens/）下載。. 提供的數據集根據其不同時期收集到的有 100K、1M、10M、20M 等不同大小，分別包含 10 萬、100 萬、1000 萬、2000 萬筆評分數據。本研究會使用到 100K 和 1M 兩種不同大小的數據集，第一節會分別描述兩種數據集的資料結構，第二節會敘述整個試驗流程，第三節會分別討論兩種數據集的分析結果。. 立. 資料描述. 學. ‧ 國. 4.1. 政治大. 100K 的數據集從 1997 年 9 月 19 日到 1998 年 4 月 22 日，收集了 943 個使用者對 1682 部電影共 100000 筆評分，每個使用者至少對 20 部電影進行評分，. ‧. 以 1-5 的評分作為其偏好程度。其中還包含了每個使用者的人口統計資料（年. n. al. er. io. sit. y. Nat. 齡、性別、職業）以及每部電影的分類訊息。. 圖 4.1. Ch. engchi. i n U. v. MovieLens 100K 數據集的評分數分布. 若以總評分數占評分空間的比例來看稀疏程度，僅有 6.3%左右的數據被評分，另外，圖 4.1 左圖為每個使用者評分數的分布、右圖為每部電影被評分數的分布，若以評分數小於等於 20 視為有潛在冷啟動問題的使用者和電影，分別有 3.3%和 44.9%的使用者和電影可能有冷啟動問題。. 21.

(28) 1M 的數據集收集了 2000 年加入 Movielens 的 6040 個使用者對近 3952 部電影共 1000209 筆評分，每個使用者至少對 20 部電影進行評分，以 1-5 的評分作為其偏好程度。其中還包含了每個使用者的人口統計資料（性別、年齡、職業）以及每部電影的分類訊息。. 圖 4.2. 立. 政治大. MovieLens 1M 數據集的評分數分布. ‧ 國. 學. 若以總評分數占評分空間的比例來看稀疏程度，僅有 4.2%左右的數據被評分，另外，圖 4.2 左圖為每個使用者評分數的分布、右圖為每部電影被評分數的. 1.4%和 17.6%的使用者和電影可能有冷啟動問題。. Nat. sit. y. ‧. 分布，若以評分數小於等於 20 視為有潛在冷啟動問題的使用者和電影，分別有. er. io. 從 Movielens 提供的數據量級隨時間先後而增加，以及之後實驗結果在運算. al. n. v i n Ch 結構的同時，亦看到各數據集或多或少存在推薦系統常面臨到的問題。 engchi U. 效率的討論上，觀察到可擴充性問題的存在。我們透過簡單描述各數據集資料. 4.2. 試驗流程本研究將針對各演算法進行 100 次試驗，每次試驗從資料中隨機抽取一定. 比例作為訓練集用以建構模型，剩下的部分作為測試集用以評估模型，最後綜合分析結果。. 圖 4.3 為矩陣分解法的試驗流程，根據 3.1 節討論，整個過程有幾個參數需要決定，包含特徵維度 𝑘、正則化係數 𝜆𝑝 、 𝜆𝑞 、學習率 𝛼 和疊代次數。. 22.

(29) 記錄運行時間預先試驗. 資料分組. 建模與預測. 調整模型參數. 計算誤差. 結果分析. 圖 4.3 矩陣分解法的試驗流程. 預先試驗目的在選擇合適的學習率 𝛼 和疊代次數，使得不同參數組合下的損失函數都能穩定收斂，以確保後續建模得到適當結果。接著，每次試驗都要先將資料分組，也就是從原始資料隨機抽取 10%作為測試集，剩下的 90%作為訓練集。. 政治大本研究在其他的參數選擇上，是以封包預設的特徵維度 𝑘 = (10, 20) 、正立則化係數 𝜆 = (0.1, 0.01) 、 𝜆 = (0.1, 0.01) 交叉共八種組合下去進行。調整模 𝑝. 𝑞. ‧ 國. 學. 型參數就是將訓練集分成 5 等分，針對不同的參數組合進行 5 折交叉驗證（5fold Cross Validation），從中選擇平均 MAE 或 RMSE 最小的組合，便是此次試. ‧. 驗的最適參數。. sit. y. Nat. 根據最適參數以原來的訓練集建模，假設測試集未知並進行預測，與實際. io. n. al. er. 測試集比較計算 MAE 和 RMSE 當作誤差。然後重複「資料分組、調和模型參. i n U. v. 數、建模與預測、計算誤差」過程 100 次，並記錄每次建模與預測所花時間。. Ch. engchi. 記錄運行時間資料分組. 建模與預測. 計算誤差. 結果分析. 圖 4.4 隨機效應模型法的試驗流程. 圖 4.4 為隨機效應模型法的試驗流程，不會有任何預先試驗，每次試驗一樣都要先將資料分組，也就是從原始資料隨機抽取 10%作為測試集，剩下的 90% 作為訓練集，且分組結構會與矩陣分解法相同。. 23.

(30) 不需要調整模型參數，但會如同（4.1）～（4.5）式所示以不同參數結構與不同參數估計方式建模，其中（4.2）～（4.4）式僅以 100K 數據集為例，根據訓練集建模後，一樣假設測試集未知並進行預測，與實際測試集比較計算 MAE 和 RMSE 當作誤差。然後重複「資料分組、建模與預測、計算誤差」過程 100 次，並記錄每次建模與預測所花時間。. 在沒有使用任何其他訊息，僅以使用者評分訊息假設模型如（4.1）式所示，並以最大概似法估計參數（Maximum Likelihood Estimation, MLE） 𝑟𝑢𝑖 = 𝜇 + 𝜏𝑢 + 𝛼𝑖 + 𝜀𝑢𝑖. （4.1） 𝜏𝑢 ~𝑁(0, 𝜎𝛵2 ). ,. 立. , 政治大 𝛼𝑖 ~𝑁(0, 𝜎𝛢2 ). 𝜀𝑢𝑖 ~𝑁(0, 𝜎𝐸2 ). 整合使用者特性於使用者評分訊息假設模型如（4.2）式所示，並以最大概. ‧ 國. 學. 似法估計參數（Maximum Likelihood Estimation for Ratings Incorporating User Characteristics, MLEU）. ‧. 𝑟𝑢𝑖 = 𝛽0 + 𝛽1 𝐴𝑔𝑒𝑢 + 𝛽2 𝐺𝑒𝑛𝑑𝑒𝑟𝑢 + 𝛽3 𝐴𝑟𝑡𝑖𝑠𝑡𝑢 + ⋯ + 𝛽22 𝑊𝑟𝑖𝑡𝑒𝑟𝑢. al. （4.2）. er. io. sit. y. Nat. +𝜏𝑢 + 𝛼𝑖 + 𝜀𝑢𝑖. n. 𝜏𝑢 ~𝑁(0, 𝜎𝛵2 ) , 𝛼𝑖 ~𝑁(0, 𝜎𝛢2 ) , 𝜀𝑢𝑖 ~𝑁(0, 𝜎𝐸2 ). Ch. engchi. i n U. v. 整合項目屬性於使用者評分訊息假設模型如（4.3）式所示，並以最大概似法估計參數（Maximum Likelihood Estimation for Ratings Incorporating Item Attributes, MLEI） 𝑟𝑢𝑖 = 𝛽0 + 𝛽1 𝑈𝑛𝑘𝑛𝑜𝑤𝑖 + ⋯ + 𝛽19 𝑊𝑒𝑠𝑡𝑒𝑟𝑛𝑖 + 𝜏𝑢 + 𝛼𝑖 + 𝜀𝑢𝑖. （4.3） 𝜏𝑢 ~𝑁(0, 𝜎𝛵2 ). ,. 𝛼𝑖 ~𝑁(0, 𝜎𝛢2 ). ,. 𝜀𝑢𝑖 ~𝑁(0, 𝜎𝐸2 ). 同時整合使用者特性和項目屬性於使用者評分訊息假設模型如（4.4）式所示，並以最大概似法估計參數（Maximum Likelihood Estimation for Ratings Incorporating User Characteristics and Item Attributes, MLEUI） 24.

(31) 𝑟𝑢𝑖 = 𝛽0 + 𝛽1 𝐴𝑔𝑒𝑢 + 𝛽2 𝐺𝑒𝑛𝑑𝑒𝑟𝑢 + 𝛽3 𝐴𝑟𝑡𝑖𝑠𝑡𝑢 + ⋯ + 𝛽22 𝑊𝑟𝑖𝑡𝑒𝑟𝑢 +𝛽23 𝑈𝑛𝑘𝑛𝑜𝑤𝑖 + ⋯ + 𝛽41 𝑊𝑒𝑠𝑡𝑒𝑟𝑛𝑖 + 𝜏𝑢 + 𝛼𝑖 + 𝜀𝑢𝑖. （4.4）. 𝜏𝑢 ~𝑁(0, 𝜎𝛵2 ) , 𝛼𝑖 ~𝑁(0, 𝜎𝛢2 ) , 𝜀𝑢𝑖 ~𝑁(0, 𝜎𝐸2 ). 在沒有使用任何其他訊息，僅以使用者評分訊息假設模型如（4.5）式所示，並以動差法估計參數（Method of Moment Estimation, MM） 𝑟𝑢𝑖 = 𝜇 + 𝜏𝑢 + 𝛼𝑖 + 𝜀𝑢𝑖. （4.5） 𝜏𝑢 ~(0, 𝜎𝛵2 ). 立. ,. 𝛼𝑖 ~(0, 𝜎𝛢2 ). ,. 𝜀𝑢𝑖 ~(0, 𝜎𝐸2 ). 政治大. 最後分兩部分綜合分析各演算法的結果。一、以 100 次的 MAE 和 RMSE. ‧ 國. 學. 衡量預測的準確性及穩定性，二、以平均單次運算時間衡量運算效率。. ‧. 結果分析. 4.3.1. MovieLens 100K 數據集. sit. y. Nat. 4.3. n. al. er. io. 圖 4.5 為某組訓練集在 10-0.01-0.01、10-0.1-0.1、20-0.01-0.01、20-0.1-0.1 （xx-xx-xx 分別代表𝑘- 𝜆𝑝 - 𝜆𝑞 ）等參數組合形式下，以 MAE 為損失函數分別以 𝛼 = 0.01 和 𝛼 = 0.03 在不同疊代次數下預先試驗的結果。. Ch. engchi. i n U. v. 𝛼 = 0.03. 𝛼 = 0.01. 圖 4.5 100K 數據集的預先試驗（絕對損失函數）. 25.

(32) 圖 4.6 為某組訓練集在 10-0.01-0.01、10-0.1-0.1、20-0.01-0.01、20-0.1-0.1 （xx-xx-xx 分別代表𝑘- 𝜆𝑝 - 𝜆𝑞 ）等參數組合形式下，以 RMSE 為損失函數分別以 𝛼 = 0.01 和 𝛼 = 0.03 在不同疊代次數下預先試驗的結果。. 𝛼 = 0.03. 𝛼 = 0.01. 政治大圖 4.6 100K 數據集的預先試驗（二次損失函數）立. ‧ 國. 學. 從圖 4.5 和圖 4.6 可以發現 𝛼 = 0.03 時，會有某些參數組合的損失函數不收斂，另外，在 𝛼 = 0.01 下疊代次數在 80 次左右，不同參數組合的損失函數. ‧. 會趨於相對穩定。因此，本研究在 100K 數據集的矩陣分解法上會以 𝛼 = 0.01. sit. y. Nat. 下進行，並在調整模型階段時，選定疊代次數為 80 次，但在建模階段為了讓收. io. n. al. er. 斂結果更好，選定疊代次數為 100 次。. Ch. engchi. i n U. v. 圖 4.7 100K 數據集各演算法 MAE 的 Boxplot. 26.

(33) 圖 4.7 為 100K 數據集各演算法 MAE 的 Boxplot，可看到 MF 法 75%的結果比 MLE 法 75%的結果和所有 MM 法的結果來得好；且 MLE 法無論有沒有整合其他訊息，至少有 50%的結果比 MM 法 75%的結果來得好，整體來說 MF 法的表現優於 MLE 法優於 MM 法。另外，從各演算法的上下界來看，MF 法和 MM 法差不多寬，都比 MLE 法來得窄，整體來說 MF 法和 MM 法的穩定度表現差不多，都比 MLE 法來得好。. 表 4.1 100K 數據集各演算法 MAE 的平均值和變異數. 演算法. MF. MLE. MLEU. MLEI. MLEUI. MM. Mean. 0.740149. 0.754187. 0.754169. 0.751755. 0.751734. 0.758629. Variance. 0.000038. 0.000149. 0.000120. 0.000034. 立. 治 0.000120 政0.000150 大. 表 4.1 為 100K 數據集各演算法 MAE 的平均值和變異數，從平均值來看各. ‧ 國. 學. 演算法的整體表現，MF 法優於 MLE 法優於 MM 法；又就 MLE 法來說，整合人口統計資料並沒有太大的改善表現，整合電影分類訊息則有略為改善表現，. ‧. 同時整合人口統計資料和電影分類訊息的表現與單整合電影分類訊息的表現差. sit. y. Nat. 不多。另外，從變異數來看各演算法的穩定度，MF 法和 MM 法的穩定度表現差不多，都比 MLE 法來得好；又就 MLE 法來說，只要有整合電影分類訊息表. io. n. al. er. 現就會比較穩定，大致上的推論與就圖 4.7 得到的差不多。. Ch. engchi. i n U. v. 圖 4.8 100K 數據集各演算法 RMSE 的 Boxplot. 27.

(34) 圖 4.8 為 100K 數據集各演算法 RMSE 的 Boxplot，由於 RMSE 對評測更為嚴苛，值相較於 MAE 因誤差被放大而更大，但各演算法的相對結果是差不多的。可看到 MF 法 75%的結果比 MLE 法 50%的結果和大部分 MM 法的結果來得好；且 MLE 法無論有沒有整合其他訊息，至少有 50%的結果比 MM 法 75% 的結果來得好，整體來說 MF 法的表現優於 MLE 法優於 MM 法。但從 MF 法和 MLE 法前 25%結果來看，有時候 MLE 法的表現會與 MF 法相當。另外，從各演算法的上下界來看，MF 法和 MM 法差不多寬，都比 MLE 法來得窄，整體來說 MF 法和 MM 法的穩定度表現差不多，都比 MLE 法來得好。. 表 4.2 100K 數據集各演算法 RMSE 的平均值和變異數. 演算法 Mean. MLE. 0.000053. 0.000233. 0.000234. 0.000182. MLEUI. MM. 0.951192. 0.964991. 0.000183. 0.000053. 學. ‧ 國. Variance. 治 MLEI 政 MLEU 大 0.945327 0.954613 0.954652 0.951158 立 MF. 表 4.2 為 100K 數據集各演算法 RMSE 的平均值和變異數，從平均值來看各. ‧. 演算法的整體表現，MF 法優於 MLE 法優於 MM 法，又就 MLE 法來說，整合. sit. y. Nat. 人口統計資料並沒有太大的改善表現，整合電影分類訊息則有略為改善表現，同時整合人口統計資料和電影分類訊息的表現與單整合電影分類訊息的表現差. io. n. al. er. 不多。另外，從變異數來看各演算法的穩定度，MF 法和 MM 法的穩定度表現. i n U. v. 差不多，都比 MLE 法來得好；又就 MLE 法來說，只要有整合電影分類訊息表. Ch. engchi. 現就會比較穩定，大致上的推論與就圖 4.8 得到的差不多。. 表 4.3 100K 數據集各演算法的平均單次運算時間. 演算法. Time(s). MF _MAE. MF _RMSE. MLE. MLEU. MLEI. MLEUI. 5.8903 5.8242 (47.8830) (45.9069) 12.8375 14.8630 14.6728 18.1390. MM 0.0946. 最後，在運算效率的討論上，表 4.3 整理了 100K 數據集各演算法的平均單次運算時間，其中 MF 法括號中是含調整模型參數的時間。僅就建模過程來說，不需要疊代的 MM 法優於其他演算法，又 MF 法的表現優於 MLE 法。 28.

(35) 另外，MF 法在以 MAE 為損失函數時的效率略低於以 RMSE 為損失函數時，MLE 法隨著參數變多，也就是模型更複雜時，合理的效率會變低，當然如果連調整模型參數都考慮進去時，MF 法的表現則大大不如其他演算法。. MovieLens 1M 數據集. 4.3.2. 圖 4.9 為某組訓練集在 10-0.01-0.01、10-0.1-0.1、20-0.01-0.01、20-0.1-0.1 （xx-xx-xx 分別代表𝑘- 𝜆𝑝 - 𝜆𝑞 ）等參數組合形式下，以 MAE 為損失函數分別以 𝛼 = 0.01 和 𝛼 = 0.03 在不同疊代次數下預先試驗的結果。. 𝛼 = 0.01. 立. 𝛼 = 0.03. 政治大. ‧. ‧ 國. 學. Nat. er. io. sit. y. 圖 4.9 1M 數據集的預先試驗（絕對損失函數）. 圖 4.10 為某組訓練集在 10-0.01-0.01、10-0.1-0.1、20-0.01-0.01、20-0.1-0.1. n. al. Ch. i n U. v. （xx-xx-xx 分別代表𝑘- 𝜆𝑝 - 𝜆𝑞 ）等參數組合形式下，以 RMSE 為損失函數分別. engchi. 以 𝛼 = 0.01 和 𝛼 = 0.03 在不同疊代次數下預先試驗的結果。. 𝛼 = 0.01. 𝛼 = 0.03. 圖 4.10 1M 數據集的預先試驗（二次損失函數）. 29.

(36) 從圖 4.9 和圖 4.10 可以發現 𝛼 = 0.03 時，會有某些參數組合的損失函數不收斂，另外，在 𝛼 = 0.01 下疊代次數在 80 次左右，不同參數組合的損失函數會趨於相對穩定。. 因此，本研究在 1M 數據集的矩陣分解法上會以 𝛼 = 0.01 下進行，並在調整模型階段時，選定疊代次數為 80 次，但在建模階段為了讓收斂結果更好，選定疊代次數為 100 次。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4.11 1M 數據集各演算法 MAE 的 Boxplot. 圖 4.11 為 1M 數據集各演算法 MAE 的 Boxplot，可看到 MF 法的結果比 MM 法的結果都來得好，且 MM 法的結果比 MLE 法的結果都來得好，整體來說 MF 法的表現優於 MM 法優於 MLE 法。另外，從各演算法的上下界來看， MF 法和 MM 法差不多寬，都比 MLE 法來得窄，整體來說 MF 法和 MM 法的穩定度表現差不多，都比 MLE 法來得好。. 30.

(37) 表 4.4 1M 數據集各演算法 MAE 的平均值和變異數. 演算法. MF. MLE. MM. Mean. 0.709116. 0.991011. 0.734498. Variance. 0.000003. 0.000086. 0.000003. 表 4.4 為 1M 數據集各演算法 MAE 的平均值和變異數，從平均值來看各演算法的整體表現，MF 法優於 MM 法優於 MLE 法；又可能資料量較大，建模獲得的資訊較多，MF 法和 MM 法在 1M 數據集的表現略優於 100K 數據集，但 MLE 法在 1M 數據集的表現變得奇差。. 政治大不多，都比 MLE 法來得好；又可能資料量較大，建模獲得的資訊較多，整體穩立定度都比 100K 數據集來得好，大致上的推論與就圖 4.11 得到的差不多。另外，從變異數來看各演算法的穩定度，MF 法和 MM 法的穩定度表現差. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4.12 1M 數據集各演算法 RMSE 的 Boxplot. 31.

(38) 圖 4.12 為 1M 數據集各演算法 RMSE 的 Boxplot，由於 RMSE 對評測更為嚴苛，值相較於 MAE 因誤差被放大而更大，但各演算法的相對結果是差不多的。可看到 MF 法的結果比 MM 法的結果都來得好，且 MM 法的結果比 MLE 法的結果都來得好，整體來說 MF 法的表現優於 MM 法優於 MLE 法。另外，從各演算法的上下界來看，MF 法和 MM 法差不多寬，都比 MLE 法來得窄，整體來說 MF 法和 MM 法的穩定度表現差不多，都比 MLE 法來得好。. 表 4.5 1M 數據集各演算法 RMSE 的平均值和變異數. 演算法. MF. MLE. MM. Mean. 0.903022. 1.225209. 0.934149. Variance. 0.000004. 0.000118 0.000005 政治大. 立. 表 4.5 為 1M 數據集各演算法 RMSE 的平均值和變異數，從平均值來看各. ‧ 國. 學. 演算法的整體表現，MF 法優於 MM 法優於 MLE 法；又可能資料量較大，建模獲得的資訊較多，MF 法和 MM 法在 1M 數據集的表現略優於 100K 數據集，但. ‧. MLE 在 1M 數據集的表現變得奇差。. sit. y. Nat. 另外，從變異數來看各演算法的穩定度，MF 法和 MM 法的穩定度表現差. io. n. al. er. 不多，都比 MLE 法來得好；又可能資料量較大，建模獲得的資訊較多，整體穩. i n U. v. 定度都比 100K 數據集來得好，大致上的推論與就圖 4.12 得到的差不多。. Ch. engchi. 表 4.6 1M 數據集各演算法的平均單次運算時間. 演算法. MF _MAE. MF _RMSE. MLE. MM. Time(s). 46.8990 (401.0188). 46.7714 (378.8696). 1146.7331. 0.9101. 最後，在運算效率的討論上，表 4.6 整理了 1M 數據集各演算法的平均單次運算時間，其中 MF 法括號中是含調整模型參數的時間。僅就建模過程來說，與 100K 數據集的結果差不多，不需要疊代的 MM 法優於其他演算法，又 MF 法的表現優於 MLE 法。 32.

(39) 另外，1M 的數據集較 100K 數據集在已評分數上多 10 倍，評分空間則多近 15 倍，MM 法的運算效率似乎呈線性成長，MLE 法的運算效率呈指數成長， MF 法的運算效率似乎還略微負成長，這也顯示了考慮調整模型參數的 MF 法表現得比 MLE 法好。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 33. i n U. v.

(40) 第五章. 結論與建議. 本研究根據實證分析的結果歸納出以下兩點結論。第一，隨機效應模型法無論以什麼樣的參數估計方式，在預測準確度的表現上都不如矩陣分解法來得好；但以動差法估計參數在穩定度上與矩陣分解法的表現差不多，且在運算效率上好很多。. 第二，隨著資料的量級增加，運算效率必然會跟著降低；但可能由於資料較不稀疏、冷起動問題的使用者或項目比例較低、建模可用資訊更多等因素，會讓演算法在預測準確度或穩定度的表現上有所提升。. 政治大. 值得討論的是，以最大概似法估計隨機效應模型和混合效應模型在此實證研. 立. 究中的表現奇差，為了探究可能的因素，表 5.1 和表 5.2 是針對 100K 數據集的. ‧ 國. 學. 100 次試驗中以最大概似法建模後，假設訓練集未知並進行預測，分別與實際訓練集比較計算 MAE 和 RMSE 所得的平均值和變異數，目的在觀察有無過度配. ‧. 適的情形。. y. Nat. io. Variance. MLEI. a0.740160 iv l C 0.740128 0.737776 n U h e0.000157 0.000156 n g c h i0.000117. n. Mean. MLEU. MLEUI. er. MLE. 演算法. sit. 表 5.1 100K 數據集以 MLE 法預測訓練集所得 MAE 的平均值和變異數. 0.737743 0.000117. 表 5.2 100K 數據集以 MLE 法預測訓練集所得 RMSE 的平均值和變異數. 演算法. MLE. MLEU. MLEI. MLEUI. Mean. 0.936609. 0.936628. 0.933223. 0.933237. Variance. 0.000257. 0.000257. 0.000187. 0.000183. 與表 4.1 和表 4.2 比較，可看到離散的程度差不多，但預測訓練集所得的 MAE 和 RMSE 平均表現比預測測試集來得好，推測有部分訓練集在建模過程可能有些微過度配適的情形。. 34.

(41) 然而這只是很初步的推論，以最大概似法估計參數，必須要有隨機變數的分配假設，不符假設也是可能的因素，實際上數據符不符合假設在統計上有更嚴謹的診斷過程，是後續可探討的方向。. 表 5.3 100K 數據集各演算法平均預測遺失值比例. 演算法. MF. MLE. MLEU. MLEI. MLEUI. MM. 平均預測遺失值比例(%). 0. 0.0176. 0.0176. 0.0176. 0.0176. 0.1653. 表 5.4 1M 數據集各演算法平均預測遺失值比例. 演算法. 立. 平均預測遺失值比例(%). 政MF 治MLE大 0. 4.5912. MM 0.0137. ‧ 國. 學. 另外，表 5.3 和表 5.4 分別為 100K 數據集和 1M 數據集 100 試驗的平均預. ‧. 測遺失值比例，也就是無法預測的評分占總測試集的比例，我們看到除了 MF. y. Nat. 法，MLE 法和 MM 法或多或少會有無法預測的問題，多半是受到某些使用者沒. io. sit. 有評分或某些電影沒有被評分的影響，這樣的結果體現了協同過濾技術的冷啟. n. al. er. 動問題。若進一步將測試集區分成有無冷啟動問題的使用者和電影，比較其評. i n U. v. 分預測誤差；或是以不同評分數視為潛在冷啟動問題的門檻，都是後續能就冷. Ch. 啟動問題的角度深入探討的部分。. engchi. 本研究僅以評分預測的準確度評估演算法的好壞，但比起使用者對某項目的實際評分，我們通常更想了解的是使用者偏好列表，因此實務上有越來越多人以預測相對偏好的 Top-N 推薦進行討論。此外，回顧第一章介紹到的其他評估準則，實務上建議透過多種準則更全面的評估各演算法的優缺點，並視問題背景及需求，選擇合適的演算法或適當的混合各演算法進行推薦。. 35.

(42) 參考文獻 Ansari, A., Essegaier, S., & Kohli, R. (2000). Internet recommendations systems. J. Marketing Research 37, 363–375. Bates, D., Maechler, M., Bolker, B., Walker, S., Christensen, R. H. B., Singmann, H., Dai, B., Grothendieck, G., & Green, P. (2015) Fitting Linear Mixed-Effects Models Using lme4 Journal of Statistical Software, 67(1), 1–48. Bates, D., Maechler, M., Bolker, B., Walker, S., Christensen, R. H. B., Singmann, H., Dai, B., Grothendieck, G., & Green, P. (2017) lme4: Linear Mixed-Effects Models using 'Eigen' and S4. R package version 1.1-14. https://cran.rproject.org/web/packages/lme4/index.html. 政治大. Chin, W. S., Zhuang, Y., Juan, Y. C., & Lin, C. J. (2015). A fast parallel stochastic. 立. gradient method for matrix factorization in shared memory systems. ACM. ‧ 國. 學. Transactions on Intelligent Systems and Technology (TIST), 6(1), 2. Condliff, M. K., Lewis, D. D., Madigan, D., & Posse, C. (1999). Bayesian mixed-. ‧. effects models for recommender systems. In Proceedings of the ACM SIGIR ’99 Workshop on Recommender Systems: Algorithms and Evaluation.. y. Nat. al. er. io. http://sifter.org/~simon/journal/20061211.html.. sit. Funk, S. (2006, Dec.). Netflix Update: Try This at Home.. v i n C h Electron. J. Statist. in Large Unbalanced Crossed. e n g c h i U Volume 11, Number 1, 2017, n. Gao, K. & Owen, A. (2016). Efficient Moment Calculations for Variance Components. 1235-1296.. Koren, Y., Bell, R., & Volinsky, C. (2009). Matrix factorization techniques for recommender systems. Computer, 42(8). Matloff, N. S. (2017) rectools: Advanced Package for Recommender Systems. R package. https://github.com/Pooja-Rajkumar/rectools Perry, P. (2014). Fast Moment-Based Estimation for Hierarchical Models. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 79(1), 267291.. 36.

(43) Qiu, Y., Lin, C. J., Juan, Y. C., Chin, W. S., Zhuang, Y., Yuan, B. W., Yang, M. Y., et al. (2017) recosystem: Recommender System using Matrix Factorization. R package version 0.4.2. https://cran.rproject.org/web/packages/recosystem/index.html Resnick, P., Iacovou, N., Suchak, M., Bergstrom, P., & Riedl, J. (1994). GroupLens: an open architecture for collaborative filtering of netnews. In Proceedings of the 1994 ACM conference on Computer supported cooperative work (pp. 175186). ACM. Sarwar, B., Karypis, G., Konstan, J., & Riedl, J. (2001). Item-based collaborative filtering recommendation algorithms. In Proceedings of the 10th international. 政治大. conference on World Wide Web (pp. 285-295). ACM.. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 37. i n U. v.

(44)