結論與建議

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章結論與建議

本研究根據實證分析的結果歸納出以下兩點結論。第一，隨機效應模型法無論以什麼樣的參數估計方式，在預測準確度的表現上都不如矩陣分解法來得好；但以動差法估計參數在穩定度上與矩陣分解法的表現差不多，且在運算效率上好很多。

第二，隨著資料的量級增加，運算效率必然會跟著降低；但可能由於資料較不稀疏、冷起動問題的使用者或項目比例較低、建模可用資訊更多等因素，會讓演算法在預測準確度或穩定度的表現上有所提升。

值得討論的是，以最大概似法估計隨機效應模型和混合效應模型在此實證研究中的表現奇差，為了探究可能的因素，表5.1 和表 5.2 是針對 100K 數據集的 100 次試驗中以最大概似法建模後，假設訓練集未知並進行預測，分別與實際訓練集比較計算MAE 和 RMSE 所得的平均值和變異數，目的在觀察有無過度配適的情形。

表 5.1 100K 數據集以 MLE 法預測訓練集所得 MAE 的平均值和變異數

演算法 MLE MLEU MLEI MLEUI Mean 0.740160 0.740128 0.737776 0.737743 Variance 0.000156 0.000157 0.000117 0.000117

表 5.2 100K 數據集以 MLE 法預測訓練集所得 RMSE 的平均值和變異數

演算法 MLE MLEU MLEI MLEUI Mean 0.936609 0.936628 0.933223 0.933237 Variance 0.000257 0.000257 0.000187 0.000183

與表4.1 和表 4.2 比較，可看到離散的程度差不多，但預測訓練集所得的 MAE 和 RMSE 平均表現比預測測試集來得好，推測有部分訓練集在建模過程可能有些微過度配適的情形。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

然而這只是很初步的推論，以最大概似法估計參數，必須要有隨機變數的分配假設，不符假設也是可能的因素，實際上數據符不符合假設在統計上有更嚴謹的診斷過程，是後續可探討的方向。

表 5.3 100K 數據集各演算法平均預測遺失值比例

演算法 MF MLE MLEU MLEI MLEUI MM 平均預測

遺失值比例(%) 0 0.0176 0.0176 0.0176 0.0176 0.1653

表 5.4 1M 數據集各演算法平均預測遺失值比例

演算法 MF MLE MM 平均預測

遺失值比例(%) 0 4.5912 0.0137

另外，表5.3 和表 5.4 分別為 100K 數據集和 1M 數據集 100 試驗的平均預測遺失值比例，也就是無法預測的評分占總測試集的比例，我們看到除了MF 法，MLE 法和 MM 法或多或少會有無法預測的問題，多半是受到某些使用者沒有評分或某些電影沒有被評分的影響，這樣的結果體現了協同過濾技術的冷啟動問題。若進一步將測試集區分成有無冷啟動問題的使用者和電影，比較其評分預測誤差；或是以不同評分數視為潛在冷啟動問題的門檻，都是後續能就冷啟動問題的角度深入探討的部分。

本研究僅以評分預測的準確度評估演算法的好壞，但比起使用者對某項目的實際評分，我們通常更想了解的是使用者偏好列表，因此實務上有越來越多人以預測相對偏好的Top-N 推薦進行討論。此外，回顧第一章介紹到的其他評估準則，實務上建議透過多種準則更全面的評估各演算法的優缺點，並視問題背景及需求，選擇合適的演算法或適當的混合各演算法進行推薦。

‧

Ansari, A., Essegaier, S., & Kohli, R. (2000). Internet recommendations systems. J.

Marketing Research 37, 363–375.

Bates, D., Maechler, M., Bolker, B., Walker, S., Christensen, R. H. B., Singmann, H., Dai, B., Grothendieck, G., & Green, P. (2015) Fitting Linear Mixed-Effects Models Using lme4 Journal of Statistical Software, 67(1), 1–48.

Bates, D., Maechler, M., Bolker, B., Walker, S., Christensen, R. H. B., Singmann, H., Dai, B., Grothendieck, G., & Green, P. (2017) lme4: Linear Mixed-Effects Models using 'Eigen' and S4. R package version 1.1-14. https://cran.r-project.org/web/packages/lme4/index.html

Chin, W. S., Zhuang, Y., Juan, Y. C., & Lin, C. J. (2015). A fast parallel stochastic gradient method for matrix factorization in shared memory systems. ACM

Transactions on Intelligent Systems and Technology (TIST), 6(1), 2.

Condliff, M. K., Lewis, D. D., Madigan, D., & Posse, C. (1999). Bayesian mixed-effects models for recommender systems. In Proceedings of the ACM

SIGIR ’99 Workshop on Recommender Systems: Algorithms and Evaluation.

Funk, S. (2006, Dec.). Netflix Update: Try This at Home.

http://sifter.org/~simon/journal/20061211.html.

Gao, K. & Owen, A. (2016). Efficient Moment Calculations for Variance Components in Large Unbalanced Crossed. Electron. J. Statist. Volume 11, Number 1, 2017, 1235-1296.

Koren, Y., Bell, R., & Volinsky, C. (2009). Matrix factorization techniques for recommender systems. Computer, 42(8).

Matloff, N. S. (2017) rectools: Advanced Package for Recommender Systems. R package. https://github.com/Pooja-Rajkumar/rectools

Perry, P. (2014). Fast Moment-Based Estimation for Hierarchical Models. Journal of

the Royal Statistical Society: Series B (Statistical Methodology), 79(1),

267-291.

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Qiu, Y., Lin, C. J., Juan, Y. C., Chin, W. S., Zhuang, Y., Yuan, B. W., Yang, M. Y., et al.

(2017) recosystem: Recommender System using Matrix Factorization. R package version 0.4.2.

https://cran.r-project.org/web/packages/recosystem/index.html

Resnick, P., Iacovou, N., Suchak, M., Bergstrom, P., & Riedl, J. (1994). GroupLens:

an open architecture for collaborative filtering of netnews. In Proceedings of

the 1994 ACM conference on Computer supported cooperative work (pp.

175-186). ACM.

Sarwar, B., Karypis, G., Konstan, J., & Riedl, J. (2001). Item-based collaborative filtering recommendation algorithms. In Proceedings of the 10th international

conference on World Wide Web (pp. 285-295). ACM.

在文檔中矩陣分解法與隨機效應模型法應用於電影評分資料分析比較 - 政大學術集成 (頁 40-43)

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章 結論與建議

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

Marketing Research 37, 363–375.

Transactions on Intelligent Systems and Technology (TIST), 6(1), 2.

SIGIR ’99 Workshop on Recommender Systems: Algorithms and Evaluation.

the Royal Statistical Society: Series B (Statistical Methodology), 79(1),

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

the 1994 ACM conference on Computer supported cooperative work (pp.

conference on World Wide Web (pp. 285-295). ACM.

立政治大學

第五章結論與建議

立政治大學

立政治大學