緒論 - 推薦系統資料插補改良法-電影推薦系統應用

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

1 第一章緒論

1.1 研究背景

甚麼是推薦系統？如果想買電子產品，你可能會去附近的全國電子，或者去光華商場，比較不同品牌的差異與價格，然後找到喜歡的產品後付款。又或者，

你可以在搜尋引擎上搜尋想買的電子產品，搜尋網友們的使用心得與購買價格，

然後再到購物網站，找到適合的價格與品牌，付款後等待送貨上門。

上述的例子中，使用者根據自己需求找到適合自己的產品，但是，假如使用者本身不知自己的需求呢?突然想看部電影，但是發現有無數部的電影，不知道該看哪一部。此時，你需要工具幫你篩選，給予你意見，而工具能幫你分析過去的歷史訊息，從眾多部電影中挖掘出符合你興趣的電影，並提供建議讓你選擇出最想要看的電影，而這種工具則稱之為「推薦系統」。

推薦系統是一種幫助使用者快速發現有用訊息的工具。它不需要使用者提供明確需求，而是透過使用者過去的歷史行為建立模型，預測使用者可能喜歡的事物，並主動推薦給使用者以滿足他們的需求與喜好，簡而言之，推薦系統能夠幫助沒有明確目的的使用者挖掘出他們感興趣的新事物。

舉例來說，美國著名 Amazon 公司，當你瀏覽產品時，他們會推薦你買了此產品的人也買了的產品給你；美國擁有自動推薦系統的 Pandora 電台，只要使用者輸入自己喜歡的歌手與或歌曲，電台便會撥放類似曲風的歌曲；美國線上影片出租公司 Netflix，根據使用者對過去所看過的電影評分紀錄，以及個人特級與電影特質，推薦使用者可能愛好的電影，且 Netflix 也在 2006 年舉辦推薦系統改良比賽，藉此提升推薦系統的準確度。由此可見，推薦系統已成為企業行銷增加收入的重要工具之一。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2

Koren 等人(2009)中，列舉許多關於在推薦系統中的矩陣分解技術，也提出過去早期推薦系統所使用的矩陣分解方法：奇異值分解法，存在著某些問題。

例如評分矩陣通常是非常稀疏且遺失值非常多，而不準確的填補遺失值會造成資料的扭曲與失真，因此本研究將有一部分針對此問題進行探討與修正。

1.2 推薦系統介紹

推薦系統透過使用者的行為既錄取的使用者的興趣偏好，利用得到的喜好更進一步挖掘潛在喜好，由於產生推薦方式不同，推薦系統可大致分為三大類，首先以樹狀圖表示其類別與關係，再分別介紹各類方法。

推薦系統關係樹狀圖

1.2.1 內容導向過濾(Content-Based Filtering)

此方法是根據使用者與產品的「特徵」吻合來進行推薦，此處的特徵指的是屬性。對產品來說，為由人為事先給定產品的特徵，例如價格或種類；對使用者來說，特徵是使用者的個人資料與過去的購買行為紀錄，接著內容導向過濾利用使用者和產品的特徵計算出他們之間的相似度，並把相似度最高的產品推薦給使用者。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3

然而，此種方法有兩種缺點：

1. 內容導向過濾方法需要事先將產品進行分類且歸納其特徵，但在現實中，每個人的歸納方法不同，每個人對產品認知的特徵也不完全相同，因此在實際問題中是非常困難。

2. 內容導向過濾方法所推薦給使用者的產品經常與使用者過去購買過的產品相似，此方法無法發現使用者過去沒有購買過但可能有興趣的潛在產品。

1.2.3 協同過濾(Collaborative Filtering)

Breese 等人(1998)將協同過濾方法分為兩大類，第一類為基於內存算法 (Memory-Based)，利用使用者或產品的特性找出鄰域訊息，如 KNN 模型；第二類則為模型算法(Model-Based)，首先將已知評分項目去訓練預測模型，然後利用預測模型取得預測評分進而產生最好的推薦項目給使用者，如因子模型，兩者最主要差別在於是否有使用模型以預測結果。

協同過濾方法的優點在於不需要像內容導向過濾方法需要事先賦予項目不同的特徵，只需要使用者對項目的評分資料即可運作。雖然協同過濾方法現已被廣泛使用，但因為使用者通常只會對自己偏好或以使用過的產品項目評分，例如：

看過的電影，購買使用後的電子產品等，而 Konstan 等人(1997)則指出協同過濾方有兩個主要問題：

1. 評分稀疏性問題(Rating Sparsity Problem)：通常使用者只會對某些項目評分，不會對系統內的所有項目進行評分。倘若系統內項目過多，容易造成評分資料過於稀疏(Sparse)。

2. 冷卻起始問題(Cold Start Problem)：當有新使用者加入系統時，尚未對任何項目給予分數，也無其他相關資訊，造成系統無法給予推薦的項目，需要等新使用者有一定的評分次數後，才能夠對使用者給予推薦。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4 1.2.4 混合過濾(Hybrid Filtering)

基於上述的問題，混合過濾方法結合了內容導向與協同過濾兩種方法來運作，

利用使用者的評分資料並加入使用者的資訊以及項目的屬性，解決協同過濾系統可能面臨地的評分稀疏性問題與冷卻起始問題。

1.3 本論文研究目的

本研究主要在討論矩陣分解法中的潛在因子模型及奇異值分解法。在推薦系統領域中，最常使用的矩陣分解演算法為交替最小平方法與隨機梯度下降法，其中張良卉(2013)，裡面所使用的演算法是交替最小平方法(Alternating Least Squares, ALS)，將潛在因子模型分解並求出預測評分矩陣，而本研究使用的演算法是使用隨機梯度下降法(Stochastic Gradient Descent, SGD)，以找出評分預測矩陣。

本研究的主要目的有三項，其一是在無偏誤項時，比較交替最小平方法與隨機梯度下降法的預測能力，其二是在有偏誤項時，比較交替最小平方法與隨機梯度下降法的預測能力，其三是研究二階段矩陣分解：首先完成交替最小平方法與隨機梯度下降法，以其預測值對原始資料之遺失值進行資料插補，接著利用奇異值分解法對完整資料做矩陣分解，探討其表現與原先方法的差異。

本論文共分為五章：第一章為緒論，說明研究背景以及研究目的；第二章為文獻回顧；第三章為研究方法；第四章為實證研究，介紹研究資料來源，實證結果及預測結果比較；第五章為結論與建議。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

5

在文檔中推薦系統資料插補改良法-電影推薦系統應用 - 政大學術集成 (頁 7-11)

緒論

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

1

第一章 緒論

1.1 研究背景

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2

1.2 推薦系統介紹

1.2.1 內容導向過濾(Content-Based Filtering)

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3

1.2.3 協同過濾(Collaborative Filtering)

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

4

1.2.4 混合過濾(Hybrid Filtering)

1.3 本論文研究目的

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

5

立政治大學

第一章緒論

立政治大學

立政治大學

立政治大學

立政治大學