試驗流程

第四章實證研究

4.2 試驗流程

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

1M 的數據集收集了 2000 年加入 Movielens 的 6040 個使用者對近 3952 部電影共1000209 筆評分，每個使用者至少對 20 部電影進行評分，以 1-5 的評分作為其偏好程度。其中還包含了每個使用者的人口統計資料（性別、年齡、職業）以及每部電影的分類訊息。

圖 4.2 MovieLens 1M 數據集的評分數分布

若以總評分數占評分空間的比例來看稀疏程度，僅有4.2%左右的數據被評分，另外，圖4.2 左圖為每個使用者評分數的分布、右圖為每部電影被評分數的分布，若以評分數小於等於20 視為有潛在冷啟動問題的使用者和電影，分別有 1.4%和 17.6%的使用者和電影可能有冷啟動問題。

從Movielens 提供的數據量級隨時間先後而增加，以及之後實驗結果在運算效率的討論上，觀察到可擴充性問題的存在。我們透過簡單描述各數據集資料結構的同時，亦看到各數據集或多或少存在推薦系統常面臨到的問題。

4.2

試驗流程

本研究將針對各演算法進行100 次試驗，每次試驗從資料中隨機抽取一定比例作為訓練集用以建構模型，剩下的部分作為測試集用以評估模型，最後綜合分析結果。

圖4.3 為矩陣分解法的試驗流程，根據 3.1 節討論，整個過程有幾個參數需要決定，包含特徵維度 𝑘、正則化係數 𝜆_𝑝 、 𝜆_𝑞 、學習率 𝛼 和疊代次數。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

23 記錄運行時間

資料分組調整模型參數建模與預測

預先試驗計算誤差結果分析

圖 4.3 矩陣分解法的試驗流程

預先試驗目的在選擇合適的學習率 𝛼 和疊代次數，使得不同參數組合下的損失函數都能穩定收斂，以確保後續建模得到適當結果。接著，每次試驗都要先將資料分組，也就是從原始資料隨機抽取10%作為測試集，剩下的 90%作為訓練集。

本研究在其他的參數選擇上，是以封包預設的特徵維度 𝑘 = (10, 20) 、正則化係數 𝜆_𝑝 = (0.1, 0.01) 、 𝜆_𝑞 = (0.1, 0.01) 交叉共八種組合下去進行。調整模型參數就是將訓練集分成5 等分，針對不同的參數組合進行 5 折交叉驗證（5-fold Cross Validation），從中選擇平均 MAE 或 RMSE 最小的組合，便是此次試驗的最適參數。

根據最適參數以原來的訓練集建模，假設測試集未知並進行預測，與實際測試集比較計算MAE 和 RMSE 當作誤差。然後重複「資料分組、調和模型參數、建模與預測、計算誤差」過程100 次，並記錄每次建模與預測所花時間。

記錄運行時間

資料分組建模與預測計算誤差結果分析

圖 4.4 隨機效應模型法的試驗流程

圖4.4 為隨機效應模型法的試驗流程，不會有任何預先試驗，每次試驗一樣都要先將資料分組，也就是從原始資料隨機抽取10%作為測試集，剩下的 90%

作為訓練集，且分組結構會與矩陣分解法相同。

‧

示，並以最大概似法估計參數（Maximum Likelihood Estimation, MLE）

𝑟_𝑢𝑖 = 𝜇 + 𝜏_𝑢+ 𝛼_𝑖+ 𝜀_𝑢𝑖

𝜏_𝑢~𝑁(0, 𝜎_𝛵²) , 𝛼_𝑖~𝑁(0, 𝜎_𝛢²) , 𝜀_𝑢𝑖~𝑁(0, 𝜎_𝐸²)

（4.1）

整合使用者特性於使用者評分訊息假設模型如（4.2）式所示，並以最大概似法估計參數（Maximum Likelihood Estimation for Ratings Incorporating User Characteristics, MLEU）

𝑟_𝑢𝑖 = 𝛽₀+ 𝛽₁𝐴𝑔𝑒_𝑢+ 𝛽₂𝐺𝑒𝑛𝑑𝑒𝑟_𝑢+ 𝛽₃𝐴𝑟𝑡𝑖𝑠𝑡_𝑢+ ⋯ + 𝛽₂₂𝑊𝑟𝑖𝑡𝑒𝑟_𝑢 +𝜏_𝑢+ 𝛼_𝑖+ 𝜀_𝑢𝑖

𝜏_𝑢~𝑁(0, 𝜎_𝛵²) , 𝛼_𝑖~𝑁(0, 𝜎_𝛢²) , 𝜀_𝑢𝑖~𝑁(0, 𝜎_𝐸²)

（4.2）

整合項目屬性於使用者評分訊息假設模型如（4.3）式所示，並以最大概似法估計參數（Maximum Likelihood Estimation for Ratings Incorporating Item Attributes, MLEI）

𝑟_𝑢𝑖 = 𝛽₀+ 𝛽₁𝑈𝑛𝑘𝑛𝑜𝑤_𝑖+ ⋯ + 𝛽₁₉𝑊𝑒𝑠𝑡𝑒𝑟𝑛_𝑖+ 𝜏_𝑢+ 𝛼_𝑖+ 𝜀_𝑢𝑖 𝜏_𝑢~𝑁(0, 𝜎_𝛵²) , 𝛼_𝑖~𝑁(0, 𝜎_𝛢²) , 𝜀_𝑢𝑖~𝑁(0, 𝜎_𝐸²)

（4.3）

同時整合使用者特性和項目屬性於使用者評分訊息假設模型如（4.4）式所示，並以最大概似法估計參數（Maximum Likelihood Estimation for Ratings Incorporating User Characteristics and Item Attributes, MLEUI）

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

𝑟_𝑢𝑖 = 𝛽₀+ 𝛽₁𝐴𝑔𝑒_𝑢+ 𝛽₂𝐺𝑒𝑛𝑑𝑒𝑟_𝑢+ 𝛽₃𝐴𝑟𝑡𝑖𝑠𝑡_𝑢+ ⋯ + 𝛽₂₂𝑊𝑟𝑖𝑡𝑒𝑟_𝑢 +𝛽₂₃𝑈𝑛𝑘𝑛𝑜𝑤_𝑖+ ⋯ + 𝛽₄₁𝑊𝑒𝑠𝑡𝑒𝑟𝑛_𝑖+ 𝜏_𝑢+ 𝛼_𝑖+ 𝜀_𝑢𝑖

𝜏_𝑢~𝑁(0, 𝜎_𝛵²) , 𝛼_𝑖~𝑁(0, 𝜎_𝛢²) , 𝜀_𝑢𝑖~𝑁(0, 𝜎_𝐸²)

（4.4）

在沒有使用任何其他訊息，僅以使用者評分訊息假設模型如（4.5）式所示，並以動差法估計參數（Method of Moment Estimation, MM）

𝑟_𝑢𝑖 = 𝜇 + 𝜏_𝑢+ 𝛼_𝑖+ 𝜀_𝑢𝑖

𝜏_𝑢~(0, 𝜎_𝛵²) , 𝛼_𝑖~(0, 𝜎_𝛢²) , 𝜀_𝑢𝑖~(0, 𝜎_𝐸²)

（4.5）

最後分兩部分綜合分析各演算法的結果。一、以100 次的 MAE 和 RMSE 衡量預測的準確性及穩定性，二、以平均單次運算時間衡量運算效率。

在文檔中矩陣分解法與隨機效應模型法應用於電影評分資料分析比較 - 政大學術集成 (頁 28-31)

第四章 實證研究

4.2 試驗流程

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

4.2

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章實證研究

立政治大學

立政治大學

立政治大學