MovieLens 100K 數據集

第四章實證研究

4.3 結果分析

4.3.1 MovieLens 100K 數據集

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

𝑟_𝑢𝑖 = 𝛽₀+ 𝛽₁𝐴𝑔𝑒_𝑢+ 𝛽₂𝐺𝑒𝑛𝑑𝑒𝑟_𝑢+ 𝛽₃𝐴𝑟𝑡𝑖𝑠𝑡_𝑢+ ⋯ + 𝛽₂₂𝑊𝑟𝑖𝑡𝑒𝑟_𝑢 +𝛽₂₃𝑈𝑛𝑘𝑛𝑜𝑤_𝑖+ ⋯ + 𝛽₄₁𝑊𝑒𝑠𝑡𝑒𝑟𝑛_𝑖+ 𝜏_𝑢+ 𝛼_𝑖+ 𝜀_𝑢𝑖

𝜏_𝑢~𝑁(0, 𝜎_𝛵²) , 𝛼_𝑖~𝑁(0, 𝜎_𝛢²) , 𝜀_𝑢𝑖~𝑁(0, 𝜎_𝐸²)

（4.4）

在沒有使用任何其他訊息，僅以使用者評分訊息假設模型如（4.5）式所示，並以動差法估計參數（Method of Moment Estimation, MM）

𝑟_𝑢𝑖 = 𝜇 + 𝜏_𝑢+ 𝛼_𝑖+ 𝜀_𝑢𝑖

𝜏_𝑢~(0, 𝜎_𝛵²) , 𝛼_𝑖~(0, 𝜎_𝛢²) , 𝜀_𝑢𝑖~(0, 𝜎_𝐸²)

（4.5）

最後分兩部分綜合分析各演算法的結果。一、以100 次的 MAE 和 RMSE 衡量預測的準確性及穩定性，二、以平均單次運算時間衡量運算效率。

4.3

結果分析

4.3.1 MovieLens 100K 數據集

圖4.5 為某組訓練集在 10-0.01-0.01、10-0.1-0.1、20-0.01-0.01、20-0.1-0.1

（xx-xx-xx 分別代表𝑘- 𝜆_𝑝- 𝜆_𝑞）等參數組合形式下，以MAE 為損失函數分別以 𝛼 = 0.01 和 𝛼 = 0.03 在不同疊代次數下預先試驗的結果。

圖 4.5 100K 數據集的預先試驗（絕對損失函數）

𝛼 = 0.01 𝛼 = 0.03

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖4.6 為某組訓練集在 10-0.01-0.01、10-0.1-0.1、20-0.01-0.01、20-0.1-0.1

（xx-xx-xx 分別代表𝑘- 𝜆_𝑝- 𝜆_𝑞）等參數組合形式下，以RMSE 為損失函數分別以 𝛼 = 0.01 和 𝛼 = 0.03 在不同疊代次數下預先試驗的結果。

圖 4.6 100K 數據集的預先試驗（二次損失函數）

從圖4.5 和圖 4.6 可以發現 𝛼 = 0.03 時，會有某些參數組合的損失函數不收斂，另外，在 𝛼 = 0.01 下疊代次數在 80 次左右，不同參數組合的損失函數會趨於相對穩定。因此，本研究在100K 數據集的矩陣分解法上會以 𝛼 = 0.01 下進行，並在調整模型階段時，選定疊代次數為80 次，但在建模階段為了讓收斂結果更好，選定疊代次數為100 次。

圖 4.7 100K 數據集各演算法 MAE 的 Boxplot

𝛼 = 0.01 𝛼 = 0.03

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖4.7 為 100K 數據集各演算法 MAE 的 Boxplot，可看到 MF 法 75%的結果比MLE 法 75%的結果和所有 MM 法的結果來得好；且 MLE 法無論有沒有整合其他訊息，至少有50%的結果比 MM 法 75%的結果來得好，整體來說 MF 法的表現優於MLE 法優於 MM 法。另外，從各演算法的上下界來看，MF 法和 MM 法差不多寬，都比MLE 法來得窄，整體來說 MF 法和 MM 法的穩定度表現差不多，都比MLE 法來得好。

表 4.1 100K 數據集各演算法 MAE 的平均值和變異數

演算法 MF MLE MLEU MLEI MLEUI MM Mean 0.740149 0.754187 0.754169 0.751755 0.751734 0.758629 Variance 0.000038 0.000149 0.000150 0.000120 0.000120 0.000034

表4.1 為 100K 數據集各演算法 MAE 的平均值和變異數，從平均值來看各演算法的整體表現，MF 法優於 MLE 法優於 MM 法；又就 MLE 法來說，整合人口統計資料並沒有太大的改善表現，整合電影分類訊息則有略為改善表現，

同時整合人口統計資料和電影分類訊息的表現與單整合電影分類訊息的表現差不多。另外，從變異數來看各演算法的穩定度，MF 法和 MM 法的穩定度表現差不多，都比MLE 法來得好；又就 MLE 法來說，只要有整合電影分類訊息表現就會比較穩定，大致上的推論與就圖4.7 得到的差不多。

圖 4.8 100K 數據集各演算法 RMSE 的 Boxplot

‧

Mean 0.945327 0.954613 0.954652 0.951158 0.951192 0.964991 Variance 0.000053 0.000233 0.000234 0.000182 0.000183 0.000053

表4.2 為 100K 數據集各演算法 RMSE 的平均值和變異數，從平均值來看各

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

另外，MF 法在以 MAE 為損失函數時的效率略低於以 RMSE 為損失函數時，MLE 法隨著參數變多，也就是模型更複雜時，合理的效率會變低，當然如果連調整模型參數都考慮進去時，MF 法的表現則大大不如其他演算法。

在文檔中矩陣分解法與隨機效應模型法應用於電影評分資料分析比較 - 政大學術集成 (頁 31-35)

第四章 實證研究

4.3 結果分析

4.3.1 MovieLens 100K 數據集

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

4.3

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章實證研究

立政治大學

立政治大學

立政治大學

立政治大學