第四章 實證研究
4.3 結果分析
4.3.1 MovieLens 100K 數據集
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
25
𝑟𝑢𝑖 = 𝛽0+ 𝛽1𝐴𝑔𝑒𝑢+ 𝛽2𝐺𝑒𝑛𝑑𝑒𝑟𝑢+ 𝛽3𝐴𝑟𝑡𝑖𝑠𝑡𝑢+ ⋯ + 𝛽22𝑊𝑟𝑖𝑡𝑒𝑟𝑢 +𝛽23𝑈𝑛𝑘𝑛𝑜𝑤𝑖+ ⋯ + 𝛽41𝑊𝑒𝑠𝑡𝑒𝑟𝑛𝑖+ 𝜏𝑢+ 𝛼𝑖+ 𝜀𝑢𝑖
𝜏𝑢~𝑁(0, 𝜎𝛵2) , 𝛼𝑖~𝑁(0, 𝜎𝛢2) , 𝜀𝑢𝑖~𝑁(0, 𝜎𝐸2)
(4.4)
在沒有使用任何其他訊息,僅以使用者評分訊息假設模型如(4.5)式所 示,並以動差法估計參數(Method of Moment Estimation, MM)
𝑟𝑢𝑖 = 𝜇 + 𝜏𝑢+ 𝛼𝑖+ 𝜀𝑢𝑖
𝜏𝑢~(0, 𝜎𝛵2) , 𝛼𝑖~(0, 𝜎𝛢2) , 𝜀𝑢𝑖~(0, 𝜎𝐸2)
(4.5)
最後分兩部分綜合分析各演算法的結果。一、以100 次的 MAE 和 RMSE 衡量預測的準確性及穩定性,二、以平均單次運算時間衡量運算效率。
4.3
結果分析4.3.1 MovieLens 100K 數據集
圖4.5 為某組訓練集在 10-0.01-0.01、10-0.1-0.1、20-0.01-0.01、20-0.1-0.1
(xx-xx-xx 分別代表𝑘- 𝜆𝑝- 𝜆𝑞)等參數組合形式下,以MAE 為損失函數分別以 𝛼 = 0.01 和 𝛼 = 0.03 在不同疊代次數下預先試驗的結果。
圖 4.5 100K 數據集的預先試驗(絕對損失函數)
𝛼 = 0.01 𝛼 = 0.03
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
26
圖4.6 為某組訓練集在 10-0.01-0.01、10-0.1-0.1、20-0.01-0.01、20-0.1-0.1
(xx-xx-xx 分別代表𝑘- 𝜆𝑝- 𝜆𝑞)等參數組合形式下,以RMSE 為損失函數分別 以 𝛼 = 0.01 和 𝛼 = 0.03 在不同疊代次數下預先試驗的結果。
圖 4.6 100K 數據集的預先試驗(二次損失函數)
從圖4.5 和圖 4.6 可以發現 𝛼 = 0.03 時,會有某些參數組合的損失函數不 收斂,另外,在 𝛼 = 0.01 下疊代次數在 80 次左右,不同參數組合的損失函數 會趨於相對穩定。因此,本研究在100K 數據集的矩陣分解法上會以 𝛼 = 0.01 下進行,並在調整模型階段時,選定疊代次數為80 次,但在建模階段為了讓收 斂結果更好,選定疊代次數為100 次。
圖 4.7 100K 數據集各演算法 MAE 的 Boxplot
𝛼 = 0.01 𝛼 = 0.03
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
27
圖4.7 為 100K 數據集各演算法 MAE 的 Boxplot,可看到 MF 法 75%的結果 比MLE 法 75%的結果和所有 MM 法的結果來得好;且 MLE 法無論有沒有整合 其他訊息,至少有50%的結果比 MM 法 75%的結果來得好,整體來說 MF 法的 表現優於MLE 法優於 MM 法。另外,從各演算法的上下界來看,MF 法和 MM 法差不多寬,都比MLE 法來得窄,整體來說 MF 法和 MM 法的穩定度表現差 不多,都比MLE 法來得好。
表 4.1 100K 數據集各演算法 MAE 的平均值和變異數
演算法 MF MLE MLEU MLEI MLEUI MM Mean 0.740149 0.754187 0.754169 0.751755 0.751734 0.758629 Variance 0.000038 0.000149 0.000150 0.000120 0.000120 0.000034
表4.1 為 100K 數據集各演算法 MAE 的平均值和變異數,從平均值來看各 演算法的整體表現,MF 法優於 MLE 法優於 MM 法;又就 MLE 法來說,整合 人口統計資料並沒有太大的改善表現,整合電影分類訊息則有略為改善表現,
同時整合人口統計資料和電影分類訊息的表現與單整合電影分類訊息的表現差 不多。另外,從變異數來看各演算法的穩定度,MF 法和 MM 法的穩定度表現 差不多,都比MLE 法來得好;又就 MLE 法來說,只要有整合電影分類訊息表 現就會比較穩定,大致上的推論與就圖4.7 得到的差不多。
圖 4.8 100K 數據集各演算法 RMSE 的 Boxplot
‧
Mean 0.945327 0.954613 0.954652 0.951158 0.951192 0.964991 Variance 0.000053 0.000233 0.000234 0.000182 0.000183 0.000053表4.2 為 100K 數據集各演算法 RMSE 的平均值和變異數,從平均值來看各
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
29
另外,MF 法在以 MAE 為損失函數時的效率略低於以 RMSE 為損失函數 時,MLE 法隨著參數變多,也就是模型更複雜時,合理的效率會變低,當然如 果連調整模型參數都考慮進去時,MF 法的表現則大大不如其他演算法。