• 沒有找到結果。

10 4.1 節提到Mondo的評分人數從1分至5分分別為1003,606,864,892,1176人。

10

4.1 節提到Mondo的評分人數從1分至5分分別為1003,606,864,892,1176人。

蠴蠰

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

衍衯衶衩补行补衮衳這筆資料評分為蠳、蠴、蠵的人較多11蠬但是預測成蠵的卻相對較少。會預測成蠵的 大多是因為欲預測某電影的評分者與其他有評分欲預測之電影的評分者的相關程度都呈現高度 正相關的情形蠬而這些有評分欲預測之電影的評分者大部份也都評該電影蠵分蠬意即欲針對預測該 電影的評分者和其他有評分這部電影的評分者的喜好程度一樣蠬因此系統就會預測為蠵分。由於 有評分欲預測之電影的評分者也多蠬也因此能夠參考的兩兩評分者間的計算相關係數也很多蠬但 是評分者間也有一些項目品質判斷較差的評分者或是項目品質判斷與他人相反的評分者蠬使得 有零相關和負相關的相關係數數值蠬因此納入這些相關係數在以蠨蠲蠮蠷蠩式作運算時會產生負面的 效應蠬使得原本評分蠵分的評分者經由計算之後再經過四捨五入的處理之下會預測成為蠴或蠳分。

4.4 矩 矩 矩 陣 陣 陣分 分 分解 解 解法 法 法分 分 分析 析 析

4.4.1 Mondo 預 預 預測 測 測結 結 結果 果 果

在這裡是利用交錯最小平方法蠨衁行術蠩解出矩陣分解法分解後的兩個矩陣。由於在執行交 錯最小平方法解蠨蠲蠮蠱蠱蠩式的時候蠬有個正規化參數λ要選擇蠬在此先選取蠲蠰組λ值蠬再利用五摺交叉 驗証蠨蠵蠭衦衯衬衤 衣衲衯衳衳 衶衡衬衩衤衡衴衩衯衮蠩的方式決定蠺將每一組訓練測試集的資料輪流遮掉蠲蠰蠥資料並計 算衍術衅蠬再選擇可以讓平均衍術衅最小的λ值。選取的λ值和平均的衍術衅列在表蠴蠮蠲蠵蠬每一組訓練 測試集的所有λ都做五次並將這五次的衍術衅值加以平均。

表蠴蠮蠲蠵可看出在衍衯衮衤衯資料中蠬蠱蠰次不同的訓練測試資料之下利用交叉驗證能夠使平 均衍術衅最 小 的λ大 部 份 皆 為蠲蠬僅 第 四 次 的 訓 練 測 試 集 在λ為蠳的 時 候 才 最 小蠬為 了 統 一 作 比 較蠬在此都選取λ數值為蠲。之後將矩陣U的每個數值以隨機生成的方式作為起始值蠬再代 入蠨蠲蠮蠱蠲蠩與蠨蠲蠮蠱蠳蠩交錯解出C和U直到兩個矩陣收斂蠬並藉由蠨蠲蠮蠱蠰蠩式將收斂後的兩矩陣相乘 預測整個資料的評分分數然後比對作為測試集的蠱蠰蠥資料蠬每次訓練測試集下的起始值各 作蠱蠰蠰次。表蠴蠮蠲蠶與表蠴蠮蠲蠷是將矩陣U的每個數值分別以衕蠨−蠱, 蠱蠩和N 蠨蠰, 蠱蠩隨機生成之後蠬將兩 種生成方式預測衍術衅結果的統計量蠬預測的模式以情況衁為主。從這兩個表看出不論起始值以 何種方式生成蠬結果都差不多蠬因此起始值的影響並不大。

4.4.2 MovieLens 預 預 預測 測 測結 結 結果 果 果

對 於衍衯衶衩补行补衮衳這筆資料蠬對於正規化參數λ值則選取蠱蠰組蠬選取的λ值和交叉試驗的平

11

4.1 節提到MovieLens的評分人數從1分至5分別為6110,11370,27145,34174,21201人。

蠴蠲

0.05 2.9916 3.0333 2.9644 2.9666 2.8917 3.1026 2.9708 2.9606 2.8484 2.9872 0.1 2.8832 2.9306 2.8738 2.9405 2.8060 3.0223 2.9138 2.8455 2.8309 2.9763 0.2 2.8205 2.8707 2.8263 2.8641 2.7250 2.9131 2.8071 2.7393 2.7127 2.8811 0.3 2.7711 2.8183 2.7862 2.8287 2.6919 2.8731 2.7548 2.7471 2.6512 2.8004 0.4 2.7214 2.8080 2.7716 2.7406 2.6457 2.7698 2.7675 2.7049 2.6268 2.7812 0.5 2.6679 2.7689 2.7300 2.7084 2.6591 2.7390 2.7095 2.6543 2.6280 2.7394 0.6 2.6640 2.7059 2.7228 2.7095 2.6219 2.7063 2.6966 2.6377 2.6209 2.7012 0.7 2.6353 2.7099 2.7142 2.7005 2.6227 2.6754 2.7057 2.6382 2.6330 2.6930 0.8 2.6271 2.6813 2.7128 2.6556 2.6135 2.6726 2.6751 2.6243 2.6232 2.6829 0.9 2.6057 2.6945 2.7109 2.6497 2.6069 2.6553 2.6720 2.6090 2.6205 2.6968 1 2.5924 2.6871 2.6915 2.6440 2.6029 2.6562 2.6795 2.6129 2.6053 2.6942 2 2.5920 2.6296 2.6265 2.6055 2.5828 2.5832 2.6107 2.5982 2.5341 2.6606 3 2.6699 2.6676 2.6666 2.5990 2.6261 2.6071 2.6216 2.6194 2.6009 2.6678 4 2.7293 2.7636 2.7405 2.6983 2.7439 2.7116 2.7256 2.6908 2.6874 2.7435 5 2.8602 2.8946 2.8661 2.8528 2.8953 2.8598 2.8647 2.8623 2.8257 2.8880 6 3.0338 3.0492 3.0365 3.0093 3.0404 3.0336 3.0103 3.0359 2.9830 3.0502 7 3.1967 3.2203 3.1945 3.1449 3.1957 3.2028 3.1830 3.2109 3.1546 3.2108 8 3.3744 3.3869 3.3653 3.3178 3.3509 3.3581 3.3550 3.3595 3.3106 3.3684 9 3.5117 3.5350 3.5198 3.4512 3.4977 3.5068 3.5076 3.4931 3.4822 3.5124 10 3.6437 3.6751 3.6575 3.5728 3.6212 3.6388 3.6340 3.6389 3.6269 3.6493

表 蠴蠮蠲蠵蠺 衍衯衮衤衯資料經過五次的五摺交叉驗證後得到的平均衍術衅

蠲 0.9197 0.9193 0.9220 0.9195 0.9177 蠳 蠰蠮蠹蠲蠰蠹 蠰蠮蠹蠲蠰蠰 蠰蠮蠹蠲蠳蠰 蠰蠮蠹蠱蠹蠹 蠰蠮蠹蠱蠸蠲

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

訓練 蠱蠰蠰次衍術衅包含資訊

測試集 平均數 最小值 最大值 變異數 變異係數 蠱 蠰蠮蠹蠰蠳蠴 蠰蠮蠹蠰蠳蠱 蠰蠮蠹蠰蠳蠵 蠰蠮蠰蠰蠰蠰蠷 蠰蠮蠰蠰蠷蠷蠥 蠲 蠰蠮蠸蠹蠷蠴 蠰蠮蠸蠹蠶蠸 蠰蠮蠸蠹蠷蠶 蠰蠮蠰蠰蠰蠰蠶 蠰蠮蠰蠰蠶蠹蠥 蠳 蠰蠮蠸蠸蠹蠳 蠰蠮蠸蠸蠸蠷 蠰蠮蠸蠸蠹蠳 蠰蠮蠰蠰蠰蠰蠹 蠰蠮蠰蠱蠰蠥 蠴 蠰蠮蠸蠹蠸蠳 蠰蠮蠸蠹蠸蠳 蠰蠮蠸蠹蠸蠴 蠰蠮蠰蠰蠰蠱蠷 蠰蠮蠰蠱蠹蠥 蠵 蠰蠮蠹蠰蠹蠷 蠰蠮蠹蠰蠹蠱 蠰蠮蠹蠱蠰蠴 蠰蠮蠰蠰蠰蠱蠵 蠰蠮蠰蠱蠶蠥

表 蠴蠮蠳蠰蠺 衍衯衶衩补行补衮衳資料中用衁行術試驗蠱蠰蠰次的衍術衅資訊蠬U的起始值以N 蠨蠰, 蠱蠩生成 由於衍衯衮衤衯和衍衯衶衩补行补衮衳兩筆資料的密集程度不同蠬因此進行比較的時候以變異係數衡量 兩筆資料在進行蠱蠰蠰次試驗之下的分散程度。根據表蠴蠮蠲蠷以及表蠴蠮蠲蠹的結果比較蠬衍衯衶衩补行补衮衳不 但在蠱蠰蠰次衍術衅的平均和變異數都比衍衯衮衤衯還小、變異係數也比衍衯衮衤衯小很多。我們猜測在 評分資料稀疏的狀況之下有各種收斂後的U和C之結構組合蠬由於衍衯衮衤衯評分資料太少蠬每次估 計出的U和C可能會不穩定蠬因此不同組合之下預測測試集的資料就會有不同的預測值蠬變異 性會比較大蠻而衍衯衶衩补行补衮衳資料較完整蠬估計的U和C的組合大致上也較穩定蠬變異性也相對比較 小。

4.5 預 預 預測 測 測結 結 結果 果 果比 比 比較 較 較

由於在使用衉衒衔模型法的過程中蠬較大的資料矩陣必須經過前處理後蠬在生成衍衃衍衃樣本的 時候程式才能運作蠬因此若能夠以原始資料的訓練集進行預測才會得到真正的預測結果蠬尤其 對衍衯衶衩补行补衮衳這筆資料來說更是如此蠬因為這筆資料在衉衒衔模型法中生成衍衃衍衃樣本時刪除了 評分次數少於蠱蠲蠰的評分者。相關係數法和矩陣分解法雖然沒有這樣的問題蠬但是為了方便比 較蠬因此這兩種方法也以刪除過後的資料進行預測。

表蠴蠮蠳蠱的左右欄分別為衍衯衮衤衯和衍衯衶衩补行补衮衳資料在情況衁之下以衉衒衔模型法、相關係數 法、以及交錯最小平方法用蠱蠰次不同的訓練測試集所得到的衍術衅值。表中衉衒衔模型法所使用的 是第二組的γ起始值12蠬雖然從表蠴蠮蠴和表蠴蠮蠱蠲標為粗體字的數值可看出γ的收斂值跟起始值相同 時所做出來的預測結果比較好蠬但是並沒有想出有何理論能夠解釋這現象蠬因此比較表上沒有列 出這一類起始值的預測結果。矩陣分解法則是因為不論U用衕蠨−蠱, 蠱蠩或N 蠨蠰, 蠱蠩生成結果都差 不多蠬因此僅列出以衕蠨−蠱, 蠱蠩生成U所做出的結果。