10 4.1 節提到Mondo的評分人數從1分至5分分別為1003,606,864,892,1176人。

4.1 節提到Mondo的評分人數從1分至5分分別為1003,606,864,892,1176人。

蠴蠰

‧

‧ 國

立政治大學

‧

N a

tio na

l C h engchi U ni ve rs it y

衍衯衶衩补行补衮衳這筆資料評分為蠳、蠴、蠵的人較多¹¹蠬但是預測成蠵的卻相對較少。會預測成蠵的大多是因為欲預測某電影的評分者與其他有評分欲預測之電影的評分者的相關程度都呈現高度正相關的情形蠬而這些有評分欲預測之電影的評分者大部份也都評該電影蠵分蠬意即欲針對預測該電影的評分者和其他有評分這部電影的評分者的喜好程度一樣蠬因此系統就會預測為蠵分。由於有評分欲預測之電影的評分者也多蠬也因此能夠參考的兩兩評分者間的計算相關係數也很多蠬但是評分者間也有一些項目品質判斷較差的評分者或是項目品質判斷與他人相反的評分者蠬使得有零相關和負相關的相關係數數值蠬因此納入這些相關係數在以蠨蠲蠮蠷蠩式作運算時會產生負面的效應蠬使得原本評分蠵分的評分者經由計算之後再經過四捨五入的處理之下會預測成為蠴或蠳分。

4.4 矩矩矩陣陣陣分分分解解解法法法分分分析析析

4.4.1 Mondo 預預預測測測結結結果果果

在這裡是利用交錯最小平方法蠨衁行術蠩解出矩陣分解法分解後的兩個矩陣。由於在執行交錯最小平方法解蠨蠲蠮蠱蠱蠩式的時候蠬有個正規化參數λ要選擇蠬在此先選取蠲蠰組λ值蠬再利用五摺交叉驗証蠨蠵蠭衦衯衬衤衣衲衯衳衳衶衡衬衩衤衡衴衩衯衮蠩的方式決定蠺將每一組訓練測試集的資料輪流遮掉蠲蠰蠥資料並計算衍術衅蠬再選擇可以讓平均衍術衅最小的λ值。選取的λ值和平均的衍術衅列在表蠴蠮蠲蠵蠬每一組訓練測試集的所有λ都做五次並將這五次的衍術衅值加以平均。

表蠴蠮蠲蠵可看出在衍衯衮衤衯資料中蠬蠱蠰次不同的訓練測試資料之下利用交叉驗證能夠使平均衍術衅最小的λ大部份皆為蠲蠬僅第四次的訓練測試集在λ為蠳的時候才最小蠬為了統一作比較蠬在此都選取λ數值為蠲。之後將矩陣U的每個數值以隨機生成的方式作為起始值蠬再代入蠨蠲蠮蠱蠲蠩與蠨蠲蠮蠱蠳蠩交錯解出C和U直到兩個矩陣收斂蠬並藉由蠨蠲蠮蠱蠰蠩式將收斂後的兩矩陣相乘預測整個資料的評分分數然後比對作為測試集的蠱蠰蠥資料蠬每次訓練測試集下的起始值各作蠱蠰蠰次。表蠴蠮蠲蠶與表蠴蠮蠲蠷是將矩陣U的每個數值分別以衕蠨−蠱, 蠱蠩和N 蠨蠰, 蠱蠩隨機生成之後蠬將兩種生成方式預測衍術衅結果的統計量蠬預測的模式以情況衁為主。從這兩個表看出不論起始值以何種方式生成蠬結果都差不多蠬因此起始值的影響並不大。

4.4.2 MovieLens 預預預測測測結結結果果果

對於衍衯衶衩补行补衮衳這筆資料蠬對於正規化參數λ值則選取蠱蠰組蠬選取的λ值和交叉試驗的平

4.1 節提到MovieLens的評分人數從1分至5分別為6110,11370,27145,34174,21201人。

蠴蠲

‧

0.05 2.9916 3.0333 2.9644 2.9666 2.8917 3.1026 2.9708 2.9606 2.8484 2.9872 0.1 2.8832 2.9306 2.8738 2.9405 2.8060 3.0223 2.9138 2.8455 2.8309 2.9763 0.2 2.8205 2.8707 2.8263 2.8641 2.7250 2.9131 2.8071 2.7393 2.7127 2.8811 0.3 2.7711 2.8183 2.7862 2.8287 2.6919 2.8731 2.7548 2.7471 2.6512 2.8004 0.4 2.7214 2.8080 2.7716 2.7406 2.6457 2.7698 2.7675 2.7049 2.6268 2.7812 0.5 2.6679 2.7689 2.7300 2.7084 2.6591 2.7390 2.7095 2.6543 2.6280 2.7394 0.6 2.6640 2.7059 2.7228 2.7095 2.6219 2.7063 2.6966 2.6377 2.6209 2.7012 0.7 2.6353 2.7099 2.7142 2.7005 2.6227 2.6754 2.7057 2.6382 2.6330 2.6930 0.8 2.6271 2.6813 2.7128 2.6556 2.6135 2.6726 2.6751 2.6243 2.6232 2.6829 0.9 2.6057 2.6945 2.7109 2.6497 2.6069 2.6553 2.6720 2.6090 2.6205 2.6968 1 2.5924 2.6871 2.6915 2.6440 2.6029 2.6562 2.6795 2.6129 2.6053 2.6942 2 2.5920 2.6296 2.6265 2.6055 2.5828 2.5832 2.6107 2.5982 2.5341 2.6606 3 2.6699 2.6676 2.6666 2.5990 2.6261 2.6071 2.6216 2.6194 2.6009 2.6678 4 2.7293 2.7636 2.7405 2.6983 2.7439 2.7116 2.7256 2.6908 2.6874 2.7435 5 2.8602 2.8946 2.8661 2.8528 2.8953 2.8598 2.8647 2.8623 2.8257 2.8880 6 3.0338 3.0492 3.0365 3.0093 3.0404 3.0336 3.0103 3.0359 2.9830 3.0502 7 3.1967 3.2203 3.1945 3.1449 3.1957 3.2028 3.1830 3.2109 3.1546 3.2108 8 3.3744 3.3869 3.3653 3.3178 3.3509 3.3581 3.3550 3.3595 3.3106 3.3684 9 3.5117 3.5350 3.5198 3.4512 3.4977 3.5068 3.5076 3.4931 3.4822 3.5124 10 3.6437 3.6751 3.6575 3.5728 3.6212 3.6388 3.6340 3.6389 3.6269 3.6493

表蠴蠮蠲蠵蠺衍衯衮衤衯資料經過五次的五摺交叉驗證後得到的平均衍術衅

‧

蠲 0.9197 0.9193 0.9220 0.9195 0.9177 蠳蠰蠮蠹蠲蠰蠹蠰蠮蠹蠲蠰蠰蠰蠮蠹蠲蠳蠰蠰蠮蠹蠱蠹蠹蠰蠮蠹蠱蠸蠲

‧ 國

立政治大學

‧

N a

tio na

l C h engchi U ni ve rs it y

訓練蠱蠰蠰次衍術衅包含資訊

測試集平均數最小值最大值變異數變異係數蠱蠰蠮蠹蠰蠳蠴蠰蠮蠹蠰蠳蠱蠰蠮蠹蠰蠳蠵蠰蠮蠰蠰蠰蠰蠷蠰蠮蠰蠰蠷蠷蠥蠲蠰蠮蠸蠹蠷蠴蠰蠮蠸蠹蠶蠸蠰蠮蠸蠹蠷蠶蠰蠮蠰蠰蠰蠰蠶蠰蠮蠰蠰蠶蠹蠥蠳蠰蠮蠸蠸蠹蠳蠰蠮蠸蠸蠸蠷蠰蠮蠸蠸蠹蠳蠰蠮蠰蠰蠰蠰蠹蠰蠮蠰蠱蠰蠥蠴蠰蠮蠸蠹蠸蠳蠰蠮蠸蠹蠸蠳蠰蠮蠸蠹蠸蠴蠰蠮蠰蠰蠰蠱蠷蠰蠮蠰蠱蠹蠥蠵蠰蠮蠹蠰蠹蠷蠰蠮蠹蠰蠹蠱蠰蠮蠹蠱蠰蠴蠰蠮蠰蠰蠰蠱蠵蠰蠮蠰蠱蠶蠥

表蠴蠮蠳蠰蠺衍衯衶衩补行补衮衳資料中用衁行術試驗蠱蠰蠰次的衍術衅資訊蠬U的起始值以N 蠨蠰, 蠱蠩生成由於衍衯衮衤衯和衍衯衶衩补行补衮衳兩筆資料的密集程度不同蠬因此進行比較的時候以變異係數衡量兩筆資料在進行蠱蠰蠰次試驗之下的分散程度。根據表蠴蠮蠲蠷以及表蠴蠮蠲蠹的結果比較蠬衍衯衶衩补行补衮衳不但在蠱蠰蠰次衍術衅的平均和變異數都比衍衯衮衤衯還小、變異係數也比衍衯衮衤衯小很多。我們猜測在評分資料稀疏的狀況之下有各種收斂後的U和C之結構組合蠬由於衍衯衮衤衯評分資料太少蠬每次估計出的U和C可能會不穩定蠬因此不同組合之下預測測試集的資料就會有不同的預測值蠬變異性會比較大蠻而衍衯衶衩补行补衮衳資料較完整蠬估計的U和C的組合大致上也較穩定蠬變異性也相對比較小。

4.5 預預預測測測結結結果果果比比比較較較

由於在使用衉衒衔模型法的過程中蠬較大的資料矩陣必須經過前處理後蠬在生成衍衃衍衃樣本的時候程式才能運作蠬因此若能夠以原始資料的訓練集進行預測才會得到真正的預測結果蠬尤其對衍衯衶衩补行补衮衳這筆資料來說更是如此蠬因為這筆資料在衉衒衔模型法中生成衍衃衍衃樣本時刪除了評分次數少於蠱蠲蠰的評分者。相關係數法和矩陣分解法雖然沒有這樣的問題蠬但是為了方便比較蠬因此這兩種方法也以刪除過後的資料進行預測。

表蠴蠮蠳蠱的左右欄分別為衍衯衮衤衯和衍衯衶衩补行补衮衳資料在情況衁之下以衉衒衔模型法、相關係數法、以及交錯最小平方法用蠱蠰次不同的訓練測試集所得到的衍術衅值。表中衉衒衔模型法所使用的是第二組的γ起始值¹²蠬雖然從表蠴蠮蠴和表蠴蠮蠱蠲標為粗體字的數值可看出γ的收斂值跟起始值相同時所做出來的預測結果比較好蠬但是並沒有想出有何理論能夠解釋這現象蠬因此比較表上沒有列出這一類起始值的預測結果。矩陣分解法則是因為不論U用衕蠨−蠱, 蠱蠩或N 蠨蠰, 蠱蠩生成結果都差不多蠬因此僅列出以衕蠨−蠱, 蠱蠩生成U所做出的結果。

在文檔中網路評比資料之統計分析 - 政大學術集成 (頁 44-49)

10 4.1 節提到Mondo的評分人數從1分至5分分別為1003,606,864,892,1176人。

4.1 節提到Mondo的評分人數從1分至5分分別為1003,606,864,892,1176人。

‧

‧ 國

立 政 治 大 學

‧

N a

tio na

l C h engchi U ni ve rs it y

4.4 矩 矩 矩 陣 陣 陣分 分 分解 解 解法 法 法分 分 分析 析 析

4.4.1 Mondo 預 預 預測 測 測結 結 結果 果 果

4.4.2 MovieLens 預 預 預測 測 測結 結 結果 果 果

4.1 節提到MovieLens的評分人數從1分至5分別為6110,11370,27145,34174,21201人。

‧

‧

‧ 國

立 政 治 大 學

‧

N a

tio na

l C h engchi U ni ve rs it y

4.5 預 預 預測 測 測結 結 結果 果 果比 比 比較 較 較

立政治大學

4.4 矩矩矩陣陣陣分分分解解解法法法分分分析析析

4.4.1 Mondo 預預預測測測結結結果果果

4.4.2 MovieLens 預預預測測測結結結果果果

立政治大學

4.5 預預預測測測結結結果果果比比比較較較