1 遮住資料的方式是根據每個人評分的產品數隨機遮住10%的評分數目並無條件捨去小數點,由於像評分22筆資料的人遮住10%並捨去小數點後即為2筆,因此累加起來保留的資料可能大於90%

國

立政治大學

‧

N a

tio na

l C h engchi U ni ve rs it y

Chapter 3 研研研究究究方方方法法法

本章分為三節蠺第一節介紹由衈衯和衑衵衩衮衮所提及的衉衒衔模型法來預測蠬第二節介紹由衒补衳衮衩衣衫等人所提及的相關係數預測法蠬第三節介紹交錯最小平方法來解方程式蠨蠲蠮蠹蠩。使用的統計軟體在衉衒衔模型法和相關係數法為衒蠬在交錯最小平方法為衍衡衴衬衡衢。

3.1 IRT 模模模型型型法法法

在這一節我們使用衈衯和衑衵衩衮衮的研究方法。我們會將實際的資料先遮住蠱蠰蠥¹蠬運用剩下的這蠹蠰蠥資料作為訓練集蠨衴衲衡衩衮衩衮衧衳补衴蠩來建立模型蠬並根據方程式蠨蠲蠮蠵蠩計算出所有項目在這蠹蠰蠥的資料下分別被所有評分者評分為蠱分至C分的機率蠬然後再從中取最大值作為預測數值預測被遮住的蠱蠰蠥的測試集蠨衴补衳衴衩衮衧衳补衴蠩蠬以預測的數值和原始的評分數值比較結果。此外蠬衈衯和衑衵衩衮衮蠨蠲蠰蠰蠸蠩當時假是設對所有的βr > 蠰蠬如此一來便能夠從θp的正負號來判別項目品質的好壞蠬可是由於並不是所有評分者對項目的認知都一樣蠬也許有人對於項目的品質認知是和其他人完全相左的蠬或者也有人對於項目的品質毫無判斷力。因此先檢定兩兩評分者間的相關係數是否有顯著小於蠰的情形蠬如果有兩兩評分者間的相關係數小於蠰則表示至少有一個人和其他人的品質認知是相反的蠬這時再以不限制βr的正負號之下來加以預測蠬並和βr > 蠰的預測結果比較。

這項研究是利用統計軟體衒提供的衰衡衣衫衡衧补衜衒衡衴衩衮衧衳蠢蠬由於這個衰衡衣衫衡衧补所提供的程式在生成衍衃衍衃樣本時在直接用原始資料會無法運作蠬衈衯和衑衵衩衮衮在研究的時候是刪除一些評分數過少的評分者蠬再以刪除過的新資料進行研究蠬而本研究也使用這樣的方法。以下列出詳細的步

遮住資料的方式是根據每個人評分的產品數隨機遮住10%的評分數目並無條件捨去小數點,由於像評分22筆資料的人遮住10%並捨去小數點後即為2筆,因此累加起來保留的資料可能大於90%

蠱蠸

‧ 國

立政治大學

‧

N a

tio na

l C h engchi U ni ve rs it y

驟蠺

蠱蠮先將刪除過後的資料隨機遮住蠱蠰蠥作為測試集。

蠲蠮檢定兩兩評分者間評分的相關係數是否有顯著小於蠰。在檢定之前先排除共同評分數小於蠲的兩兩評分者蠬因為兩人之間共同評分的項目交集只有一項或是沒有共同評比項目無法求出相關係數蠬兩人之間的共同評分數為蠲則相關係數小於蠰的值必然是蠱。

蠳蠮選定切點γ0, γ₁, · · · , γ₅的起始值蠬並用衍衃衍衃抽出參數的後驗分配{α^(m)r , β_r^(m), θ^(m)_p , γ^(m)}^M_m=1蠬本論文選取 M 蠽蠲蠰蠰蠰蠰。

蠴蠮以剩下的蠹蠰蠥訓練集建模蠬並計算出第r個人對項目p評分c分的機率πrpc蠬即蠨蠲蠮蠵蠩式。蠵蠮第r個評分者對於項目p的評分預測值即為蠬從πrp1, . . . , π_rpC中取最大的數值蠬其對應

的C值即為評分的預測值。

蠶蠮比較實際的評分值與預測數值的結果蠬並計算平均平方誤差蠨衍补衡衮術衱衵衡衲补衅衲衲衯衲蠬衍術衅蠩。

蠷蠮若有兩兩評分者間評的相關係數小於蠰的情況蠬則在不設限βr的狀況重做步驟三到六蠬並比較βr> 蠰以及不設限βr的結果及衍術衅。

蠸蠮選定其他不同的γ0, γ1, · · · , γ5起始值蠬並比較預測結果及衍術衅。

由於在遮住蠱蠰蠥資料的時候有可能會遮到剛好只有一個人評分的產品之分數蠬使得該評分項目所在的行和列都是遺漏值蠬導致沒有評分者或是項目都沒有資訊可以預測該項評分蠬這種情形只能保守預測為蠳分。我們會分別做出加入這些數值作預測以及沒有加入這些數值作預測的衍術衅結果。

3.2 相相相關關關係係係數數數預預預測測測法法法

在這一節利用衒补衳衮衩衣衫等人蠨蠱蠹蠹蠴蠩的所提及的相關係數法作為預測方式蠬也就是合作式推薦系統在決定是否推薦一個項目時蠬所根據的預測評分之計算方式。由於使用這項方法很容易遇到蠲蠮蠲節所提到的兩個問題蠬因此針對評分者出現評分同一筆數字的狀況蠬使用的處理方法為刪除該筆使用者蠬以避免計算相關係數的時候會出現評分為蠰的情況蠬同時也解決了衈衯和衑衵衩衮衮所提

蠱蠹

‧ 國

立政治大學

‧

N a

tio na

l C h engchi U ni ve rs it y

及的第二點問題蠺找出一部份產品品質的判別能力較弱的評分者。針對另一項評分稀疏性的問題蠬即若欲比較和其他人之間的評分項目亦無交集的情況下蠬因為沒有其他和使用者及項目有關的資訊蠬因此保守預測為蠳。為了方便比較蠬所預測的資料為上一節刪除過且遮住的蠱蠰蠥的部份。

所使用的步驟如下蠺

蠱蠮欲預測第r個人所評分的項目p蠬首先先選取有評分該項目p的評分者。

蠲蠮在選取的評分者中排除掉只評一項項目和評分者評比項目的分數皆一樣的人蠬避免在計算時出現變異數為蠰的情況。

蠳蠮按照蠨蠲蠮蠷蠩式的公式計算蠬並將預測的評分值採取四捨五入的動作。若有評分者與第衲個人之間無項目交集蠬相關係數直接設為蠰蠻若所有評分者評分的項目都沒有和評分者r所評分的項目有共同交集蠬則完全無法代入蠨蠲蠮蠷蠩式計算蠬此時將評分值保守預測為蠳。

蠴蠮比較實際的評分值與預測數值的結果蠬並計算衍術衅。

3.3 矩矩矩陣陣陣分分分解解解法法法

在這一節使用衋衯衲补衮等人蠨蠲蠰蠰蠹蠩所提出的矩陣分解理論蠬將評分資料的估計矩陣衞Y分解成U和C兩個矩陣蠬並利用交錯最小平方法蠨衁行術蠩求解。所預測的資料仍為衉衒衔模型法中資料被刪減後被遮住的蠱蠰蠥。由於文獻中關於U和C的行維度m都只有二維蠬因此本研究的維度也將以二維作分析。

蠱蠮利用交叉驗證的方式決定λ的數值。

蠲蠮隨機生成矩陣U的數值蠬並藉由方程式蠨蠲蠮蠱蠲蠩求出C蠬再利用方程式蠨蠲蠮蠱蠳蠩求出新的U蠬直到兩個矩陣皆收斂為止。

蠳蠮將兩個矩陣作相乘生成預測矩陣衞Y蠬並比較實際的評分值與預測數值的結果並計算衍術衅。

蠴蠮將步驟蠲、蠳重複蠱蠰蠰次後記錄所得到的衍術衅之資訊蠺平均數、最大值、最小值、變異數。

蠲蠰

‧ 國

立政治大學

‧

N a

tio na

l C h engchi U ni ve rs it y

Chapter 4 實實實證證證研研研究究究

本章分為五個小節。第一節介紹在本研究使用的實證資料蠬第二節闡述使用衉衒衔模型法在βr > 蠰與不限制β^r的比較以及利用這個方法做出的預測結果蠻第三節描述相關係數法所做出的預測結果蠻第四節將矩陣分解法的結果做個整理蠬第五節綜合上述三種研究方法的比較並做一個總評。

4.1 實實實證證證資資資料料料

我們利用兩筆資料來做分析。第一筆資料是從衍衯衮衤衯衔衩衭补衳蠨表衴衴衰蠺蠯蠯衷衷衷蠮衭衯衮衤衯衴衩衭补衳蠮衣衯衭蠩蠬來自一家關於傳播媒體的網路公司。這筆資料在衈衯和衑衵衩衮衮經由網站作者同意之下蠬寫入了統計軟體衒的衒衡衴衩衮衧衰衡衣衫衡衧补裡。該筆資料一共有蠱蠵蠱蠵個新聞產品以及蠹蠴蠶位評分者蠬每個產品被評分的次數在蠱至蠸蠹次之間蠬每位評分者的評分次數在蠱至蠱蠳蠰之間蠬而產品的評分以蠱分至蠵分代表衡衷衦衵衬蠬衰衯衯衲蠬衡衶补衲衡衧补蠬衶补衲衹衧衯衯衤蠬衧衲补衡衴分為五個等級蠬各個等級評分的人數分別有蠱蠰蠰蠳蠬蠶蠰蠶蠬蠸蠶蠴蠬蠸蠹蠲蠬蠱蠱蠷蠶人蠬總共有蠴蠵蠱蠱筆評分資料蠬占了總資料的蠰蠮蠳蠱蠥。

第二筆資料是來自衍衩衮衮补衳衯衴衡大學的衇衲衯衵衰行补衮衳衒补衳补衡衲衣表衐衲衯衪补衣衴蠨表衴衴衰蠺蠯蠯衭衯衶衩补衬补衮衳蠮衵衭衮蠮补衤衵蠩蠬檔名為衍衯衶衩补行补衮衳蠬內容包含了從蠱蠹蠹蠷年蠹月蠱蠹日至蠱蠹蠹蠸年蠴月蠲蠲日總共蠱蠰蠰蠰蠰蠰筆的電影評分資料蠬總共有蠹蠴蠳位評分者蠬被評分的電影一共有蠱蠶蠸蠲部蠬每部電影的評分由低至高為蠱分至蠵分蠬從蠱分至蠵分的資料筆數一共有蠶蠱蠱蠰蠬蠱蠱蠳蠷蠰蠬蠲蠷蠱蠴蠵蠬蠳蠴蠱蠷蠴蠬蠲蠱蠲蠰蠱筆蠬占了所有資料的蠶蠮蠳蠥。

在進行實證研究時蠬我們將衍衯衮衤衯這筆資料遮住蠱蠰次隨機蠱蠰蠥的評分資料蠬分別作為蠱蠰次的訓練測試集蠻衍衯衶衩补行补衮衳則遮住蠵次隨機蠱蠰蠥的評分資料蠬作為蠵次的訓練測試集。

蠲蠱

‧

”Rating”這個package裡生成MCMC樣本的程式ordrating在資料量太大時會直接關閉視窗,而資料矩陣若有

在文檔中網路評比資料之統計分析 - 政大學術集成 (頁 22-26)

1 遮住資料的方式是根 據每個人評分的產品數隨機遮住10%的評分數目並無條件捨去小數點,由於像評分22筆資 料 的人遮住10%並捨去小數點後即為2筆,因此累加起來保留的資料可能大於90%

國

立 政 治 大 學

‧

N a

tio na

l C h engchi U ni ve rs it y

Chapter 3 研 研 研 究 究 究方 方 方法 法 法

3.1 IRT 模 模 模型 型 型法 法 法

遮住資料的方式是根 據每個人評分的產品數隨機遮住10%的評分數目並無條件捨去小數點,由於像評分22筆資 料 的人遮住10%並捨去小數點後即為2筆,因此累加起來保留的資料可能大於90%

‧ 國

立 政 治 大 學

‧

N a

tio na

l C h engchi U ni ve rs it y

3.2 相 相 相關 關 關係 係 係數 數 數 預 預 預測 測 測法 法 法

‧ 國

立 政 治 大 學

‧

N a

tio na

l C h engchi U ni ve rs it y

3.3 矩 矩 矩 陣 陣 陣分 分 分解 解 解法 法 法

‧ 國

立 政 治 大 學

‧

N a

tio na

l C h engchi U ni ve rs it y

Chapter 4 實 實 實證 證 證研 研 研 究 究 究

4.1 實 實 實證 證 證資 資 資料 料 料

‧

”Rating”這 個package裡生成MCMC樣本的程式ordrating在資料量太大時會直接關閉視窗,而資料矩陣若有

1 遮住資料的方式是根據每個人評分的產品數隨機遮住10%的評分數目並無條件捨去小數點,由於像評分22筆資料的人遮住10%並捨去小數點後即為2筆,因此累加起來保留的資料可能大於90%

立政治大學

Chapter 3 研研研究究究方方方法法法

3.1 IRT 模模模型型型法法法

遮住資料的方式是根據每個人評分的產品數隨機遮住10%的評分數目並無條件捨去小數點,由於像評分22筆資料的人遮住10%並捨去小數點後即為2筆,因此累加起來保留的資料可能大於90%

立政治大學

3.2 相相相關關關係係係數數數預預預測測測法法法

立政治大學

3.3 矩矩矩陣陣陣分分分解解解法法法

立政治大學

Chapter 4 實實實證證證研研研究究究

4.1 實實實證證證資資資料料料

”Rating”這個package裡生成MCMC樣本的程式ordrating在資料量太大時會直接關閉視窗,而資料矩陣若有