• 沒有找到結果。

1 遮住資料的方式是根 據每個人評分的產品數隨機遮住10%的評分數目並無條件捨去小數點,由於像評分22筆資 料 的人遮住10%並捨去小數點後即為2筆,因此累加起來保留的資料可能大於90%

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

Chapter 3 研 研 研 究 究 究方 方 方法 法 法

本章分為三節蠺第一節介紹由衈衯和衑衵衩衮衮所提及的衉衒衔模型法來預測蠬第二節介紹由衒补衳衮衩衣衫等 人所提及的相關係數預測法蠬第三節介紹交錯最小平方法來解方程式蠨蠲蠮蠹蠩。使用的統計軟體 在衉衒衔模型法和相關係數法為衒蠬在交錯最小平方法為衍衡衴衬衡衢。

3.1 IRT 模 模 模型 型 型法 法 法

在這一節我們使用衈衯和衑衵衩衮衮的研究方法。我們會將實際的資料先遮住蠱蠰蠥1蠬運用剩 下的這蠹蠰蠥資料作為訓練集蠨衴衲衡衩衮衩衮衧 衳补衴蠩來建立模型蠬並根據方程式蠨蠲蠮蠵蠩計算出所有項目在 這蠹蠰蠥的資料下分別被所有評分者評分為蠱分至C分的機率蠬然後再從中取最大值作為預測數 值預測被遮住的蠱蠰蠥的測試集蠨衴补衳衴衩衮衧 衳补衴蠩蠬以預測的數值和原始的評分數值比較結果。此 外蠬衈衯和衑衵衩衮衮蠨蠲蠰蠰蠸蠩當時假是設對所有的βr > 蠰蠬如此一來便能夠從θp的正負號來判別項目品 質的好壞蠬可是由於並不是所有評分者對項目的認知都一樣蠬也許有人對於項目的品質認知是和 其他人完全相左的蠬或者也有人對於項目的品質毫無判斷力。因此先檢定兩兩評分者間的相關 係數是否有顯著小於蠰的情形蠬如果有兩兩評分者間的相關係數小於蠰則表示至少有一個人和其 他人的品質認知是相反的蠬這時再以不限制βr的正負號之下來加以預測蠬並和βr > 蠰的預測結果 比較。

這項研究是利用統計軟體衒提供的衰衡衣衫衡衧补 衜衒衡衴衩衮衧衳蠢蠬由於這個衰衡衣衫衡衧补所提供的程式在 生成衍衃衍衃樣本時在直接用原始資料會無法運作蠬衈衯和衑衵衩衮衮在研究的時候是刪除一些評分數 過少的評分者蠬再以刪除過的新資料進行研究蠬而本研究也使用這樣的方法。以下列出詳細的步

1

遮住資料的方式是根 據每個人評分的產品數隨機遮住10%的評分數目並無條件捨去小數點,由於像評分22筆資 料 的人遮住10%並捨去小數點後即為2筆,因此累加起來保留的資料可能大於90%

蠱蠸

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

驟蠺

蠱蠮 先將刪除過後的資料隨機遮住蠱蠰蠥作為測試集。

蠲蠮 檢定兩兩評分者間評分的相關係數是否有顯著小於蠰。在檢定之前先排除共同評分數小 於蠲的兩兩評分者蠬因為兩人之間共同評分的項目交集只有一項或是沒有共同評比項目無 法求出相關係數蠬兩人之間的共同評分數為蠲則相關係數小於蠰的值必然是蠱。

蠳蠮 選定切點γ0, γ1, · · · , γ5的起始值蠬並用衍衃衍衃抽出參數的後驗分配{α(m)r , βr(m), θ(m)p , γ(m)}Mm=1蠬本 論文選取 M 蠽 蠲蠰蠰蠰蠰。

蠴蠮 以剩下的蠹蠰蠥訓練集建模蠬並計算出第r個人對項目p評分c分的機率πrpc蠬即蠨蠲蠮蠵蠩式。 蠵蠮 第r個評分者對於項目p的評分預測值即為蠬從πrp1, . . . , πrpC中取最大的數值蠬其對應

的C值即為評分的預測值。

蠶蠮 比較實際的評分值與預測數值的結果蠬並計算平均平方誤差蠨衍补衡衮 術衱衵衡衲补 衅衲衲衯衲蠬衍術衅蠩。

蠷蠮 若有兩兩評分者間評的相關係數小於蠰的情況蠬則在不設限βr的狀況重做步驟三到六蠬並比 較βr> 蠰以及不設限βr的結果及衍術衅。

蠸蠮 選定其他不同的γ0, γ1, · · · , γ5起始值蠬並比較預測結果及衍術衅。

由於在遮住蠱蠰蠥資料的時候有可能會遮到剛好只有一個人評分的產品之分數蠬使得該評分 項目所在的行和列都是遺漏值蠬導致沒有評分者或是項目都沒有資訊可以預測該項評分蠬這種情 形只能保守預測為蠳分。我們會分別做出加入這些數值作預測以及沒有加入這些數值作預測 的衍術衅結果。

3.2 相 相 相關 關 關係 係 係數 數 數 預 預 預測 測 測法 法 法

在這一節利用衒补衳衮衩衣衫等人蠨蠱蠹蠹蠴蠩的所提及的相關係數法作為預測方式蠬也就是合作式推薦 系統在決定是否推薦一個項目時蠬所根據的預測評分之計算方式。由於使用這項方法很容易遇 到蠲蠮蠲節所提到的兩個問題蠬因此針對評分者出現評分同一筆數字的狀況蠬使用的處理方法為刪除 該筆使用者蠬以避免計算相關係數的時候會出現評分為蠰的情況蠬同時也解決了衈衯和衑衵衩衮衮所提

蠱蠹

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

及的第二點問題蠺找出一部份產品品質的判別能力較弱的評分者。針對另一項評分稀疏性的問 題蠬即若欲比較和其他人之間的評分項目亦無交集的情況下蠬因為沒有其他和使用者及項目有關 的資訊蠬因此保守預測為蠳。為了方便比較蠬所預測的資料為上一節刪除過且遮住的蠱蠰蠥的部份。

所使用的步驟如下蠺

蠱蠮 欲預測第r個人所評分的項目p蠬首先先選取有評分該項目p的評分者。

蠲蠮 在選取的評分者中排除掉只評一項項目和評分者評比項目的分數皆一樣的人蠬避免在計算 時出現變異數為蠰的情況。

蠳蠮 按照蠨蠲蠮蠷蠩式的公式計算蠬並將預測的評分值採取四捨五入的動作。若有評分者與第衲個人 之間無項目交集蠬相關係數直接設為蠰蠻若所有評分者評分的項目都沒有和評分者r所評分 的項目有共同交集蠬則完全無法代入蠨蠲蠮蠷蠩式計算蠬此時將評分值保守預測為蠳。

蠴蠮 比較實際的評分值與預測數值的結果蠬並計算衍術衅。

3.3 矩 矩 矩 陣 陣 陣分 分 分解 解 解法 法 法

在這一節使用衋衯衲补衮等人蠨蠲蠰蠰蠹蠩所提出的矩陣分解理論蠬將評分資料的估計矩陣 衞Y分解 成U和C兩個矩陣蠬並利用交錯最小平方法蠨衁行術蠩求解。所預測的資料仍為衉衒衔模型法中資料被 刪減後被遮住的蠱蠰蠥。由於文獻中關於U和C的行維度m都只有二維蠬因此本研究的維度也將以 二維作分析。

蠱蠮 利用交叉驗證的方式決定λ的數值。

蠲蠮 隨機生成矩陣U的數值蠬並藉由方程式蠨蠲蠮蠱蠲蠩求出C蠬再利用方程式蠨蠲蠮蠱蠳蠩求出新的U蠬直到 兩個矩陣皆收斂為止。

蠳蠮 將兩個矩陣作相乘生成預測矩陣 衞Y蠬並比較實際的評分值與預測數值的結果並計算衍術衅。

蠴蠮 將步驟蠲、蠳重複蠱蠰蠰次後記錄所得到的衍術衅之資訊蠺平均數、最大值、最小值、變異數。

蠲蠰

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

Chapter 4 實 實 實證 證 證研 研 研 究 究 究

本章分為五個小節。第一節介紹在本研究使用的實證資料蠬第二節闡述使用衉衒衔模型法 在βr > 蠰與不限制βr的比較以及利用這個方法做出的預測結果蠻第三節描述相關係數法所做出 的預測結果蠻第四節將矩陣分解法的結果做個整理蠬第五節綜合上述三種研究方法的比較並做一 個總評。

4.1 實 實 實證 證 證資 資 資料 料 料

我們利用兩筆資料來做分析。第一筆資料是從衍衯衮衤衯 衔衩衭补衳 蠨表衴衴衰蠺蠯蠯衷衷衷蠮衭衯衮衤衯衴衩衭补衳蠮 衣衯衭蠩蠬來自一家關於傳播媒體的網路公司。這筆資料在衈衯和衑衵衩衮衮經由網站作者同意之下蠬寫 入了統計軟體衒的衒衡衴衩衮衧 衰衡衣衫衡衧补裡。該筆資料一共有蠱蠵蠱蠵個新聞產品以及蠹蠴蠶位評分者蠬每 個產品被評分的次數在蠱至蠸蠹次之間蠬每位評分者的評分次數在蠱至蠱蠳蠰之間蠬而產品的評分 以蠱分至蠵分代表衡衷衦衵衬蠬衰衯衯衲蠬衡衶补衲衡衧补蠬衶补衲衹 衧衯衯衤蠬衧衲补衡衴分為五個等級蠬各個等級評分的人數分別 有蠱蠰蠰蠳蠬蠶蠰蠶蠬蠸蠶蠴蠬蠸蠹蠲蠬蠱蠱蠷蠶人蠬總共有蠴蠵蠱蠱筆評分資料蠬占了總資料的蠰蠮蠳蠱蠥。

第二筆資料是來自衍衩衮衮补衳衯衴衡大學的衇衲衯衵衰行补衮衳 衒补衳补衡衲衣表 衐衲衯衪补衣衴 蠨表衴衴衰蠺蠯蠯衭衯衶衩补衬补衮衳蠮 衵衭衮蠮补衤衵蠩蠬檔名為衍衯衶衩补行补衮衳蠬內容包含了從蠱蠹蠹蠷年蠹月蠱蠹日至蠱蠹蠹蠸年蠴月蠲蠲日總共蠱蠰蠰蠰蠰蠰筆的 電影評分資料蠬總共有蠹蠴蠳位評分者蠬被評分的電影一共有蠱蠶蠸蠲部蠬每部電影的評分由低至高 為蠱分至蠵分蠬從蠱分至蠵分的資料筆數一共有蠶蠱蠱蠰蠬蠱蠱蠳蠷蠰蠬蠲蠷蠱蠴蠵蠬蠳蠴蠱蠷蠴蠬蠲蠱蠲蠰蠱筆蠬占了所有資料 的蠶蠮蠳蠥。

在進行實證研究時蠬我們將衍衯衮衤衯這筆資料遮住蠱蠰次隨機蠱蠰蠥的評分資料蠬分別作為蠱蠰次的 訓練測試集蠻衍衯衶衩补行补衮衳則遮住蠵次隨機蠱蠰蠥的評分資料蠬作為蠵次的訓練測試集。

蠲蠱

1

”Rating”這 個package裡生成MCMC樣本的程式ordrating在資料量太大時會直接關閉視窗,而資料矩陣若有