模擬設計

第三章電腦模擬研究分析

第一節模擬設計

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章電腦模擬研究分析

本研究將透過電腦模擬，產生符合需求的資料並比較各種插補方法填補結果所估計的參數之優劣，插補方法共有眾數插補、鏈式方程進行 1 次、5 次和 10 次多重插補、以及使用修改後之熱卡插補法填補 5 次和 10 次。

第一節模擬設計

考慮樣本數為 n 和自變數為 p 個，本研究分兩種不同資料組成進行模擬，第 一種產生遺漏值時保留前 5%為完整資料，用以比較眾數插補、最大期望法、鏈式方程、熱卡插補法之表現。

實際消費者評論資料在很早的觀測值中就有出現遺漏值，而熱卡插補法計算觀測值相似度時使用迴歸模型，資料太少有自由度太低的問題。本研究之熱卡插補法，需使用其他方法填補前百分之 5 的資料，使熱卡插補有足夠的資料計算相似度。第二種資料生成中前百分之 5 的資料也會有遺漏值，比較使用不同方法填補前 5%資料後，再使用熱卡插補法之優劣。

除了前 5%的資料完整與否之外，第一種資料生成的模擬為了讓資料有更多變異，資料都是 1 到 10 的整數分數，而第二種資料生成方式則依照量化後的亞馬遜網站 Canon 系列數位相機之消費者評論為 1 到 5 分的整數分數。

假設樣本中有兩種消費者，一種為隨機遺失，一種為非隨機遺失，隨機遺失為消費者撰寫評論時不受其它評論影響，非隨機遺失者撰寫評論時會受其餘評論影響，僅撰寫與他人不同者，將所佔比例定為

𝛼 = 非隨機遺失之觀測值比例, 0 ≤ 𝛼 ≤ 1, 並將兩者之遺失比例定為

𝛾₁ = 隨機遺失之遺失比例, 𝛾₂ = 非隨機遺失之遺失比例, 0 ≤ 𝛾₁, 𝛾₂ ≤ 1, 因此樣本將有np (1-α)γ1的遺漏值為隨機遺失、npαγ2的遺漏值為非隨機遺失

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.1.1 資料生成

第一種資料假設自變數 X 的範圍皆為最低 1 到最高 10 分的整數分數，從平 均值和標準差皆為 2 的常態分配中抽取一半自變數 𝑋₁, … , 𝑋_{⌊𝑝 2}_{⁄ ⌋} 各 n 個值，即為

𝑋₁, … , 𝑋_{𝑝 2}_⁄ ~𝑁(2,2)

其中超過 10 和低於 0 的值會重新抽，接著無條件進位為 1 到 10 的整數。

再從平均值為 8 標準差為 2 的常態分配中抽取另一半自變數 𝑋_{⌊𝑝 2}_{⁄ ⌋+1}, … , 𝑋_𝑝 各 n 個值，即為

𝑋_{⌊𝑝 2}_{⁄ ⌋+1}, … , 𝑋_𝑝~𝑁(8,2)

其中超過 10 和低於 0 的值一樣重新抽，接著無條件進位變成 1 到 10 的整數。

考慮消費者所評價的總分 Y 和各個自變數 X 的分數有模型(1)之關係以產生

Y，若誤差項服從標準常態時，Y 的變異相當小，因此將誤差項之分配調整為上

下界從-2 到 2 的均勻分布，即為𝜺~𝑈(−2,2)。

本研究的眾數插補是填補其他相同 Y 值之觀察值的眾數，因此將所有 Y 值 中，每一個分數第一次出現的資料移到前 5%的資料中。若第一個總分 y 被評為 9 分之觀測值出現在後 95%的資料中(假設為 yj)，則將前百分之 5 的觀測值中出 現最多次的 y (假設為 5 分)中的第一筆觀測值(假設為 yk)和 yj交換，此時前百分 之 5 的資料中依然有 y 為 5 分的觀測值而後續做眾數填補時也不會遇到 y =9 在 前面的資料中找不到的可能，最後前 5%的資料中將會包含整筆資料中出現過的 所有 y 之分數。

第二種資料生成中，資料為 1 到 5 分，將抽取資料範圍除二，即為 𝑋₁, … , 𝑋_{𝑝 2}_⁄ ~𝑁(1,1),

𝑋_{𝑝 2}_{⁄ +1}, … , 𝑋_𝑝~𝑁(4,1), 𝜺~𝑈(−1,1)

同樣所有 X 和 Y 超過 5 以及低於 0 重新抽取，其餘過程皆與上述過程相同。

‧

在文檔中多重插補法在線上使用者評分之應用 - 政大學術集成 (頁 19-22)

第三章 電腦模擬研究分析

第一節 模擬設計

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章 電腦模擬研究分析

第一節 模擬設計

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.1.1 資料生成

Y，若誤差項服從標準常態時，Y 的變異相當小，因此將誤差項之分配調整為上

‧

‧

第三章電腦模擬研究分析

第一節模擬設計

立政治大學

第三章電腦模擬研究分析

第一節模擬設計

立政治大學