• 沒有找到結果。

第三章 電腦模擬研究分析

第一節 模擬設計

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

19

第三章 電腦模擬研究分析

本研究將透過電腦模擬,產生符合需求的資料並比較各種插補方法填補結果 所估計的參數之優劣,插補方法共有眾數插補、鏈式方程進行 1 次、5 次和 10 次 多重插補、以及使用修改後之熱卡插補法填補 5 次和 10 次。

第一節 模擬設計

考慮樣本數為 n 和自變數為 p 個,本研究分兩種不同資料組成進行模擬,第 一種產生遺漏值時保留前 5%為完整資料,用以比較眾數插補、最大期望法、鏈 式方程、熱卡插補法之表現。

實際消費者評論資料在很早的觀測值中就有出現遺漏值,而熱卡插補法計算 觀測值相似度時使用迴歸模型,資料太少有自由度太低的問題。本研究之熱卡插 補法,需使用其他方法填補前百分之 5 的資料,使熱卡插補有足夠的資料計算相 似度。第二種資料生成中前百分之 5 的資料也會有遺漏值,比較使用不同方法填 補前 5%資料後,再使用熱卡插補法之優劣。

除了前 5%的資料完整與否之外,第一種資料生成的模擬為了讓資料有更多 變異,資料都是 1 到 10 的整數分數,而第二種資料生成方式則依照量化後的亞 馬遜網站 Canon 系列數位相機之消費者評論為 1 到 5 分的整數分數。

假設樣本中有兩種消費者,一種為隨機遺失,一種為非隨機遺失,隨機遺失 為消費者撰寫評論時不受其它評論影響,非隨機遺失者撰寫評論時會受其餘評論 影響,僅撰寫與他人不同者,將所佔比例定為

𝛼 = 非隨機遺失之觀測值比例, 0 ≤ 𝛼 ≤ 1, 並將兩者之遺失比例定為

𝛾1 = 隨機遺失之遺失比例, 𝛾2 = 非隨機遺失之遺失比例, 0 ≤ 𝛾1, 𝛾2 ≤ 1, 因此樣本將有np (1-α)γ1的遺漏值為隨機遺失、npαγ2的遺漏值為非隨機遺失

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

20

3.1.1 資料生成

第一種資料假設自變數 X 的範圍皆為最低 1 到最高 10 分的整數分數,從平 均值和標準差皆為 2 的常態分配中抽取一半自變數 𝑋1, … , 𝑋⌊𝑝 2⁄ ⌋ 各 n 個值,即為

𝑋1, … , 𝑋𝑝 2 ~𝑁(2,2)

其中超過 10 和低於 0 的值會重新抽,接著無條件進位為 1 到 10 的整數。

再從平均值為 8 標準差為 2 的常態分配中抽取另一半自變數 𝑋⌊𝑝 2⁄ ⌋+1, … , 𝑋𝑝 各 n 個值,即為

𝑋⌊𝑝 2⁄ ⌋+1, … , 𝑋𝑝~𝑁(8,2)

其中超過 10 和低於 0 的值一樣重新抽,接著無條件進位變成 1 到 10 的整數。

考慮消費者所評價的總分 Y 和各個自變數 X 的分數有模型(1)之關係以產生

Y,若誤差項服從標準常態時,Y 的變異相當小,因此將誤差項之分配調整為上

下界從-2 到 2 的均勻分布,即為𝜺~𝑈(−2,2)。

本研究的眾數插補是填補其他相同 Y 值之觀察值的眾數,因此將所有 Y 值 中,每一個分數第一次出現的資料移到前 5%的資料中。若第一個總分 y 被評為 9 分之觀測值出現在後 95%的資料中(假設為 yj),則將前百分之 5 的觀測值中出 現最多次的 y (假設為 5 分)中的第一筆觀測值(假設為 yk)和 yj交換,此時前百分 之 5 的資料中依然有 y 為 5 分的觀測值而後續做眾數填補時也不會遇到 y =9 在 前面的資料中找不到的可能,最後前 5%的資料中將會包含整筆資料中出現過的 所有 y 之分數。

第二種資料生成中,資料為 1 到 5 分,將抽取資料範圍除二,即為 𝑋1, … , 𝑋𝑝 2 ~𝑁(1,1),

𝑋𝑝 2⁄ +1, … , 𝑋𝑝~𝑁(4,1), 𝜺~𝑈(−1,1)

同樣所有 X 和 Y 超過 5 以及低於 0 重新抽取,其餘過程皆與上述過程相同。

相關文件