• 沒有找到結果。

多重插補法在線上使用者評分之應用 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "多重插補法在線上使用者評分之應用 - 政大學術集成"

Copied!
57
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學統計系研究所 碩士學位論文. 多重插補法在線上使用者評分之應用. 政 治 大 Multiple 立 Imputation Methods. Managing Online User-Generated Product Reviews Using. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 指導教授:唐揆 博士、鄭宗記 博士 研究生:李岑志 撰. 中 華 民 國 一 百 零 六 年 六 月. 1.

(2) 摘要 隨著網路普及,人們越來越常在網路上購物並在線上評價商品,產生了非常 大的口碑效應。不論對廠商或對消費者來說,線上商品評論都已經變得非常重要; 消費者能藉由他人購買經驗判斷產品優劣,廠商能藉由消費者評價來提升產品品 質,目前已有許多電子商務網站都有蒐集消費者購買產品後的意見回饋。 這些網站中有些提供消費者能對產品打一個總分並寫一段文字評論,然而每 個消費者所評論的產品特徵通常各有不同,尤其是較晚購買的消費者更可能因為 自己的意見已經有人提過而省略。將每個人提到的文字敘述量化為數字分數時,. 政 治 大 同時消費者也有可能提到一些不重要的特徵,若能找到消費者評論中,各個 立. 沒有寫到的特徵將會使量化後的資料存在許多遺漏值。. ‧ 國. 學. 特徵影響消費者的多寡,廠商就能針對產品較重要的缺點改進。本研究將會著重 探討消費者所提到的特徵對產品總分的影響,以及這些遺漏值填補後是否能接近. ‧. 消費者真實意見。. sit. y. Nat. 過去許多填補遺漏值的方法都是一次填補全部資料,並沒有考慮消費者會受. al. er. io. 到時間較早的評論影響。本研究設計一套多重插補的方法並透過模擬驗證,以之. v. n. 填補亞馬遜網站的 Canon 系 列 SX210、SX230、SX260 等三個世代數位相機之. Ch. engchi. i n U. 消費者評論資料。研究結果指出此方法能夠準確估計各項特徵對產品總分的影響。. 關鍵字:意見探勘、遺漏值、多重插補. 2.

(3) Abstract Online user-generated product reviews have become a rich source of product quality information for both producers and customers. As a result, many E-commerce websites allow customers to rate products using scores, and some together with text comments. However, people usually comment only on the features they care about and might omit those have been mentioned by previous customers. Consequently, missing data occur when analyzing comments. In addition, customers may comment the features which influence neither their. 政 治 大 that manufacturers can improve 立 the main defects. Our research focuses on modeling satisfaction nor sales volume. Thus, it is important to find the significant features so. ‧ 國. 學. customer reviews and their influence on predicting overall ratings. We aim to understand whether, by filling up missing values, the critical features can be identified. ‧. and the features rating authentically reflect customer opinion.. sit. y. Nat. Many previous studies fill whole the dataset, but not consider that customer. n. al. er. io. reviews might be influenced by the foregoing reviews. We propose a method based on. i n U. v. multiple imputation and fill the costumer reviews of Canon digital camera (SX210,. Ch. engchi. SX230, SX260 generations) on Amazon. We design a simulation to verify the method’s effectiveness and the method get a great result on identifying the critical features.. Keywords: Opinion Mining, Missing Data, Multiple Imputation.. 3.

(4) 目. 次. 第一章 緒論.................................................................................................................. 9 第一節 研究背景.................................................................................................. 9 第二節 研究目的................................................................................................ 10 第三節 論文架構................................................................................................ 11 第二章 文獻回顧........................................................................................................ 12 第一節 遺漏值.................................................................................................... 12 第二節 遺漏值的處理........................................................................................ 13. 政 治 大 第四節 眾數插補和單插補法之參數估計........................................................ 15 立 第三節 熱卡插補法............................................................................................ 14. ‧ 國. 學. 第五節 多重插補................................................................................................ 16 第六節 鏈式方程插補法.................................................................................... 17. ‧. 第七節 資料蒐集................................................................................................ 18. sit. y. Nat. 第三章 電腦模擬研究分析........................................................................................ 19. al. er. io. 第一節 模擬設計................................................................................................ 19. v. n. 3.1.1 資料生成............................................................................................. 20. Ch. engchi. i n U. 3.1.2 遺漏值生成......................................................................................... 21 第二節 熱卡多重插補設計................................................................................ 22 第三節 模擬結果................................................................................................ 24 3.3.1 前 5%為完整資料之結果 .................................................................. 24 3.3.2 改變模型(1)參數之結果 .................................................................... 35 3.3.3 前 5%有遺漏資料之結果 .................................................................. 39 第四章 實際資料........................................................................................................ 42 第一節 資料描述與產品介紹............................................................................ 42 第二節 填補結果................................................................................................ 46 4.

(5) 4.2.1 SX210 之填補結果與迴歸估計式 .................................................... 46 4.2.2 SX230 之填補結果與迴歸估計式 .................................................... 48 4.2.3 SX260 之填補結果與迴歸估計式 .................................................... 50 4.2.4 三產品填補結果總結 ........................................................................ 51 第五章 結論................................................................................................................ 54. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 5. i n U. v.

(6) 表. 次. 表1. γ=(40%, 40%). α=0.1, 0.2, 0.3, 0.4 ................................................. 25. 表2. γ=(50%, 50%). α=0.1, 0.2, 0.3, 0.4 ................................................. 26. 表3. γ=(60%, 60%). α=0.1, 0.2, 0.3, 0.4 ................................................. 27. 表4. γ=(40%, 60%). α=0.1, 0.2, 0.3, 0.4 ................................................. 28. 表 5. γ=(60%, 40%). α=0.1, 0.2, 0.3, 0.4 ................................................ 29. 表 6. γ=(40%, 40%), α=0.1, 從上到下依序為 X1-X8, 由左至右為眾 數、MICE 填補一次、MICE 次數分配平均、MICE 平均值、熱卡. 政 治 大 γ=(60%, 60%), 立 α=0.4, 從上到下依序為 X -X , 由左至右為眾. 插補次數分配平均、熱卡插補平均值之 K-S 檢定 p 值 ................. 30 表 7. 1. 8. ‧ 國. 學. 數、MICE 填補一次、MICE 次數分配平均、MICE 平均值、熱卡 插補次數分配平均、熱卡插補平均值之 K-S 檢定 p 值 ................. 32 α=0.1, 0.2, 0.3, 0.4 不同參數 β ........................... 36. γ=(60%, 60%), α=0.4, 從上到下依序為 X1-X8, 由左至右為眾. sit. y. Nat. 表 9. γ=(60%, 60%). ‧. 表 8. al. er. io. 數、MICE 填補 1 次、MICE 次數分配平均、MICE 平均值、熱卡. v. n. 插補次數分配平均、熱卡插補平均值之 K-S 檢定 p 值 ................. 36. Ch. engchi. i n U. 表 10 α=0.5, γ=(60%, 60%) ........................................................................ 39 表 11 X1-X8, MICE 補 1 次、MICE 次數分配平均、熱卡次數分配平均 之 K-S 檢定 p 值 ................................................................................. 39 表 12 SX210 相機之前 10 筆資料 ......................................................... 43 表 13 SX230 相機之前 10 筆資料 ......................................................... 43 表 14 SX260 相機之前 10 筆資料 ......................................................... 43 表 15 三世代相機填補前各項分數次數分配表...................................... 44 表 16 三世代相機規格比較...................................................................... 45 表 17 使用眾數、EM、MICE 5 次、10 次、熱卡 5 次、10 次之估計值 6.

(7) (SX210) ................................................................................................ 47 表 18 不同方法結果顯著之次數 SX210 ................................................. 48 表 19 多重插補參數估計值 SX210 ......................................................... 48 表 20 使用眾數、EM、MICE 5 次、10 次、熱卡 5 次、10 次之估計值 (SX230) ................................................................................................ 49 表 21 不同方法結果顯著之次數 SX230 ................................................. 49 表 22 多重插補參數估計值 SX230 .......................................................... 50 表 23 使用眾數、EM、MICE 5 次、10 次之估計值(SX260) ............... 50. 政 治 大 表 25 多重插補參數估計值 SX260 .......................................................... 51 立. 表 24 不同方法結果顯著之次數 SX260 .................................................. 51. 表 26 SX210 熱卡插補 10 筆資料的次數分配平均和百分比 ................ 52. ‧ 國. 學. 表 27 SX230 熱卡插補 10 筆資料的次數分配平均和百分比 ................ 52. ‧. 表 28 SX260 熱卡插補 10 筆資料的次數分配平均和百分比 ................ 53. n. er. io. sit. y. Nat. al. Ch. engchi. 7. i n U. v.

(8) 圖. 次. γ=(40%, 40%), α=0.1, 左上、右上、左下、右下依序為 X1-X4 機. 圖 1. 率密度圖 ........................................................................................... 31 圖 2 γ=(40%, 40%), α=0.1, 左上、右上、左下、右下依序為 X5-X8 機率 密度圖.................................................................................................. 32 圖 3 γ=(60%, 60%), α=0.4, 左上、右上、左下、右下依序為 X1-X4 機率 密度圖.................................................................................................. 34 圖 4 γ=(60%, 60%), α=0.4, 左上、右上、左下、右下依序為 X5-X8 機率. 政 治 大 圖 5 γ=(60%, 60%), 立 α=0.4, 左上、右上、左下、右下依序為 X -X 機率. 密度圖.................................................................................................. 35 1. 4. ‧ 國. 學. 密度圖.................................................................................................. 37 圖 6 γ=(60%, 60%), α=0.4, 左上、右上、左下、右下依序為 X5-X8 機率. ‧. 密度圖.................................................................................................. 38 左上、右上、左下、右下依序為 X1-X4 機率密度圖 ................... 40. 圖 8. 左上、右上、左下、右下依序為 X5-X8 機率密度圖 ................... 41. al. er. io. sit. y. Nat. 圖 7. v. n. 圖 9 原始資料............................................................................................ 42. Ch. engchi. i n U. 圖 10 三世代相機實物照片...................................................................... 46. 8.

(9) 第一章. 緒論. 第一節 研究背景 網路幾乎已經成為了日常生活中不可或缺的一部份,隨著軟硬體技術逐漸進 步,人們能夠透過網路完成的事越來越多,過去人們需要在商店購買產品,如今 電子商務提供人們直接在網路上購買實體商品的服務。然而沒有親眼看到商品, 人們要分辨商品的好壞就只能透過照片和他人的評價,有一項針對美國人進行的 調查(Horrigan 2008)顯示,有百分之 81 的美國人在購買商品前會上網搜尋商品評. 政 治 大 Aggarwal (2016)也提到網路是商業和電子商務的重要媒介,隨著網路的日漸發達, 立 論至少一次,其中有 73%到 87%的人表示商品評論顯著影響他們的購買意願;. 電子商務必將慢慢取代實體商店,線上產品評論系統正是在這樣的環境下誕生並. ‧ 國. 學. 快速發展。. ‧. 現在已經有各式各樣的網站提供人們對各式各樣的商品進行評價,這些商品. y. Nat. 不只侷限於實體商品,甚至還能評價音樂、電影等等產品。有些網站是專門架設. er. io. sit. 給人們評論各大廠商的商品,而許多電子商務平台本身也有提供消費者評價商品。 每個網站評價的方式都有所不同,有些僅提供消費者對產品進行一個整體的評分,. al. n. v i n 有些則可以讓消費者對產品的各個項目進行評分,而有的網站讓消費者可以對產 Ch engchi U. 品評一個總分並寫一段評論,亞馬遜(Amazon)就是這種形式。這些網站的存在讓 蒐集消費者資訊變得容易許多,不需要透過問卷調查等費時費力的方式。 除了消費者之外,生產者也需要透過產品評論來調整商品和服務的設計,蒐 集消費者過去的購買、搜尋和評價資訊能更了解消費者的喜好,依此設計推薦系 統將消費者可能願意購買的產品推薦給消費者,因此近年來有許多推薦系統相關 的研究(Dror, et al., 2011; Hu, et al., 2013; Steck, 2011; Yang, et al.; 2012)。 除了這些網站之外,人與人之間透過社群媒體也已經形成了無數個社交網絡, 越來越多人會在 Facebook, Youtube, Twitter 等等的社交網站上發表自己購買某樣. 9.

(10) 產品的評論。這會影響看到這些評論的人,看到別人提出產品的缺點勢必會對產 品有負面印象,反之亦然。隨著越來越多的人透過各種方式來評價各項產品和服 務,已經產生了廠商所不能忽視的口碑效應(e-word of mouth),見 Duric 和 Song (2012).. 第二節 研究目的 提供開放式的文字評論雖然能獲得更多的消費者意見,但卻讓資料的處理變 的困難,不可能每個人都會針對商品的每一個特點進行評論,大部份的人只會寫 自己在意的部份。處理文字資料時,通常會先分析所有評論所提到的各個特點,. 政 治 大 化成分數。不同消費者會提到不同特徵,因此遺漏值將會發生在每一筆評論中沒 立. 形成商品的各個特徵(feature or aspect),再將這些評論中提到的內容依照好壞轉. ‧ 國. 學. 有提到而別人有提到的特徵中,如何處理這些遺漏值將成非常嚴峻的挑戰。 本研究希望能找出消費者所提到的特徵對產品總分的影響,以及這些遺漏值. ‧. 填補後是否能接近消費者真實意見。使用迴歸模型的估計值可以探討特徵對產品. sit. y. Nat. 總分的影響,而消費者真實意見即為遺漏值的真實值。因此本研究將設計一套多. al. er. io. 重插補(multiple imputa-tion)的方法來估計迴歸模型參數,並以之填補亞馬遜網站. v. n. 的 Canon 系列數位相機之消費者評論資料,資料為林沛盈(2013)所蒐集並量化。. Ch. engchi. i n U. Sridhar 和 Srinivasan (2012)提到人們通常只會寫其他人的評價中沒有提到 或是自己不認同的部份,沒有寫的部分可能是前面已有許多人提過的,因此使用 主流意見,即眾數填補這些遺漏值是一個可行的方式。另外還有很直觀的做法就 是填補平均值,使用平均值和眾數取代遺漏值是填補這類資料最簡單的方式,但 這兩者都會使填補後之資料分配集中在某一個特定的值上。因此近年來有許多不 同的處理方式,如 Pradel, Usunier, 和 Gallinari (2012)分析 yahoo 音樂的資料,分 析過程中使用兩種方式處理遺漏值,一為將遺漏值忽略,二為將遺漏值視為負面 評分,兩者都得到不好的結果。另外 Steck (2010)提出消費者評論的遺漏值是不 隨機遺失(missing not at random)並填補一些經過複雜運算的值來取代遺漏值,並 10.

(11) 未得到好結果,同時此研究主要目的為提高推薦系統中最好的 k 個推薦物之命中 率(top-k hit rate),與本研究之需求不同。 這些方法都是填補一個特定的值來取代遺漏值(single imputation),且填補遺 漏值時都是使用全部資料進行計算。然而消費者撰寫評論可能會受到其他評論影 響,使用者撰寫評論的時候也只會看到更早的評論,使用全部資料進行插補並不 是很符合此情形。插補資料時應只使用時間在其之前的資料,而非全部資料,若 第 i 筆觀測值出現遺漏值,只使用第 1 到 i-1 筆資料來填補遺漏值。. 第三節 論文架構. 政 治 大 三章將詳細介紹本研究設計的方法以及模擬結果,第四章將分析亞馬遜網站的 立 第二章將回顧遺漏值(missing value)以及插補法(imputation)之相關文獻,第. ‧. ‧ 國. io. sit. y. Nat. n. al. er. 方向。. 學. Canon 系列數位相機之消費者評論資料的填補結果,第五章為結論以及未來研究. Ch. engchi. 11. i n U. v.

(12) 第二章. 文獻回顧. 本章節會介紹本研究所使用的插補方法以及各種方法下的參數估計值計算 方式,首先簡單介紹遺漏值以及遺漏值發生機制(missing mechanism)的定義,這 部分 Little 和 Rubin (2002)有非常詳細的介紹。第三節將介紹熱卡插補法的填補 方式,第四節為眾數填補以及單插補法的參數估計,最後介紹多重插補法及其參 數估計。 本研究中使用小寫符號代表單一值,大寫代表變數(變數為行向量),小寫粗 體代表向量(參數或觀察值向量,為列向量),大寫粗體代表矩陣。. 立. 治 政 第一節 遺漏值大. 一筆資料中任何缺漏的觀察值被稱為遺漏值,遺漏值的發生並不少見,而且. ‧ 國. 學. 有可能會對分析的結果產生影響,因此瞭解一個資料中為何產生遺漏值就變得非. ‧. 常重要。然而遺漏值產生的原因非常多,資料收集時的缺漏、實驗本身沒有結果. y. sit. io. er. 忽略。. Nat. 都有可能,有時候忽略遺漏值並不會造成分析結果的偏誤(bias),有時候卻不能. 遺 漏 值 產 生 的 機 制 可 分 為 完 全 隨 機 遺 失 (missing completely at random,. al. n. v i n MCAR)、隨機遺失(missing atC random, MAR)和非隨機遺失(missing not completely hengchi U at random, MNAR)。定義如下:給定未知參數 ψ,將一筆資料 X 分為𝑿𝒎𝒊𝒔 (有遺. 漏值)和𝑿𝒐𝒃𝒔 (無遺漏值),而 M 為由 0 和 1 組成的矩陣,若𝑥𝑖𝑗 遺漏時𝑀𝑖𝑗 為 1,其 餘值皆為 0,遺漏值發生和𝑿𝒎𝒊𝒔 、𝑿𝒐𝒃𝒔 皆獨立,即 P(𝑴|𝑿𝒐𝒃𝒔 , 𝑿𝒎𝒊𝒔 , ψ) = P(𝑴|𝜓) 則稱此資料中的遺漏值是完全隨機遺失;但實際資料中很少是完全隨機遺失,因 此有了隨機遺失,隨機遺失的假設比完全隨機遺失弱一點,資料的遺失若只和 𝑋𝑜𝑏𝑠 有關,和𝑋𝑚𝑖𝑠 獨立,即 P(𝑴|𝑿𝒐𝒃𝒔 , 𝑿𝒎𝒊𝒔 , ψ) = P(𝑴|𝑿𝒐𝒃𝒔 , 𝜓) 12.

(13) 則稱之為隨機遺失;而若資料中的遺漏值既不是完全隨機遺失也不是隨機遺失, 則稱之為非隨機遺失。. 第二節 遺漏值的處理 有非常多方法可以處理遺漏值,資料中的遺漏值若是完全隨機遺失,觀察值 會維持原本的分配,此時忽略遺漏值直接進行分析不會造成結果上的偏誤,僅會 造成樣本數減少。但實際資料很少完全隨機遺失,通常都需要對遺漏值做處理, 單插補法(single imputation)是一個很常看到的方法,填補一個特定的值來取代遺 漏值,比如平均數、眾數、或迴歸模型的預測值,本研究中以主流意見代表遺失. 政 治 大 眾數填補有一個很大的問題是會造成填補後資料過度集中,眾數的出現頻率 立. 資料即為眾數填補。. ‧ 國. 學. 非常高,會讓資料的分配很明顯集中在某個值,平均值插補也會有一樣的問題。 多重插補法(multiple imputation)是由 Rubin(1987, 1996)提出,是對資料進行多次. ‧. 的插補,每次補的值都是從觀察值所得到的一個插補分配(imputation distri-bution). sit. y. Nat. 中隨機取得而不是像單插補法一樣的填補一個特定的值,如多元常態分配和多項. al. er. io. 分配都可以從未遺漏值估計參數並抽取資料填補。多重插補的結果好壞很顯然就. v. n. 會和這個插補分配有關,分配越接近原始資料插補結果就越好。. Ch. engchi. 本研究中將消費者評論之總分定為. i n U. Y=(y1, …, yi, …, yn) 其中 yi 為第 i 筆評論的總分,不會有遺漏值存在,而消費者針對產品各個面向 (aspect)的評論轉換成數字的分數定為 𝑥11 𝑿=( ⋮ 𝑥𝑛1. ⋯ ⋱ ⋯. 𝑥1𝑝 ⋮ ) 𝑥𝑛𝑝. 其中 xij 為第 i 筆評論的第 j 個特徵之分數,i=1,…,n,j=1,…,p,會有遺漏值存在。 且 X 和 Y 皆為有序類別資料(ordinal data)。因此會有 y=f(x)的關係式為 𝑌 = 𝑓(𝑿) = 𝒳‧𝜷T + 𝜺 = 𝛽0 + 𝑿‧(𝛽1 , … … , 𝛽𝑝 )T + 𝜺 13. (1).

(14) 其中 Y 是 n×1 之反應變數向量,𝒳為 n×(p+1) 之矩陣,由一個全部都是 1 的行向 量和 p 個解釋變數 X=(𝑋1 , 𝑋2 , … … , 𝑋𝑝 )組成,而 β=(𝛽0 , 𝛽1 , … … , 𝛽𝑝 )為 p 個解釋變 數的係數以及截距項𝛽0,ε 則為 n×1 的誤差向量,第三章中亦假設消費者評論資 料之 X 和 Y 服從此模型。 本 研 究 將 透 過 不 同 插 補 方 法 估 計 資 料 的 f(x) , 找 出 自 變 數 (independent variable)X 和反應變數(response)Y 之間的關係。希望插補後之完整 X 能夠接近真 實情形,同時希望估計 Y 對 X 的迴歸參數能得到較為準確的結果。. 第三節 熱卡插補法. 政 治 大 的資訊找到適當數值來替代遺漏資料,依照適當的條件,將未出現遺漏值的資料 立. 熱卡插補法(hot deck imputation 見 Andridge 和 Little, 2010)是利用其他變數. ‧ 國. 學. 分類成若干「插補細格」(imputation cell)。再將出現遺漏值的資料依其在研究者 設定的分類條件,從相對應的插補細格中尋找相似特徵的資料,以其數值替代遺. ‧. 漏值,多項變數時則為不同變數交叉分類的插補細格。. sit. y. Nat. 熱卡插補中有一種做法為「最鄰近熱卡插補法」(nearest-neighbor hot-deck. al. er. io. imputation),即藉由不同觀測值之間的距離,以最接近遺漏資料之觀測值來插補. v. n. 該遺漏資料。一般做法會先計算不同觀測值之間的距離,依據研究者欲建立之插. Ch. engchi. i n U. 補細格數量或限制插補資料之最大距離,將所有資料切割成符合研究者需求的數 個插補細格。本研究中之資料為類別資料,可以考慮相同類別者為相似資料,透 過觀測值預測遺漏資料的類別,找相同類別者進行填補。此外本研究中並非將全 部資料同時處理,而是每個觀測值皆只考慮在其之前的觀測值,因此必須在插補 過程中不斷的尋找相似的資料,而無法直接建立固定的插補細格進行處理。 本研究使用之分類條件為遺漏值之預測值 ̂𝑻 𝑋̂ 𝑖 𝑚𝑖𝑠 (𝒁𝒊 𝒐𝒃𝒔 ) = 𝒁𝒊 𝒐𝒃𝒔 𝜷 相同者,此處𝒁𝒊 𝒐𝒃𝒔 為第 i 個觀測值中未遺漏之變數,𝑋̂ 𝑖 𝑚𝑖𝑠 (𝒁𝒊 𝒐𝒃𝒔 )為第 i 個觀測 值遺漏之變數對未遺漏變數配適迴歸模型(使用第 1 到 i-1 個觀測值)所得之預測 14.

(15) 值,隨機抽取前 i-1 個觀測值中𝑋̂ 𝑗 𝑚𝑖𝑠 相同之資料的原始數值來填補。. 第四節 眾數插補和單插補法之參數估計 眾數插補是把遺漏值替換為未遺漏資料的眾數,是一種非常容易的填補方式。 本研究所使用之眾數插補法並非所有資料的眾數,填補遺漏值 xij 時所填補的眾 數是 x1, j 到 xi-1, j 中相同 y 值之資料的眾數。 考慮式(1)之模型,其中誤差向量 ε 服從標準常態分配 N(0,σ2I),資料無遺漏 ̂ = (𝒳 𝑇 𝒳)−1 𝒳 𝑇 𝑌可由最小平方法得到,但資料有遺漏 值時,迴歸中 β 的估計值𝜷 時則有另外的估計值。假設 Z=(Y,X)=(zij)為隨機遺失,且. 政 治 大. 𝑦𝑖 𝜇𝑦 𝜎𝑦2 𝑧𝑖 = ( ) ~Multinormal [𝝁 = ( ) , 𝜮 = ( 𝜮𝑥𝑦 𝒙𝑖 𝝁𝑥. 立. 𝜮𝑦𝑥 )], 𝜮𝑥𝑥. 假設參數 θ=(μ, Σ),而 Ri 為第 i 筆資料中未遺漏之變數(即為 zi 的未遺漏變數),. 學. 𝑐̂𝑗𝑘 = {. 𝑧𝑖𝑗 , 𝑧𝑖𝑘 皆遺漏. 0,. .. 𝑧𝑖𝑗 , 𝑧𝑖𝑘 至少一個未遺漏. sit. y. Nat. 收斂時的估計值. 𝑐𝑜𝑣(𝑧𝑖𝑗 , 𝑧𝑖𝑘 |𝑅𝑖 , 𝜽𝑡 ),. ‧. ‧ 國. ̂ 𝑖 的第 j, k 個元素 使用單插補法填補完成後,第 i 筆資料之共變異數矩陣𝑪. n. al. er. io. −1 ̂ ̂ )−1 𝑿 ̂𝑇𝑿 ̂ +𝑪 ̂ 𝑇 𝑌, (𝛽̂1 , … … , 𝛽̂𝑝 ) = 𝛴̂𝑥𝑥 𝛴𝑥𝑦 = (𝑿. ̂ = ∑𝑛𝑖=1 𝑪 ̂ 𝑖 (Shih 和 Weisberg, 1986) 其中𝑪. Ch. engchi. ̂ T𝝁 𝛽̂0 = 𝝁 ̂−𝜷 ̂𝑥 ,. i n U. v. −1 ̂ 𝜎̂ 2 = 𝜎̂𝑦2 − 𝛴̂𝑦𝑥 𝛴̂𝑥𝑥 𝛴𝑥𝑦 .. 上述估計值除了共變異數矩陣的估計值之外皆為 Little 和 Rubin (1987)運用掃描 算子(sweep operator)所得,此運算過程可以讓估計值計算過程變得很簡單,另外 Little(1979)提供了一個Var(𝛽̂ )的逼近值如下 ̂ 𝑇𝑾 ̂ )−1 , ̂𝒳 𝐴𝑤 = 𝜎̂ 2 𝑺−1 ̂ 2 (𝒳 𝑤 =𝜎 ̂是一個對角矩陣,對角線上之值為 其中𝑾 1, 𝑤𝑖𝑖 =. { 𝜎̂𝑦2 2 𝜎̂𝑦𝑖. ,. 第𝑖筆資料中無遺漏資料 第𝑖筆資料中有遺漏資料 15. ,.

(16) 2 為第 i 筆資料中之未遺 𝜎̂𝑦2 為所有變數對 y 做迴歸所得之殘差變異數估計值,𝜎̂𝑦𝑖. 漏變數對 y 做迴歸所得之殘差變異數估計值。. 第五節 多重插補 多重插補法是目前插補法中最受推崇的主流方法,由 Rubin 於 1978 年首先 提出,再由 Little 和 Rubin 加以發展。多重插補是由單插補法延伸而來,插補後 產生 m 個(m>2)完整的插補資料,每個完整資料均可由前述各種方法插補所得。 接著使用每個插補資料進行分析,再將這多筆完整資料估計出來的數個參數進行 合併,得到參數最終之估計值與標準差。. 政 治 大 配)中隨機抽取多個數值進行插補,再分別對每次插補結果進行分析,參數估計 立. 一般做法為,從觀察資料所得到的一個合理分配(如多重常態分配、多項分. sit. Nat. ̂ )~𝑁(0, 𝑈), 𝑈 = Var(𝜷 ̂) (𝜷 − 𝜷. n. ̂𝑘. ̂∗ = 𝜷. Ch. 𝜷 是第 k 次插補的估計值,且. ̂𝑘 ∑𝑚 𝑘=1 𝜷 , 𝑚. engchi. i n U. ̂ 𝑘 )~𝑁(0, 𝑈 𝑘 ), (𝜷 − 𝜷 ̂ ∗ )~𝑁(0, 𝑉), (𝜷 − 𝜷 其中 ̂ + (𝑚+1)𝐵̂, 𝑉=𝑊 𝑚. 此變異數 V 由組內變異 𝑚. 𝑘. ̂ = ∑𝑘=1 𝑈 , 𝑊 𝑚 和組間變異 16. er. io. ̂ ∗ 則為 則多重插補的估計值 𝜷. al. y. 在沒有遺漏值時,假設模型的估計值𝛽̂ 服從下列分配. ‧. ‧ 國. 型(1)之假設。. 學. 如下,假設將一筆資料插補 m 次,使用線性迴歸模型同上一節最大期望法中模. v.

(17) 𝐵̂ =. ̂𝑘 ̂∗ ̂𝑘 ̂∗ T ∑𝑚 𝑘=1(𝜷 − 𝜷 )(𝜷 − 𝜷 ) 𝑚−1. 所組成,並且 1. ̂ ∗ )~𝑡𝑑𝑓 . 𝑉 −2 (𝜷 − 𝜷 𝑅 Lipsitz 和 Parzen 以及 Zhao(2002)提出了自由度的逼近值為 ̂ 2 ̂ + (𝑚 + 1⁄𝑚)𝐵̂]2 [𝑊 𝑚 𝑊 𝑑𝑓𝑅 = = [1 + ( ) ] (𝑚 − 1) 𝑚 + 1 𝐵̂ ((𝑚 + 1)/𝑚)2 𝐵̂ 2⁄ 𝑚−1 目前常見多重插補為最大期望法與馬可夫鏈蒙地卡羅法(Markov Chain Monte Carlo, MCMC),此外當插補次數達到 10 次之後,再增加插補次數其估計準. 政 治 大. 確度並不會提升太多,因此 m 通常必須大於 3,但是不需要超過 10。. 立. 第六節 鏈式方程插補法. ‧ 國. 學. 鏈式方程插補法(Multiple Imputation by Chained Equation)是一個常被使用的. ‧. 插補方法,Van Buuren 和 Groothuis-Oudshoorn(2011) 開發了一套功能完整的套. y. Nat. 件在 R 軟體中並且有持續更新,套件名為 MICE。. er. io. sit. 這個演算法第一步會將整筆資料進行一次插補,平均數或者是眾數都有人使 用,而在 R 的 MICE 套件中是使用 Gibbs 抽樣(Heckerman et al. 2001)來補。第二. al. n. v i n 步會把第一步插補完的完整資料中,第一個變數 X 回復到插補前的狀態,並估 Ch engchi U ̂ 1. 計 X1 對其他變數的迴歸參數,以此迴歸模型之預測值𝑋1填補遺漏值。接著再對 X2 做一樣的處理,直到(X1,…, Xp)都用迴歸模型的預測值填補後,再從 X1 開始重 複第二步的動作。通常重複做十次(Raghunathan et al., 2002)即可收斂,到此就完 成了多重插補中的一次插補,重複執行上述兩步驟的過程就可以得到多筆資料並 做多重插補的參數估計。此演算法的概念 Azur、Stuart、Frangakis 以及 Leaf(2011) 有非常詳細的介紹。這種方法是一種透過迴歸模型計算最大概似估計量的方式, 單插補法中常用的一種方法。. 17.

(18) 第七節 資料蒐集 本研究所使用資料為林沛盈所蒐集,使用面相萃取(aspect Identification)和 情緒分析(sentiment analysis)將文字評論量化。面相萃取是從所有評論資料中分 析文字組成,找出不同的商品面相的方法。基於不同消費者在評論同一個商品 面相時,使用字詞通常會一致之假設,找出容易一同出現的名詞或名詞片語,再 刪除當中無意義或可被取代者,即可獲得評論中用來表示商品面相的字詞組合。 情緒分析則是透過形容詞來分析評論是好或壞,因為在產品評論中面相和形 容詞通常會相鄰出現,因此得到面相後即可分析該面相後的形容詞為何種評論。. 政 治 大. 林沛盈將形容詞依據好壞及其情緒強度分為 1 到 5 分,1 分和 2 分為負面評價,. 立. 3 分為中性評價,4 分和 5 分為正面評價。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 18. i n U. v.

(19) 第三章. 電腦模擬研究分析. 本研究將透過電腦模擬,產生符合需求的資料並比較各種插補方法填補結果 所估計的參數之優劣,插補方法共有眾數插補、鏈式方程進行 1 次、5 次和 10 次 多重插補、以及使用修改後之熱卡插補法填補 5 次和 10 次。. 第一節 模擬設計 考慮樣本數為 n 和自變數為 p 個,本研究分兩種不同資料組成進行模擬,第 一種產生遺漏值時保留前 5%為完整資料,用以比較眾數插補、最大期望法、鏈. 政 治 大 實際消費者評論資料在很早的觀測值中就有出現遺漏值,而熱卡插補法計算 立. 式方程、熱卡插補法之表現。. ‧ 國. 學. 觀測值相似度時使用迴歸模型,資料太少有自由度太低的問題。本研究之熱卡插 補法,需使用其他方法填補前百分之 5 的資料,使熱卡插補有足夠的資料計算相. ‧. 似度。第二種資料生成中前百分之 5 的資料也會有遺漏值,比較使用不同方法填. sit. y. Nat. 補前 5%資料後,再使用熱卡插補法之優劣。. al. er. io. 除了前 5%的資料完整與否之外,第一種資料生成的模擬為了讓資料有更多. v. n. 變異,資料都是 1 到 10 的整數分數,而第二種資料生成方式則依照量化後的亞. Ch. engchi. i n U. 馬遜網站 Canon 系列數位相機之消費者評論為 1 到 5 分的整數分數。 假設樣本中有兩種消費者,一種為隨機遺失,一種為非隨機遺失,隨機遺失 為消費者撰寫評論時不受其它評論影響,非隨機遺失者撰寫評論時會受其餘評論 影響,僅撰寫與他人不同者,將所佔比例定為 𝛼 = 非隨機遺失之觀測值比例, 0 ≤ 𝛼 ≤ 1, 並將兩者之遺失比例定為 𝛾1 = 隨機遺失之遺失比例, 𝛾2 = 非隨機遺失之遺失比例, 0 ≤ 𝛾1 , 𝛾2 ≤ 1, 因此樣本將有 np (1-α)γ1 的遺漏值為隨機遺失、npαγ2 的遺漏值為非隨機遺失. 19.

(20) 3.1.1 資料生成 第一種資料假設自變數 X 的範圍皆為最低 1 到最高 10 分的整數分數,從平 均值和標準差皆為 2 的常態分配中抽取一半自變數 𝑋1 , … , 𝑋⌊𝑝⁄2⌋ 各 n 個值,即為 𝑋1 , … , 𝑋𝑝⁄2 ~𝑁(2,2) 其中超過 10 和低於 0 的值會重新抽,接著無條件進位為 1 到 10 的整數。 再從平均值為 8 標準差為 2 的常態分配中抽取另一半自變數 𝑋⌊𝑝⁄2⌋+1 , … , 𝑋𝑝 各 n 個值,即為 𝑋⌊𝑝⁄2⌋+1 , … , 𝑋𝑝 ~𝑁(8,2). 政 治 大 考慮消費者所評價的總分 立 Y 和各個自變數 X 的分數有模型(1)之關係以產生. 其中超過 10 和低於 0 的值一樣重新抽,接著無條件進位變成 1 到 10 的整數。. ‧ 國. 學. Y,若誤差項服從標準常態時,Y 的變異相當小,因此將誤差項之分配調整為上 下界從-2 到 2 的均勻分布,即為𝜺~𝑈(−2,2)。. ‧. 本研究的眾數插補是填補其他相同 Y 值之觀察值的眾數,因此將所有 Y 值. sit. y. Nat. 中,每一個分數第一次出現的資料移到前 5%的資料中。若第一個總分 y 被評為. al. er. io. 9 分之觀測值出現在後 95%的資料中(假設為 yj),則將前百分之 5 的觀測值中出. v. n. 現最多次的 y (假設為 5 分)中的第一筆觀測值(假設為 yk)和 yj 交換,此時前百分. Ch. engchi. i n U. 之 5 的資料中依然有 y 為 5 分的觀測值而後續做眾數填補時也不會遇到 y =9 在 前面的資料中找不到的可能,最後前 5%的資料中將會包含整筆資料中出現過的 所有 y 之分數。 第二種資料生成中,資料為 1 到 5 分,將抽取資料範圍除二,即為 𝑋1 , … , 𝑋𝑝⁄2 ~𝑁(1,1), 𝑋𝑝⁄2+1 , … , 𝑋𝑝 ~𝑁(4,1), 𝜺~𝑈(−1,1) 同樣所有 X 和 Y 超過 5 以及低於 0 重新抽取,其餘過程皆與上述過程相同。. 20.

(21) 3.1.2 遺漏值生成 樣本中有隨機遺漏者和受到其他消費者影響而遺漏者,分別占 1-α 和 α 的比 例,兩者遺漏百分比分別為 γ=(γ1, γ2)。隨機遺漏者共有(1-α)n 人,自變數有 p 個, 而第一種模擬資料中保留前 5%的資料完整,因此從第 0.05n+1 到第 n 筆觀測值 中,抽取 nα 個觀測值為非隨機遺失,剩下的觀測值即為隨機遺失,從隨機遺失 之觀測值中抽出(1-α)npγ1 個遺漏值。 第二種資料模擬中前 5%也有遺漏,直接從整筆資料中抽取 nα 個觀測值為非 隨機遺失,剩餘資料則為隨機遺失,隨機遺失之觀測值中同樣抽出(1-α)npγ1 個遺. 政 治 大 非隨機遺漏者則須考慮與其他消費者是否相同。將資料 X 從低到高分成四個 立. 漏值。. y. ‧ 國. 𝑖𝑓 𝑥𝑖𝑗 [1,3] 𝑖𝑓 𝑥𝑖𝑗 [4,5] 𝑖𝑓 𝑥𝑖𝑗 [6,7] 𝑖𝑓 𝑥𝑖𝑗 [8,10]. ‧. Nat. 1, 2, 𝑎𝑖𝑗 = 3, { 4,. 學. 類別,定義類別矩陣 A 中的值為. er. io. sit. 透過 A 來判斷 xij 遺漏與否,計算 a1 j 到 ai-1 j 中四個類別出現的比例,計算比 例時不考慮遺漏值,因為遺漏值代表消費者撰寫評論時並未提到,aij 所佔比例在. al. n. v i n 則遺漏(此值為測試過後使非隨機遺漏者之總遺漏比例 Ch engchi U. a1 j 到 ai-1 j 中若超過 0.9×γ2. 與 α 大致相等),若最後遺漏比例過高則隨機抽取遺漏值調整為未遺漏,使非隨 機遺漏之比例固定為 α,而遺漏比例過低則隨機抽取未遺漏值調整為遺漏值。在 第二種資料模擬中,分數僅有 1 到 5 分,定義類別矩陣 B 中的值為 1, 𝑖𝑓 𝑥𝑖𝑗 [1,2] 𝑏𝑖𝑗 = {2, 𝑖𝑓 𝑥𝑖𝑗 = 3 , 3, 𝑖𝑓 𝑥𝑖𝑗 [4,5] 後續遺失產生同上述流程。 實際資料中人們即使寫得很少也都會寫一點點評論,非常少完全沒有評論只 有總分的情形,因此產生遺漏值的過程中若有所有自變數皆遺漏者,則將該筆資. 21.

(22) 料中的隨機一個值調整為未遺漏並將其餘資料中遺漏值較少者隨機抽取一個值 調整為遺漏。. 第二節 熱卡多重插補設計 本研究修改後之熱卡插補法透過計算被插補觀測值 xi 與 x1 到 xi-1 等觀測值的 相似度,並從較相似的資料中隨機抽取值來填補遺漏值,由先到後依序插補,因 此插補 xi 時前面的 x1 到 xi-1 皆為完整資料。 考慮資料 𝑥11 𝒁 = (𝑿, 𝑌) = ( ⋮ 𝑥𝑛1. ⋯ ⋱ ⋯. 𝑥1𝑝 𝑦1 ⋮ ⋮) 𝑥𝑛𝑝 𝑦𝑛. 政 治 大 首先將所有存在遺漏值之觀測值編號找出,從小到大依序設為 i ,…, i ,其中 s 為 立 1. s. 漏值,每一筆存在遺漏值之觀測值 𝒛𝒊 = (𝑥𝑖,1. … 𝑥𝑖,𝑝. 𝑦𝑖 ). ‧. ‧ 國. 學. 所有出現遺漏值之觀測值數量。從 i1 到 is 依序插補,每次插補時只會插補一個遺. y. sit. Nat. 中有 w 個遺漏值,因此下列運算過程將進行 w 次。. er. io. 插補 xij 時,第一步將 zi 中未遺漏值. n. 𝑦𝑖 ) a l (𝑥𝑖,𝑗 … 𝑥𝑖,𝑗 v i n Ch e n g𝑥c1,𝑗⋮ h i ⋯⋱U 𝑥1,𝑗 ⋮ (𝑝−𝑤). 1. 1. 挑出,計算 Xij=(x1j,…, x(i-1)j)對𝒁𝒊 𝒐𝒃𝒔 = ( 𝑥𝑖−1,𝑗1. 𝑦1 ⋮ )之迴歸估計 ⋯ 𝑥𝑖−1,𝑗(𝑝−𝑤) 𝑦𝑖−1 (𝑝−𝑤). 式 ̂ 𝟎 + 𝒁𝒊 𝒐𝒃𝒔 𝜷 ̂T ̂𝑖𝑗 = 𝜷 𝑋 ̂𝑖𝑗為 Xij 之估計值,第二步為插補資料,以此迴歸估計式計算資料 xij 的估計 其中𝑋 ̂𝑖𝑗中與此估計值相同者的原始值中,隨機抽取一個值來填補遺漏值。 值,從𝑋 此方法存在限制,填補過程中需計算迴歸估計式,因此 Zi obs 需有足夠的資 料,否則配適迴歸模型時自由度不足將無法計算,樣本數遠大於自變數數量時前 5%資料就足夠使用,但也可能需要更多,本研究加入一條限制為: 22.

(23) 𝑖 > 𝑚𝑎𝑥{0.05𝑛, 𝑝 + 1} 此處 p+1 為 p 個變數 X 加上總分 Y,0.05n 則為前百分之五之資料。遺漏值出現 在過低的 i 值時,使用別的方法填補後再進行熱卡插補。此外因為所有觀測值的 總分 y 一定不會遺漏,不需擔心 zi 中完全沒有未遺漏值而導致 Zi obs 為空矩陣。 接著使用一筆資料展示此方法之計算流程,考慮一筆 n=55、p=8 的資料,其 中第 51 到 55 存在遺漏值: 𝑖 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 𝑋7 𝑋8 𝑌 2 1 5 10 9 10 9 5 1 4 2 5 5 2 8 10 8 10 7 1 3 3 3 4 7 10 8 10 9 9 8 4 1 4 7 3 2 2 2 5 2 10 10 6 9 5 1 5 2 𝒁 = 5⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 51 4 1 6 3 2 1 52 1 6 8 4 3 53 3 9 8 5 54 3 10 8 10 6 7) 55 ( 10 4 4. 立. 政 治 大. ‧ 國. 學. ‧. 空白處為遺漏值,第一筆遺漏值出現在第 51 筆資料 z51 的第一個變數,同時此觀. y. Nat. 測值的中未遺漏值為 x51,2, x51,3,y。首先插補 x51,1,使用第 1 筆到第 50 筆觀測值,. er. io. sit. 將 X1 對(X2,X3,Y)的迴歸模型之估計值算出來。得到第 1 到第 50 筆 X1 的預測類別 為(3, 2, 3,……,3, 3)以及 x51,1 的估計值為 3,因此從第 1 到 50 筆 X1 中,估計值為. al. n. v i n 3 的觀察值中隨機抽取一個,以此觀察值之值填補。估計值為 3 者一共有 35 筆, Ch engchi U. 其值為(4, 7, 2, 3, 2, ……, 3, 4, 3, 4, 2),從這 35 個值中隨機抽取一個值來填補 x51,1。 接著填補 x51,4,此時 x51,1 為未遺漏,計算 X4 對(X1, X2, X3, Y)的迴歸模型之估 計值,並以相同方式填補。將所有遺漏值填補完成後可得到. 23.

(24) 𝑖 𝑋1 𝑋2 𝑋3 𝑋4 𝑋5 𝑋6 𝑋7 𝑋8 𝑌 1 1 2 5 10 9 10 9 5 4 2 8 10 8 10 7 5 2 1 5 3 3 7 4 10 8 10 9 9 3 4 7 3 8 2 4 1 2 2 5 5 9 5 2 10 10 6 5 2 1 𝒁= ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 51 3 4 6 5 7 3 1 4 6 52 1 9 10 9 6 3 1 2 8 53 3 8 5 7 4 5 9 3 9 6 10 7 8 3 3 3 54 10 5 ( 4 10 9 10 9 7 ) 4 55 2 4 即為以此熱卡多重插補法填補的一筆完整資料。 而當𝑖 ≤ 𝑚𝑎𝑥{0.05𝑛, 𝑝 + 1}時,考慮四種方式填補前 5%的資料:. 政 治 大 2.使用全部觀察值的平均值(四捨五入)填補 立. 1.使用全部觀察值的眾數填補. 4.使用鏈式方程填補的完整資料之前 5%資料填補. 學. ‧ 國. 3.使用全部觀察值的多元常態分配抽取資料(四捨五入)填補. ‧. 其中,方法 3 為計算全部資料的平均值和共變異數矩陣得到多元常態分. sit. io. er. 抽取。. y. Nat. 配,從此分配抽取資料並四捨五入後填補遺漏值,不在 1 到 5 分的範圍內則重新. 使用鏈式方程需要透過迴歸預測值調整插補值,前三種方法都是使用全部資. al. n. v i n 料,因此方法 4 也是以全部資料填補,將全部資料填補完,再使用此資料前 5% Ch engchi U 的資料填補遺漏值。. 第三節 模擬結果 3.3.1 前 5%為完整資料之結果 考慮 n=500、p=8 進行模擬,並假設模型(1)之參數如下,Y 為 8 個 X 平均加 誤差項 ε,即為 𝛽0 = 0,. 𝛽𝑖 =. 1 , 𝑖 = 1,2,3,4,5,6,7,8, 8. 𝜺~𝑈(−2,2),. 因誤差項的存在,有很低的機率出現超過 10 和低於 1 的值,發生時重新抽取誤. 24.

(25) 差項,無條件進位算出 Y 的值,產生的資料將是總分 Y 和 8 個項目的分數 X 共 500 個觀測值。 若只考慮各種插補法的估計值值準確度則只需考慮偏誤𝛽̂𝑖 − 𝛽𝑖,各種方法之 間其實不會相差太多,但多重插補法填補之資料存在變異,須考慮估計參數的穩 定度。使用統計量 PQ(Atkinson 和 Cheng, 2000, Little, 1979)來比較,即為 𝑃𝑄(𝛽̂𝑖 ) =. 𝛽̂𝑖 − 𝛽𝑖. ,. 𝑖 = 0,1, … , 𝑝. √𝑉𝑎𝑟(𝛽̂𝑖 ) 2. 2. ̅̅̅̅ (𝛽̂𝑖 )) 之平均值,因為[(𝑃𝑄(𝛽̂𝑖 ) − 𝑃𝑄 ̅̅̅̅ (𝛽̂𝑖 )) ]的期 模擬 100 次計算(𝑃𝑄(𝛽̂𝑖 ) − 𝑃𝑄. 政 治 大 表1立 γ=(40%, 40%) α=0.1, 0.2, 0.3, 0.4. 望值為 1,此平均值越接近 1 表示估計參數越穩定。. ‧ 國. 學. ‧. 7.2877 2.5668 1.3333 1.2598 1.4761 1.2030. y. sit. al. n. 4.4343 2.1920 1.0760 0.9832 1.1636 0.9214. io. 5.3241 2.3212 0.9450 0.9211 0.8715 0.7943. X2 X3 X4 X5 X6 X7 X8 隨機遺失40%(90%人) 非隨機遺失40%(10%人) 共40% 2.7373 3.2434 3.2298 3.6898 2.7420 2.7612 3.1797 3.4486 1.2636 1.2783 1.0993 1.3574 1.0132 0.8789 0.9081 1.2284 1.2132 1.1705 0.8603 1.2553 1.2821 0.9613 1.1223 1.2001 1.0970 1.1429 0.8608 1.2014 1.0738 0.9002 1.1801 1.1777 1.2569 1.0961 0.9282 1.0775 1.1839 0.8872 0.8975 1.0352 0.9900 1.0366 0.7654 1.0023 1.0534 0.7787 0.8192 0.9598 隨機遺失40%(80%人) 非隨機遺失40%(20%人) 共40% 2.7077 3.0535 3.2569 2.5658 2.8163 3.3881 3.9773 3.0963 1.1790 1.3487 1.2574 1.2848 0.8399 0.9080 0.8730 0.9943 0.9285 1.3686 1.1253 1.0819 0.8094 0.8444 1.0306 0.9630 0.9215 1.3787 0.9756 1.0681 0.7092 0.8307 0.9991 0.9009 0.8629 1.4262 0.8456 0.9924 0.8033 0.9508 0.9764 0.8915 0.7714 1.2311 0.8043 1.0116 0.7247 0.8377 0.8050 0.7779 隨機遺失40%(70%人) 非隨機遺失40%(30%人) 共40% 2.7652 3.0146 2.5602 2.9647 2.9578 2.5856 2.7479 2.4896 1.4203 1.2106 1.5184 1.3772 1.4524 1.0989 0.8493 1.0530 1.2556 1.0232 1.1244 1.1120 1.1919 1.2470 1.1060 0.8639 1.0970 0.9998 1.0441 1.1172 1.1080 1.1192 0.9951 0.8416 0.9874 0.9903 1.1110 1.1939 1.1355 0.9251 1.1129 0.8262 0.9431 0.9570 0.9039 1.1533 1.0480 0.8250 0.8635 0.7352 隨機遺失40%(600人) 非隨機遺失40%(400人) 共40% 2.7561 3.2117 2.2600 2.7979 2.8572 3.2342 3.3795 3.5303 1.4081 1.0670 0.9575 1.2450 0.9646 0.9536 0.6611 1.0570 1.3787 1.0151 0.7338 0.9702 0.9331 1.0537 1.0955 1.3197 1.2199 1.0434 0.6454 0.9500 0.9067 0.9438 1.0903 1.0809 1.2076 0.9393 0.8264 1.0705 1.1663 0.9694 0.8942 0.8924 1.0612 0.8695 0.7394 0.8774 0.9135 0.8796 0.8023 0.8637. Nat. 5.7220 2.4913 1.1794 1.0887 1.2795 1.0321. X1. er. (Int) α=0.1 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.2 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.3 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.4 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10. Ch. engchi. 25. i n U. v.

(26) 表 1 為隨機遺失和非隨機遺失兩類人數之比例(1-α, α)分別為(90%, 10%), (80%, 20%), (70%, 30%), (60%, 40%),而兩類人之遺失比例為 γ=(40%, 40%)之下, 不同插補之 PQ 值,表 2、表 3 分別為 γ=(50%, 50%)、γ=(60%, 60%)之 PQ 值。 所有的表中都依照非隨機遺失之人數比例上升往下排列,每一個人數比例下 依照眾數插補、最大期望法、5 次 MICE、10 次 MICE、5 次熱卡插補、10 次熱 卡插補等順序由上往下排列,前兩者為單插補法而後四者為多重插補法。. 表 2 γ=(50%, 50%) (Int). 立. y. sit. n. al. er. io. 6.9065 3.2399 1.2809 1.0868 0.8890 0.7631. ‧. ‧ 國. 學. 5.9872 3.4081 1.4830 1.2597 1.2139 1.0859. 政 治 大. X2 X3 X4 X5 X6 X7 X8 隨機遺失50%(90%人) 非隨機遺失50%(10%人) 共50% 3.6946 4.1174 3.6289 3.5464 2.7525 4.2395 4.2867 3.5985 1.3298 1.5000 1.2916 1.7837 1.3500 1.1842 0.9679 1.1961 1.1877 1.2449 1.0543 0.9548 1.1553 1.1830 1.1344 1.2263 1.1041 1.0808 0.9931 0.8785 0.9822 1.0933 1.1471 1.1343 1.2228 1.3421 0.9723 0.9629 1.2148 0.9861 0.9752 1.0342 1.0463 1.0142 0.9457 0.8980 1.0970 0.8087 0.7751 1.0648 隨機遺失50%(80%人) 非隨機遺失50%(20%人) 共50% 3.3619 3.1529 2.9907 4.2214 3.0154 3.9478 4.0659 3.3663 1.2184 1.3948 1.4337 1.2908 1.1367 1.0810 1.1923 1.0341 1.2886 1.4365 1.0451 1.1507 1.0189 1.0225 1.3790 1.0493 1.0703 1.3346 0.9605 1.1812 1.0146 0.8673 1.1446 1.1041 0.8797 1.2860 0.9102 1.1171 1.0593 1.0219 1.2672 0.9781 0.8072 0.9946 0.7559 0.9843 0.9529 0.8993 1.0911 0.9495 隨機遺失50%(70%人) 非隨機遺失50%(30%人) 共50% 3.5902 4.0075 3.4455 3.3627 3.9634 4.2224 4.1049 4.1201 1.2258 1.6860 1.5050 1.6143 1.5096 1.4121 0.9723 1.1025 0.9626 1.3272 1.3114 1.5552 1.2069 1.4377 1.1534 0.9832 0.8663 1.2894 1.2515 1.3836 1.1970 1.3776 0.9540 0.8328 0.9414 1.1938 1.1668 1.2692 1.0330 1.1320 1.0602 0.8066 0.7056 0.9881 0.9658 1.0603 0.8883 1.1314 0.8092 0.6896 隨機遺失50%(60%人) 非隨機遺失50%(40%人) 共50% 2.4146 4.4906 2.5252 4.3048 4.3188 3.3225 3.8622 3.5002 1.2429 1.2739 1.4153 1.3325 1.2489 1.1153 1.0716 1.2922 1.0449 1.1055 1.0904 1.0344 1.1556 1.5109 1.0941 1.1150 0.7997 1.0092 1.0431 0.9951 1.0332 1.2567 0.8902 1.0470 1.0417 0.8798 1.2898 1.1130 0.8481 0.9736 0.9411 1.4036 0.8461 0.9274 1.1707 1.1301 0.8131 0.8543 0.8000 1.1094. Nat. α=0.1 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.2 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.3 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.4 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10. X1. α=0.1, 0.2, 0.3, 0.4. 7.8884 3.0417 0.9488 0.9916 1.0852 1.0292 5.4591 3.0665 1.3007 1.1968 1.4376 1.0822. Ch. engchi. 26. i n U. v.

(27) γ=(60%, 60%). 表3 (Int). X1. 7.7784 5.4217 1.2238 1.1664 0.9765 0.8080 9.2900 4.4975 1.6049 1.5494 1.1355 1.0487. 立. 政 治 大. y. sit. n. al. er. io. 8.9842 4.8770 1.3051 1.0833 0.9092 0.6581. ‧. ‧ 國. 學. 8.3445 2.8015 0.7824 0.7203 1.0854 0.9666. X2 X3 X4 X5 X6 X7 X8 隨機遺失60%(90%人) 非隨機遺失60%(10%人) 共60% 3.8653 5.1394 4.1888 5.2605 4.1589 4.1751 3.9357 4.9797 1.4777 1.3504 1.9955 2.0490 1.6603 1.3719 1.6224 1.3510 1.3365 1.1180 1.2279 1.1659 0.9120 1.4531 1.2010 1.1745 1.2926 1.0103 1.0646 1.1170 0.8325 1.1491 1.0520 1.0187 1.6115 1.0255 0.9064 0.9967 0.8289 1.3186 1.0039 0.8722 1.0053 0.9794 0.8971 0.9080 0.7043 1.1560 0.8614 0.8895 隨機遺失60%(80%人) 非隨機遺失60%(20%人) 共60% 4.9767 4.4717 3.9814 4.9417 5.0003 4.2898 3.9539 3.7169 2.0267 1.5595 1.2708 2.1967 1.6510 1.2816 1.1666 1.5968 1.7659 1.0171 1.0051 1.5623 1.3158 0.9223 1.2223 1.3427 1.4929 0.8928 0.7503 1.3511 1.2120 0.9847 1.1671 1.2923 1.2340 1.0273 0.8295 1.8262 1.1492 1.2790 0.9606 0.8065 1.2040 0.8877 0.8047 1.1780 1.0514 1.1094 0.8615 0.7075 隨機遺失60%(70%人) 非隨機遺失60%(30%人) 共60% 4.3224 4.2581 3.8745 3.6611 3.9344 3.3534 3.9141 4.8662 1.9724 1.5063 1.7314 1.4697 1.5676 1.8177 1.3620 1.4991 1.4025 1.0886 1.3446 1.0883 1.0448 0.8383 1.1489 1.0133 1.2249 0.9908 1.2909 1.0075 1.0447 0.8027 1.0103 1.0073 1.2226 1.0498 1.5659 0.9597 1.1638 1.0155 1.1757 1.3697 1.1063 0.8740 1.2931 0.7690 1.1035 0.6977 0.9724 0.9686 隨機遺失60%(60%人) 非隨機遺失60%(40%人) 共60% 4.2491 4.8576 4.2075 4.3188 3.6917 5.2581 4.4109 4.9470 1.9327 1.9572 1.7357 1.8128 1.5100 1.5762 1.1919 1.6731 0.9014 1.5983 1.1358 1.2888 1.2172 1.1988 1.0767 1.1903 0.8061 1.3561 0.9927 1.0882 1.1412 1.0148 0.9891 1.0970 1.0810 1.3175 0.9556 1.2747 0.9740 0.8331 0.9635 1.0466 0.8989 1.2446 0.8746 0.9781 0.8619 0.7386 0.8730 0.8599. Nat. α=0.1 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.2 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.3 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.4 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10. α=0.1, 0.2, 0.3, 0.4. Ch. engchi. i n U. v. 表 1 到表 3 中隨機遺失與非隨機遺失兩類人之遺失比例皆相同,三張表中單 插補的參數估計明顯比多重插補差上許多,尤其是眾數插補的參數估計結果極為 糟糕;多重插補的兩種方法在遺失比例 40%時並無明顯優劣之分,然而比例上升 到 50%時,修改後的熱卡插補法比 MICE 的結果好一些,遺失比例上升到 60% 時,結果差距更加明顯,惟熱卡插補在插補 10 次時的參數估計並沒有比插補 5 次的參數估計更加準確。 本研究之熱卡插補法中,遺漏資料由未遺漏資料中相似之資料隨機抽取,確 實可能因隨機抽取次數上升造成插補後資料變異上升從而影響到參數估計結果, 然而不論 5 次還是 10 次的插補結果皆能看出在資料遺失比例越上升時,熱卡插 27.

(28) 補越明顯的比其餘方法要好。 MICE 之方法假設資料為互相獨立,在相同遺漏比例時,MICE 的結果也大 致上可看出為隨機遺失比例較高之結果為佳,熱卡插補則是在非隨機遺失之比例 上升時有較佳的表現,尤其在資料遺失比例為 60%時表現明顯比 MICE 和兩種 單插補都要好的多。 表 4 和表 5 為隨機遺失和非隨機遺失兩種人的資料遺失比例不同之插補 PQ 值,表 4 中隨機遺失者資料遺失 40%而非隨機遺失者資料遺失 60%,表 5 則相 反,在這兩種情況下資料總遺失比例會隨著兩種人的比例分配而有不同。這兩個. 政 治 大 法都要優秀,只有 MICE 的結果能夠與之相比。 立. 表可看出即使兩種人的資料遺失比例不同,熱卡插補在參數估計上依舊比其餘方. 表 4 γ=(40%, 60%). ‧ 國. 學. ‧. 8.1850 3.0531 1.3430 1.2323 1.2420 1.1339. y. sit. al. n. 4.7671 2.7445 1.1920 1.0060 0.9362 0.8378. io. 6.5915 3.7331 1.3030 1.2806 1.3498 1.2463. X2 X3 X4 X5 X6 X7 X8 隨機遺失40%(90%人) 非隨機遺失60%(10%人) 共42% 3.4831 2.4998 2.8640 2.9228 2.2092 2.6257 3.6789 2.8555 1.3168 1.4797 1.2250 1.1378 1.1041 1.1086 1.2483 1.1793 1.3367 1.1066 1.4008 1.0384 0.9314 1.1465 1.4080 1.1858 1.3109 1.0857 1.2302 1.1070 0.8870 1.0255 1.3489 0.9450 1.1021 1.0179 1.0145 0.9662 0.8096 0.9831 1.1334 0.8630 0.9240 0.9741 0.9554 0.9426 0.7305 0.8569 1.0192 0.8402 隨機遺失40%(80%人) 非隨機遺失60%(20%人) 共44% 4.1194 3.2903 2.6032 3.0846 3.1228 3.1500 2.9257 3.8935 1.2293 1.2651 1.0636 1.1698 0.8988 0.9132 0.8153 1.2421 1.0946 1.0231 1.0400 1.1981 1.3953 1.0007 0.8223 1.3096 1.0116 0.9458 0.9825 1.1651 1.1388 0.9228 0.7599 1.3381 1.1532 1.0074 0.8254 1.0017 1.1795 0.8759 0.8001 0.9944 1.0729 0.8929 0.7648 0.8748 1.1645 0.8741 0.7620 0.8906 隨機遺失40%(70%人) 非隨機遺失60%(30%人) 共46% 2.9985 3.2405 3.0740 3.8399 3.2711 2.9992 3.4062 3.0373 1.2977 1.2298 1.5865 1.4173 0.6810 0.9653 1.1661 0.8895 1.2201 1.1089 1.0437 1.4451 0.8696 1.1568 1.1316 0.8695 0.9818 0.9011 0.9138 1.2313 0.9119 1.0418 0.9119 0.8008 1.0006 0.7609 1.0410 1.1053 0.9361 0.7314 0.9306 0.9274 0.8874 0.7392 0.9079 1.0706 0.8542 0.7030 0.9123 0.7918 隨機遺失40%(60%人) 非隨機遺失60%(40%人) 共48% 4.0160 3.2847 3.3999 3.2989 3.2914 3.7884 4.0933 3.5631 0.8957 1.6159 1.0392 1.0495 1.0020 1.1174 1.1213 1.3041 0.9687 1.4529 1.1885 1.1139 1.0242 1.1788 1.2177 1.0038 0.9329 1.2466 1.0432 1.0004 0.8909 1.0849 1.1149 0.9516 1.1409 0.9607 1.1690 1.0781 0.9242 1.0505 1.1028 1.0407 0.9470 1.0347 0.9609 0.7756 0.8850 0.9106 1.0171 0.8916. Nat. 5.0051 2.6450 0.9553 0.8792 1.0100 0.9156. X1. er. (Int) α=0.1 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.2 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.3 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.4 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10. α=0.1, 0.2, 0.3, 0.4. Ch. engchi. 28. i n U. v.

(29) γ=(60%, 40%). 表 5 (Int). X1. 9.0811 4.1677 1.1099 1.0924 1.0860 0.9606 10.5135 4.5351 1.4266 1.3379 1.5001 1.1498. 立. 政 治 大. y. sit. n. al. er. io. 7.8899 2.8075 0.9502 0.8764 0.9792 0.7161. ‧. ‧ 國. 學. 6.6672 3.1875 1.1519 1.0668 1.2352 0.9593. X2 X3 X4 X5 X6 X7 X8 隨機遺失60%(90%人) 非隨機遺失40%(10%人) 共58% 3.7459 4.5027 4.2565 3.7963 4.0176 3.6345 4.1725 5.7444 1.5981 1.5559 1.9909 1.6904 1.1029 1.4026 1.8148 1.6020 1.2507 0.9455 1.9212 1.3381 1.0940 1.3477 1.3305 1.5730 1.2159 1.0635 1.5620 1.0321 0.9610 1.1638 1.2125 1.3227 0.9751 0.7518 1.3724 0.9126 0.9060 0.9319 0.9426 1.0634 0.9002 0.7016 1.1800 0.8939 0.7439 0.9112 0.8468 0.9018 隨機遺失60%(80%人) 非隨機遺失40%(20%人) 共56% 4.3814 3.6387 4.2468 3.8556 4.4623 4.5879 3.8973 4.4398 1.5826 1.6082 1.6021 1.5160 1.3740 1.4928 1.5056 1.0105 1.2436 1.3488 1.2138 1.0983 1.3642 1.2315 1.3695 1.1343 1.2239 1.0965 1.1049 1.0098 1.2194 1.1356 1.2889 1.0587 1.0016 1.1659 0.9709 0.9522 1.0489 1.3926 1.1457 1.2106 0.9411 1.0791 0.8443 0.7898 0.9786 1.1761 0.9838 0.9824 隨機遺失60%(70%人) 非隨機遺失40%(30%人) 共54% 4.4463 3.1535 3.7784 3.3669 4.3809 5.1021 3.6631 4.6392 1.6678 1.5769 1.6099 1.8455 1.3531 1.2494 1.3067 1.0848 1.3197 1.1280 1.1151 1.2650 0.9636 0.9321 1.7049 0.9623 1.2551 1.1542 1.0059 1.1238 0.9644 0.9160 1.2723 0.8168 0.9877 0.9501 1.1012 0.9210 1.1648 1.0479 1.0666 0.8917 0.9909 0.9430 1.0198 0.9205 0.9625 0.9033 0.9486 0.8782 隨機遺失60%(60%人) 非隨機遺失40%(40%人) 共52% 4.3392 3.2414 4.0195 4.2334 3.4291 3.0254 4.3089 2.4177 1.3288 1.4903 1.5375 1.1786 0.9610 1.0455 1.4010 1.1386 1.1558 1.2133 1.2421 1.1512 1.1481 0.9303 1.4302 0.9708 1.1558 1.1394 1.1272 0.8509 0.9762 0.7993 1.2245 0.8962 1.0618 1.1065 1.1777 1.1639 0.9650 0.8813 1.3163 0.8873 1.0177 1.0793 0.9041 1.0400 0.8255 0.7341 1.0874 0.7225. Nat. α=0.1 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.2 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.3 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.4 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10. α=0.1, 0.2, 0.3, 0.4. Ch. engchi. i n U. v. 接著考慮 X 之分配比較不同方法插補後對於 X 原始分配的還原何者較佳, 因為多重插補 10 次同一個遺漏值可能有不同的插補值,因此使用兩種處理方式 來比較,第一種方式為將十次插補的次數分配平均,即每次插補的 xij 值所代表 的次數分配為 0.1,第二種為直接使用 10 次插補的 xij 值之平均值。 表 6 為 γ=(40%, 40%)、α=0.1 之資料由六種插補法所得到之結果與未遺漏之 原始資料的 K-S 檢定(Kolmogorov–Smirnov test)的 p 值,此檢定之虛無假設為兩 資料服從相同分配,因此 p 值越大越好。. 29.

(30) γ=(40%, 40%), α=0.1, 從上到下依序為 X1-X8, 由左至右為眾數、MICE 填. 表 6. 補一次、MICE 次數分配平均、MICE 平均值、熱卡插補次數分配平均、熱卡插 補平均值之 K-S 檢定 p 值 mode X1 X2 X3 X4 X5 X6 X7 X8. MICE(m=1). 0.0001 0.1497 0.0015 <0.0001 0.0955 0.0110 <0.0001 0.0047. MICE 0.1frequency Mean of MICE 10. 0.9022 0.9347 0.9997 1.0000 0.1725 1.0000 0.2574 0.3291. 0.9993 0.7188 0.4398 1.0000 0.8745 0.8995 0.3965 0.6383. HD 0.1frequency Mean of HD 10. <0.0001 0.0038 <0.0001 0.0001 0.0001 <0.0001 <0.0001 <0.0001. 0.9989 0.7115 0.4267 1.0000 0.8808 0.9029 0.3983 0.6355. <0.0001 0.0015 <0.0001 0.0001 <0.0001 <0.0001 <0.0001 <0.0001. 政 治 大. 圖 1 圖 2 則為非隨機遺失 10%人、隨機遺失 90%人,兩種人的資料遺失比. 立. 例皆為 40%之 X 機率密度圖。不同線分別為完整資料、有遺漏值之資料、眾數、. ‧ 國. 學. 使用 MICE 填補一次、MICE 填補 10 次之次數分配平均、10 次平均值填補、熱 卡插補 10 次之次數分配平均、10 次平均值填補。. ‧. 表 6 的第一、四、六行 p 值都非常低,搭配圖 1 圖 2 的可以發現,這三種填. y. Nat. sit. 補的 X 值都比較集中,機率密度成線中間高左右低的形狀。圖 1 的眾數機率密. n. al. er. io. 度線 X4 在 2 有個高峰,原始資料中則無明顯高峰;使用 10 次多重插補的平均值. i n U. v. 填補遺漏值也會讓資料過於集中,因為模擬資料是從常態分配中抽取,10 次多. Ch. engchi. 重插補平均值會和原始常態分配的平均值接近,資料遺漏比例相當高,這會讓靠 近平均值的機率密度升高。 圖 2 和圖 1 類似,眾數、分別用兩種多重插補的平均值填補遺漏值所得到的 X 機率密度都比較集中,MICE 的單插補和兩種多重插補法次數分配平均結果都 較好。 將不同方法的八個 X 綜合觀察可看出,除了眾數填補的有些不拒絕虛無假 設有些拒絕之外,其餘方法所有 X 的結果都一致拒絕虛無假設或不拒絕虛無假 設。檢定值和圖中明顯可看出其實兩種多重插補在 X 之分配上並沒有太大的區 別,但使用十次插補之次數分配平均之方式處理明顯比使用 10 次插補的平均值 30.

(31) 填補遺漏值要更接近原始分配。而單插補中眾數明顯偏離原始分配很多,資料集 中在某個值上,MICE 則有優秀的表現。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 圖 1. Ch. engchi. i n U. v. γ=(40%, 40%), α=0.1, 左上、右上、左下、右下依序為 X1-X4 機率密度圖. 31.

(32) 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n 圖 2 γ=(40%, 40%), α=0.1, 左上、右上、左下、右下依序為 X -X Ch engchi U 5. 8 機率密度圖. 接著考慮較高的資料遺失比例以及較高的非隨機遺失人數比例,表 7 為 γ=(60%, 60%)、α=0.4 之資料由六種插補法所得到之結果與未遺漏之原始資料的 K-S 檢定(Kolmogorov–Smirnov test)的 p 值。. 表 7 γ=(60%, 60%), α=0.4, 從上到下依序為 X1-X8, 由左至右為眾數、MICE 填 補一次、MICE 次數分配平均、MICE 平均值、熱卡插補次數分配平均、熱卡插. 32.

(33) 補平均值之 K-S 檢定 p 值 mode X1 X2 X3 X4 X5 X6 X7 X8. MICE(m=1). <0.0001 0.0047 <0.0001 0.0059 0.0003 0.0164 <0.0001 <0.0001. MICE 0.1frequency Mean of MICE 10. 0.9895 0.3291 0.0019 0.7699 0.0001 0.8186 0.0030 <0.0001. 0.3859 0.0022 <0.0001 0.1380 <0.0001 0.0611 0.0004 <0.0001. HD 0.1frequency Mean of HD 10. <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001. 0.4007 0.0021 <0.0001 0.1353 <0.0001 0.0979 0.0005 <0.0001. <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001. 圖 3 圖 4 為非隨機遺失 40%人、隨機遺失 60%人,兩種人的資料遺失比例 皆為 60%之 X 機率密度圖。包含完整資料、有遺漏值之資料、眾數、MICE 填 補一次、MICE 次數分配平均、MICE 平均值、熱卡插補次數分配平均、熱卡插 補平均值。. 立. 政 治 大. 圖 3 圖 4 中眾數填補結果較不一致,不同的 X 有不同的機率密度分佈,有. ‧ 國. 學. 些較集中,有高峰存在,有些則較不集中,但依舊與原始分佈不相似;多重插 補則和圖 1 圖 2 相似,次數分配平均較佳而 10 次平均值填補遺漏值較差。. ‧. 將不同方法的八個 X 綜合觀察,檢定值在 MICE 填補 1 次和兩種多重插補. y. Nat. sit. 之次數分配平均之外全部都拒絕虛無假設,在這三種方法則是部分拒絕部分不. n. al. er. io. 拒絕,顯示出在遺失比例升高且非隨機遺失人數提升後,多重插補次數分配平. i n U. v. 均和 MICE 單插補對於原始 X 分配的還原並不理想。然而多重插補十次次數分. Ch. engchi. 配取平均,和使用十次之平均值填補 X 兩種方法,優劣關係還是很明顯。另外 有一些原始資料出現極少的值在單插補法填補後並沒有被填補到而兩種多重插 補卻都有出現,這表示多重插補能夠將出現次數極低的資料也囊括到。. 33.

(34) 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n 圖 3 γ=(60%, 60%), α=0.4, 左上、右上、左下、右下依序為 X -X Ch engchi U 1. 34. 4 機率密度圖.

(35) 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n 圖 4 γ=(60%, 60%), α=0.4, 左上、右上、左下、右下依序為 X -X Ch engchi U 5. 8 機率密度圖. 3.3.2 改變模型(1)參數之結果. 接著考慮一個不同參數之模型,假設模型(1)之參數如下 𝛽0 = 𝛽4 = 𝛽5 = 0,. 𝛽𝑖 =. 1 , 𝑖 = 1,2,3,6,7,8 6. 即為去掉 X4 和 X5 兩個值之平均加上誤差項,ε 一樣是從上下界-2 到 2 的均勻分 配中抽取,γ 之值為(60%, 60%)而 α 則為 0.1, 0.2, 0.3, 0.4。. 35.

(36) 表 8 (Int). X1. 10.4521 5.3571 1.2341 1.2318 1.2286 1.0082 7.3178 4.2971 1.2200 1.1219 1.1620 0.9385. X2 X3 X4 X5 X6 X7 X8 隨機遺失60%(90%人) 非隨機遺失60%(10%人) 共60% 5.5825 3.7884 3.9574 3.6459 3.8057 4.6171 3.9909 3.6258 1.4002 1.6020 1.8585 2.0094 1.6540 1.3845 1.2171 1.4699 1.4393 1.2232 1.1489 1.4327 1.2932 1.2066 1.1282 1.2131 1.2875 1.0591 1.0344 1.2924 1.0060 0.9469 1.0222 1.0086 1.5860 1.0137 1.4359 1.1983 0.9567 1.0990 1.1356 1.5864 1.2645 0.9203 1.2703 1.1478 0.7717 0.9404 1.0346 1.0593 隨機遺失60%(80%人) 非隨機遺失60%(20%人) 共60% 3.3048 3.3241 4.1311 3.7046 3.2648 3.6383 4.8821 4.4591 1.9864 1.6811 1.6412 1.3566 1.6071 1.3187 1.6680 1.6117 1.2072 1.3521 1.2155 1.0020 1.2450 1.4660 1.3894 1.1903 1.1020 1.2976 1.0237 0.9917 1.1048 1.2015 1.1684 1.0329 1.1546 1.0594 1.1291 0.6671 1.0687 1.0569 1.3263 1.4806 1.0272 0.9787 0.9960 0.6386 0.9182 0.8633 1.2955 1.2187 隨機遺失60%(70%人) 非隨機遺失60%(30%人) 共60% 4.3389 4.0771 3.5434 4.1870 4.1493 4.2259 4.1245 4.0338 1.6821 1.9238 2.2165 1.4299 1.4249 1.5348 1.3857 1.8677 1.3293 1.4422 1.3339 0.9999 1.2394 1.1910 1.3735 1.6185 1.1597 1.2692 1.1776 1.0151 1.1085 1.1163 1.0018 1.3461 0.8590 1.1582 1.1794 0.9029 1.0705 1.1010 0.8957 1.3485 0.7858 1.0456 1.0150 0.7472 0.9233 0.9659 0.8543 1.0418 隨機遺失60%(60%人) 非隨機遺失60%(40%人) 共60% 3.8285 4.0719 3.7307 4.0159 3.9213 4.3638 3.7199 4.1912 1.5894 1.9046 1.8624 1.5228 1.2443 1.3525 1.1929 1.3252 1.4378 1.4140 1.3451 1.5007 1.2399 1.2341 1.2458 0.9779 1.2596 1.3675 1.1147 1.2184 1.0753 1.0480 0.9746 0.8372 1.2430 1.5299 1.4497 1.1719 1.2764 1.3399 1.1337 1.5241 1.0667 1.1497 1.0944 1.1279 0.9520 1.1319 0.9323 1.1695. 立. 政 治 大. y. sit. n. al. er. io. 9.4444 3.9032 1.4586 1.2934 1.4596 1.1901. ‧. ‧ 國. 學. 8.9516 3.1657 1.0446 0.9027 1.0457 0.8830. α=0.1, 0.2, 0.3, 0.4 不同參數 β. Nat. α=0.1 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.2 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.3 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10 α=0.4 mode MICE 1 MICE 5 MICE 10 HD 5 HD 10. γ=(60%, 60%). i n U. v. 表 6 中可見在不同的參數 β 之下熱卡插補法的表現依舊相當不錯,隨著 α 越. Ch. engchi. 來越高,熱卡插補的表現比其餘方法較優秀越多,即使是 MICE 方法在 α 較高時 也明顯不如熱卡插補,美中不足的是在 α 僅有 0.1 時,熱卡插補的表現沒有明顯 比其餘方法優秀。 表 9 則為 K-S 檢定之結果,此處有較多拒絕虛無假設。MICE 填補 1 次和兩 種多重插補法的 10 次次數分配平均也只有部分不拒絕,可知在還原 X 之分配上, 多重插補十次次數分配平均和 MICE 單插補法並沒有明顯的優劣;使用十次多重 插補的平均值填補 X 和使用眾數填補 X 則是完全無法還原 X 的分配。 表 9. γ=(60%, 60%), α=0.4, 從上到下依序為 X1-X8, 由左至右為眾數、MICE 填. 補 1 次、MICE 次數分配平均、MICE 平均值、熱卡插補次數分配平均、熱卡插 36.

(37) 補平均值之 K-S 檢定 p 值 mode X1 X2 X3 X4 X5 X6 X7 X8. 0.1979 0.0000 0.0164 0.0009 0.0006 0.0000 0.0110 0.0000. MICE(m=1). MICE 0.1frequency Mean of MICE 10. 0.5085 0.0030 0.3291 0.0059 0.2574 0.9347 0.2574 0.9959. 0.0740 0.0001 0.0747 0.0004 0.8345 0.1393 0.0002 0.7321. 立. HD 0.1frequency Mean of HD 10. 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000. 0.0796 0.0001 0.0776 0.0004 0.8540 0.1356 0.0002 0.7339. 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 5 γ=(60%, 60%), α=0.4, 左上、右上、左下、右下依序為 X1-X4 機率密度圖. 37.

(38) 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n 圖 6 γ=(60%, 60%), α=0.4, 左上、右上、左下、右下依序為 X -X Ch engchi U 5. 8 機率密度圖. 圖 5 圖 6 為更換模型(1)之參數後,非隨機遺失 40%人、隨機遺失 60%人, 兩種人的資料遺失比例皆為 60%之 X 機率密度圖。包含完整資料、有遺漏值之 資料、眾數、MICE 填補 1 次、MICE 次數 0.1、MICE 平均值、熱卡插補次數 0.1、 熱卡插補平均值。圖中結果與圖 3 圖 4 相似,MICE 填補 1 次、MICE 次數分配 平均、熱卡插補次數分配平均結果較佳,其餘結果較差。. 38.

(39) 3.3.3 前 5%有遺漏資料之結果 使用第二節中所提的四種方式填補前 5%的資料,表 10 為隨機遺失和非隨 機遺失各半,兩者之遺失比例皆為 60%,使用眾數插補、MICE 套件 1 次、5 次、 10 次、以及四種方法填補前 5%資料之熱卡插補 5 次、10 次的 PQ 值。 表中使用眾數和四捨五入的平均值填補前 5%資料的熱卡插補法結果非常不 好,在資料為 1 到 5 分時,前 5%的資料填補了太多同樣的值讓後續的熱卡插補 也填補大量的眾數和平均值;多元常態填補前 5%之資料結果也非常不好,多元 常態抽取值的偏誤主要來自非隨機遺失的觀察值,資料僅有 1 到 5 分,分成類別. 政 治 大 X 到 X 分數較低,非隨機遺失遺漏的分數也大部分都是負面,X 到 X 分數較 立. 矩陣僅有負面評分(1、2)、中性評分(3)、正面評分(4、5)三組,模擬產生資料中 1. 4. 5. 表 10 α=0.5, γ=(60%, 60%). ‧. ‧ 國. 學. 高,則為正面評分遺失較多。. (Intercept) X1 9.9908 5.9066 1.2738 1.0759 0.1787 0.5013 0.1896 0.4981 0.1713 0.4884 1.5982 1.3254. X2 X3 X4 X5 X6 X7 X8 隨機遺失60%(50%人) 非隨機遺失60%(50%人) 共60% 4.6377 3.7569 4.0282 3.4388 8.8871 6.4327 6.7986 6.7627 2.6708 2.2135 2.1042 2.1542 1.9598 2.3948 1.4976 2.0908 1.2526 1.2455 1.2900 1.0912 0.9398 1.2109 0.9699 1.4380 1.1421 1.1043 1.0078 1.0651 0.8770 0.9450 0.8908 1.1379 0.1314 0.1210 0.2207 0.1535 0.1674 0.1238 0.1771 0.1691 0.5646 0.4638 0.7161 0.5029 0.5412 0.4723 0.5837 0.5594 0.1312 0.1174 0.1610 0.1441 0.1644 0.1476 0.1678 0.1483 0.5523 0.4752 0.6054 0.4879 0.5415 0.4856 0.5454 0.4705 0.1377 0.1105 0.1816 0.1301 0.2010 0.1331 0.1564 0.1541 0.5771 0.4472 0.6468 0.4785 0.5382 0.4742 0.5209 0.5015 1.2258 1.2547 1.0820 1.2064 1.2439 1.2861 1.3159 1.1044 1.1406 1.1648 1.0160 1.0547 1.0307 1.0811 1.1651 0.9798. n. al. er. io. sit. y. Nat. 500人 mode MICE 1 MICE 5 MICE 10 ModeHD 5 ModeHD 10 MeanHD 5 MeanHD 10 MulNorHD 5 MulNorHD 10 MICEHD 5 MICEHD 10. 8. Ch. engchi. i n U. v. MICE 填補全部資料時會用迴歸模型不斷調整插補之值,Y 是使用全部 X 的 平均值,與 X 高度相關,填補各項 X 自然有更好的結果。同樣的使用 MICE 填 補值的前 5%取代遺漏的資料後再使用熱卡插補結果也明顯比其餘的熱卡插補好。. 表 11 X1-X8, MICE 補 1 次、MICE 次數分配平均、熱卡次數分配平均之 K-S 檢定. 39.

(40) p值 MICE(m=1) X1 X2 X3 X4 X5 X6 X7 X8. MICE 0.1frequency MICEHD 0.1frequency. <0.0001 0.0002 0.0004 0.0009 0.0004 <0.0001 0.0001 <0.0001. 立. <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001. <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 圖 7. Ch. engchi. i n U. v. 左上、右上、左下、右下依序為 X1-X4 機率密度圖. 40.

(41) 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n 左上、右上、左下、右下依序為 X -X 機率密度圖 Ch engchi U. 圖 8. 5. 8. 表 11 為 MICE 填補 1 次、MICE 次數分配平均、熱卡插補次數分配平均之 K-S 檢定 p 值,圖 7 圖 8 為完整資料、有遺漏值之資料、MICE 填補 1 次、MICE 次數分配平均、熱卡插補次數分配平均之 X 機率密度圖。 這三種方法在 3.3.1 和 3.3.2 中還能在一定程度上還原 X 分配,而在前 5%的 資料也有遺漏時,圖上明顯可看出還原分配的能力下降了許多。. 41.

(42) 第四章. 實際資料. 本章節將使用第三章中的方法來填補亞馬遜網站的 Canon 系列數位相機之 消費者評論資料。. 第一節 資料描述與產品介紹 亞馬遜網站的資料為五顆星的總分和文字評論如圖 9 所示,林沛盈(2013)已 將文字評論轉換為由低到高 1 到 5 分的整數分數。三個世代相機分別有 9 個、10 個、10 個產品特徵,表 12 為 Canon PowerShot SX 系列相機第一個世代 SX210. 政 治 大. 之資料的前 10 筆,表中 Score 為消費者評論的總分,其餘九個面向則由文字評. 立. 論轉換而來,分別為鏡頭(A2 Lens)、變焦(A3 OpticalZoom)、連拍(A5 Burst)、電. ‧ 國. 學. 池(A6 Battery)、聚焦(A7 Focus)、LCD 顯示板(A8 LCD)、閃光燈(A10 Flash)、錄 影(A11 Video)、相片(A13 Picture)共有 9 個 X 變數(p=9),樣本數 n=365。下文中. ‧. 迴歸估計式以變數(Aj)表示。. n. er. io. sit. y. Nat. al. Ch. engchi. 圖 9 原始資料. 42. i n U. v.

(43) 表 12 編號. A2 Lens 1 2 3 4 5 6 none 7 8 9 10. 5 5 1 5 5 5 1 5 5. A3 Optical (Zoom) A5 Burst 5 5 5 1 5 none 5 5 5 5 5 none 5 5 1 5 5 5 5 5. 表 13 A2 Lens 2 none none none 5 none 1 5 none 5. A3 Optical (Zoom) A5 Burst A6 Battery A7 Focus 5 3 1 5 5 none 2 5 5 5 3 5 1 5 none 5 1 5 1 1 none 4 1 5 3 4 1 none none 5 1 5 5 none 2 none 5 none none none. 立. 5 4 4 5 5 5 4 2 4 4. SX230 相機之前 10 筆資料 A8 LCD. A10 Flash 1 5 none 1 1 none 5 5 5 3. A11 Video A12 GPS A13 PictureScore 5 3 5 5 5 5 5 5 5 none none 5 5 none 5 5 1 4 5 none 5 2 4 1 none 5 5 none none 2. 政 治 大 3 3. none. 4 1. none 5 5 none none. 學. 1 2 3 4 5 6 7 8 9 10. A6 Battery A7 Focus A8 LCD A10 Flash A11 Video A13 PictureScore 5 5 5 5 5 5 2 5 4 5 5 4 none 1 none 1 5 1 1 5 5 1 5 5 none 5 1 5 1 5 none 5 4 none 5 5 none 5 4 5 5 5 none 5 1 1 1 5 none 5 4 3 5 5 5 5 1 5 3 4. 5 4 4 5 4 4 4 5 3 5. ‧. ‧ 國. 編號. SX210 相機之前 10 筆資料. 表 13 為同系列相機第二個世代 SX230 之資料的前 10 筆,表 14 則為第三個. sit. y. Nat. 世代 SX260,因為第二個世代產品加入了衛星定位的功能,這兩個相機的變數比. al. er. io. SX210 多了一個衛星定位(A12 GPS)的評分,其餘變數相同,而評論資料數量也. v. n. 不斷提升,SX230 共有 440 筆資料而 SX260 有 630 筆。 表 14 編號. A2 Lens 1 2 3 4 5 6 7 8 9 10. A3 Optical (Zoom) A5 Burst 1 5 5 4 1 5 5 5 none none 5 5 none none 5 1 1 1 3 5 none 1. 5 5 none none none none none none. i n U. CSX260 h e n相機之前 g c h i10 筆資料. A6 Battery A7 Focus 2 5 5 5 none 5 none none none 5 none 1 1 5 none 2 4 5 none 2. A8 LCD none none none none none none none. A10 Flash 5 5 1 none 2 2 none none 2 5 2 5 none. A11 Video A12 GPS A13 PictureScore none 1 5 none none 5 1 none 5 5 none 5 1 none 5 5 none 5 4 1 1 none 3 1 4 1 2 3 none 2. 5 5 5 5 3 5 1 5 5 4. 資料未填補前有相當多遺漏值,表 15 為三世代相機資料轉換成分數後 1 至 5 分出現次數之統計以及遺漏值之比例,總分 Score 無遺漏值,總分行之遺漏比 例其值為所有 X 之總遺漏比例。其中照片為較多人評論的項目,三個產品都只有. 43.

(44) 大約四分之一的人未提到,而其餘項目都有相當高的遺漏比例,甚至有些遺漏比 例達到 80%以上。 三個產品的總分都有相當多人給了滿分五分,4 分和 5 分總和在三項產品中 分別占了 73%、76%、85%,給予中立和負面評價的只佔少數,各個項目中提到 負面形容詞的則比總分給予低分的數量要多不少。 表 15 三世代相機填補前各項分數次數分配表 Lens Optical..Zoom. Burst Battery Focus LCD Flash Video Picture Score 1 20 14 31 11 30 12 50 18 51 24 2 10 6 24 4 19 9 32 8 16 32 3 8 25 12 13 11 1 10 16 18 41 4 14 26 12 13 18 14 15 19 35 90 5 32 116 39 25 51 25 45 64 153 178 遺漏比例 76.99% 48.77% 67.67% 81.92% 64.66% 83.29% 58.36% 65.75% 25.21% 63.62% Lens Optical..Zoom. Burst Battery Focus LCD Flash Video GPS Picture Score SX230 1 25 21 25 45 32 13 61 21 28 48 29 2 14 5 17 20 8 8 29 8 15 30 35 3 8 14 24 26 12 8 17 10 16 19 41 4 16 26 22 22 20 10 15 20 10 45 109 5 34 132 69 48 70 28 48 94 34 200 226 遺漏比例 77.95% 55.00% 64.32% 63.41% 67.73% 84.77% 61.36% 65.23% 76.59% 22.27% 68.48% Lens Optical..Zoom. Burst Battery Focus LCD Flash Video GPS Picture Score SX260 1 23 28 28 17 27 13 36 19 14 48 26 2 10 7 20 17 14 8 40 8 4 18 18 3 15 32 15 28 20 9 8 15 12 24 51 4 16 41 23 24 18 11 22 16 4 72 119 5 53 188 74 51 57 24 45 69 17 292 416 遺漏比例 81.43% 53.02% 74.60% 78.25% 78.41% 89.68% 76.03% 79.84% 91.90% 27.94% 78.13%. SX210. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 44. i n U. v.

參考文獻

相關文件

important to not just have intuition (building), but know definition (building block).. More on

Know how to implement the data structure using computer programs... What are we

• Recorded video will be available on NTU COOL after the class..

—we cannot teach all, but with reading you can learn all 3-6: 3 hour teaching, 6 hour reading/writing after class as important as writing assignments:. some may show up

Adding an external gigabit interface to every computing node for external connectivity to data storage systems and other computational resources is not practical, nor will it

Estimate the sufficient statistics of the complete data X given the observed data Y and current parameter values,. Maximize the X-likelihood associated

In this talk, we introduce a general iterative scheme for finding a common element of the set of solutions of variational inequality problem for an inverse-strongly monotone mapping

mathematical statistics, statistical methods, regression, survival data analysis, categorical data analysis, multivariate statistical methods, experimental design.