文獻回顧

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻回顧

本章節會介紹本研究所使用的插補方法以及各種方法下的參數估計值計算方式，首先簡單介紹遺漏值以及遺漏值發生機制(missing mechanism)的定義，這部分 Little 和 Rubin (2002)有非常詳細的介紹。第三節將介紹熱卡插補法的填補方式，第四節為眾數填補以及單插補法的參數估計，最後介紹多重插補法及其參數估計。

本研究中使用小寫符號代表單一值，大寫代表變數(變數為行向量)，小寫粗體代表向量(參數或觀察值向量，為列向量)，大寫粗體代表矩陣。

第一節遺漏值

一筆資料中任何缺漏的觀察值被稱為遺漏值，遺漏值的發生並不少見，而且有可能會對分析的結果產生影響，因此瞭解一個資料中為何產生遺漏值就變得非常重要。然而遺漏值產生的原因非常多，資料收集時的缺漏、實驗本身沒有結果都有可能，有時候忽略遺漏值並不會造成分析結果的偏誤(bias)，有時候卻不能忽略。

遺漏值產生的機制可分為完全隨機遺失 (missing completely at random, MCAR)、隨機遺失(missing at random, MAR)和非隨機遺失(missing not completely at random, MNAR)。定義如下：給定未知參數 ψ，將一筆資料 X 分為𝑿_𝒎𝒊𝒔(有遺漏值)和𝑿_𝒐𝒃𝒔(無遺漏值)，而 M 為由 0 和 1 組成的矩陣，若𝑥_𝑖𝑗遺漏時𝑀_𝑖𝑗為 1，其餘值皆為 0，遺漏值發生和𝑿_𝒎𝒊𝒔、𝑿_𝒐𝒃𝒔皆獨立，即

P(𝑴|𝑿_𝒐𝒃𝒔, 𝑿_𝒎𝒊𝒔, ψ) = P(𝑴|𝜓)

則稱此資料中的遺漏值是完全隨機遺失；但實際資料中很少是完全隨機遺失，因此有了隨機遺失，隨機遺失的假設比完全隨機遺失弱一點，資料的遺失若只和 𝑋_𝑜𝑏𝑠有關，和𝑋_𝑚𝑖𝑠獨立，即

P(𝑴|𝑿_𝒐𝒃𝒔, 𝑿_𝒎𝒊𝒔, ψ) = P(𝑴|𝑿_𝒐𝒃𝒔, 𝜓)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

則稱之為隨機遺失；而若資料中的遺漏值既不是完全隨機遺失也不是隨機遺失，

則稱之為非隨機遺失。

第二節遺漏值的處理

有非常多方法可以處理遺漏值，資料中的遺漏值若是完全隨機遺失，觀察值會維持原本的分配，此時忽略遺漏值直接進行分析不會造成結果上的偏誤，僅會造成樣本數減少。但實際資料很少完全隨機遺失，通常都需要對遺漏值做處理，

單插補法(single imputation)是一個很常看到的方法，填補一個特定的值來取代遺漏值，比如平均數、眾數、或迴歸模型的預測值，本研究中以主流意見代表遺失資料即為眾數填補。

眾數填補有一個很大的問題是會造成填補後資料過度集中，眾數的出現頻率非常高，會讓資料的分配很明顯集中在某個值，平均值插補也會有一樣的問題。

多重插補法(multiple imputation)是由 Rubin(1987, 1996)提出，是對資料進行多次的插補，每次補的值都是從觀察值所得到的一個插補分配(imputation distri-bution) 中隨機取得而不是像單插補法一樣的填補一個特定的值，如多元常態分配和多項分配都可以從未遺漏值估計參數並抽取資料填補。多重插補的結果好壞很顯然就會和這個插補分配有關，分配越接近原始資料插補結果就越好。

本研究中將消費者評論之總分定為

Y=(y

1, …, yi, …, yn)

其中 yi 為第 i 筆評論的總分，不會有遺漏值存在，而消費者針對產品各個面向 (aspect)的評論轉換成數字的分數定為

𝑿 = (

𝑥₁₁ ⋯ 𝑥_1𝑝

⋮ ⋱ ⋮ 𝑥_𝑛1 ⋯ 𝑥_𝑛𝑝)

其中 xij為第 i 筆評論的第 j 個特徵之分數，i=1,…,n，j=1,…,p，會有遺漏值存在。

且 X 和 Y 皆為有序類別資料(ordinal data)。因此會有 y=f(x)的關係式為

𝑌 = 𝑓(𝑿) = 𝒳‧𝜷^T+ 𝜺 = 𝛽₀+ 𝑿‧(𝛽₁, … … , 𝛽_𝑝)^T+ 𝜺 (1)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

其中 Y 是 n×1 之反應變數向量，𝒳為 n×(p+1) 之矩陣，由一個全部都是 1 的行向 量和 p 個解釋變數 X=(𝑋₁, 𝑋₂, … … , 𝑋_𝑝)組成，而 β=(𝛽₀, 𝛽₁, … … , 𝛽_𝑝)為 p 個解釋變 數的係數以及截距項𝛽₀，ε 則為 n×1 的誤差向量，第三章中亦假設消費者評論資 料之 X 和 Y 服從此模型。

本研究將透過不同插補方法估計資料的 f(x) ，找出自變數 (independent variable)X 和反應變數(response)Y 之間的關係。希望插補後之完整 X 能夠接近真 實情形，同時希望估計 Y 對 X 的迴歸參數能得到較為準確的結果。

第三節熱卡插補法

熱卡插補法(hot deck imputation 見 Andridge 和 Little, 2010)是利用其他變數的資訊找到適當數值來替代遺漏資料，依照適當的條件，將未出現遺漏值的資料分類成若干「插補細格」(imputation cell)。再將出現遺漏值的資料依其在研究者設定的分類條件，從相對應的插補細格中尋找相似特徵的資料，以其數值替代遺漏值，多項變數時則為不同變數交叉分類的插補細格。

熱卡插補中有一種做法為「最鄰近熱卡插補法」(nearest-neighbor hot-deck imputation)，即藉由不同觀測值之間的距離，以最接近遺漏資料之觀測值來插補該遺漏資料。一般做法會先計算不同觀測值之間的距離，依據研究者欲建立之插補細格數量或限制插補資料之最大距離，將所有資料切割成符合研究者需求的數個插補細格。本研究中之資料為類別資料，可以考慮相同類別者為相似資料，透過觀測值預測遺漏資料的類別，找相同類別者進行填補。此外本研究中並非將全部資料同時處理，而是每個觀測值皆只考慮在其之前的觀測值，因此必須在插補過程中不斷的尋找相似的資料，而無法直接建立固定的插補細格進行處理。

本研究使用之分類條件為遺漏值之預測值 𝑋̂ (𝒁_{𝑖 𝑚𝑖𝑠} _{𝒊 𝒐𝒃𝒔}) = 𝒁_{𝒊 𝒐𝒃𝒔}𝜷̂^𝑻

相同者，此處𝒁_{𝒊 𝒐𝒃𝒔}為第 i 個觀測值中未遺漏之變數，𝑋̂ (𝒁_{𝑖 𝑚𝑖𝑠} _{𝒊 𝒐𝒃𝒔})為第 i 個觀測 值遺漏之變數對未遺漏變數配適迴歸模型(使用第 1 到 i-1 個觀測值)所得之預測

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

值，隨機抽取前 i-1 個觀測值中𝑋̂ 相同之資料的原始數值來填補。 _{𝑗 𝑚𝑖𝑠}

第四節眾數插補和單插補法之參數估計

眾數插補是把遺漏值替換為未遺漏資料的眾數，是一種非常容易的填補方式。

本研究所使用之眾數插補法並非所有資料的眾數，填補遺漏值 xij時所填補的眾

數是 x1, j到 xi-1, j中相同 y 值之資料的眾數。

考慮式(1)之模型，其中誤差向量 ε 服從標準常態分配 N(0,σ²I)，資料無遺漏 值時，迴歸中β 的估計值𝜷̂ = (𝒳^𝑇𝒳)⁻¹𝒳^𝑇𝑌可由最小平方法得到，但資料有遺漏 時則有另外的估計值。假設 Z=(Y,X)=(zij)為隨機遺失，且

𝑧_𝑖 = (𝑦_𝑖

𝒙_𝑖) ~Multinormal [𝝁 = (𝜇_𝑦

𝝁_𝑥) , 𝜮 = (𝜎_𝑦² 𝜮_𝑦𝑥 𝜮_𝑥𝑦 𝜮_𝑥𝑥)],

假設參數θ=(μ, Σ)，而 Ri為第 i 筆資料中未遺漏之變數(即為 zi的未遺漏變數)，

使用單插補法填補完成後，第 i 筆資料之共變異數矩陣𝑪̂_𝑖的第 j, k 個元素

𝑐̂_𝑗𝑘= {𝑐𝑜𝑣(𝑧_𝑖𝑗, 𝑧_𝑖𝑘|𝑅_𝑖, 𝜽_𝑡), 𝑧_𝑖𝑗, 𝑧_𝑖𝑘 皆遺漏

0, 𝑧_𝑖𝑗, 𝑧_𝑖𝑘 至少一個未遺漏. 收斂時的估計值

(𝛽̂₁, … … , 𝛽̂_𝑝) = 𝛴̂_𝑥𝑥⁻¹𝛴̂_𝑥𝑦= (𝑿̂^𝑇𝑿̂ + 𝑪̂)⁻¹𝑿̂^𝑇𝑌, 其中𝑪̂ = ∑ 𝑪̂^𝑛_𝑖=1 _𝑖(Shih 和 Weisberg, 1986)

𝛽̂₀ = 𝝁̂ − 𝜷̂^T𝝁̂_𝑥, 𝜎̂² = 𝜎̂_𝑦²− 𝛴̂_𝑦𝑥𝛴̂_𝑥𝑥⁻¹𝛴̂_𝑥𝑦.

上述估計值除了共變異數矩陣的估計值之外皆為 Little 和 Rubin (1987)運用掃描算子(sweep operator)所得，此運算過程可以讓估計值計算過程變得很簡單，另外 Little(1979)提供了一個Var(𝛽̂)的逼近值如下

𝐴_𝑤 = 𝜎̂²𝑺_𝑤⁻¹ = 𝜎̂²(𝒳̂^𝑇𝑾̂𝒳̂)⁻¹, 其中𝑾̂是一個對角矩陣，對角線上之值為

𝑤_𝑖𝑖 = {

1, 第𝑖筆資料中無遺漏資料 𝜎̂_𝑦²

𝜎̂_𝑦𝑖² , 第𝑖筆資料中有遺漏資料,

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

𝜎̂_𝑦²為所有變數對 y 做迴歸所得之殘差變異數估計值，𝜎̂_𝑦𝑖²為第 i 筆資料中之未遺 漏變數對 y 做迴歸所得之殘差變異數估計值。

第五節多重插補

多重插補法是目前插補法中最受推崇的主流方法，由 Rubin 於 1978 年首先提出，再由 Little 和 Rubin 加以發展。多重插補是由單插補法延伸而來，插補後 產生 m 個(m>2)完整的插補資料，每個完整資料均可由前述各種方法插補所得。

接著使用每個插補資料進行分析，再將這多筆完整資料估計出來的數個參數進行合併，得到參數最終之估計值與標準差。

一般做法為，從觀察資料所得到的一個合理分配（如多重常態分配、多項分配）中隨機抽取多個數值進行插補，再分別對每次插補結果進行分析，參數估計 如下，假設將一筆資料插補 m 次，使用線性迴歸模型同上一節最大期望法中模 型(1)之假設。

在沒有遺漏值時，假設模型的估計值𝛽̂服從下列分配 (𝜷 − 𝜷̂)~𝑁(0, 𝑈), 𝑈 = Var(𝜷̂) 則多重插補的估計值 𝜷̂^∗則為

𝜷̂^∗ =∑^𝑚_𝑘=1𝜷̂^𝑘 𝑚 , 𝜷̂^𝑘是第 k 次插補的估計值，且

(𝜷 − 𝜷̂^𝑘)~𝑁(0, 𝑈^𝑘), (𝜷 − 𝜷̂^∗)~𝑁(0, 𝑉), 其中

𝑉 = 𝑊̂ + (^𝑚+1_𝑚 )𝐵̂, 此變異數 V 由組內變異

𝑊̂ =^∑^𝑚^𝑘=1_𝑚^𝑈^𝑘, 和組間變異

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

𝐵̂ =∑^𝑚_𝑘=1(𝜷̂^𝑘− 𝜷̂^∗)(𝜷̂^𝑘− 𝜷̂^∗)^T 𝑚 − 1

所組成，並且

𝑉⁻¹²(𝜷 − 𝜷̂^∗)~𝑡_𝑑𝑓_𝑅.

Lipsitz 和 Parzen 以及 Zhao(2002)提出了自由度的逼近值為 𝑑𝑓_𝑅 = [𝑊̂ + (𝑚 + 1 𝑚⁄ )𝐵̂]²

((𝑚 + 1)/𝑚)²𝐵̂²

𝑚 − 1

⁄ = [1 + ( 𝑚 𝑚 + 1)𝑊̂

𝐵̂]

(𝑚 − 1)

目前常見多重插補為最大期望法與馬可夫鏈蒙地卡羅法(Markov Chain Mo-nte Carlo, MCMC)，此外當插補次數達到 10 次之後，再增加插補次數其估計準 確度並不會提升太多，因此 m 通常必須大於 3，但是不需要超過 10。

第六節鏈式方程插補法

鏈式方程插補法(Multiple Imputation by Chained Equation)是一個常被使用的插補方法，Van Buuren 和 Groothuis-Oudshoorn(2011) 開發了一套功能完整的套件在 R 軟體中並且有持續更新，套件名為 MICE。

這個演算法第一步會將整筆資料進行一次插補，平均數或者是眾數都有人使用，而在 R 的 MICE 套件中是使用 Gibbs 抽樣(Heckerman et al. 2001)來補。第二 步會把第一步插補完的完整資料中，第一個變數 X1回復到插補前的狀態，並估 計 X1對其他變數的迴歸參數，以此迴歸模型之預測值𝑋̂填補遺漏值。接著再對₁

X

2做一樣的處理，直到(X1,…, Xp)都用迴歸模型的預測值填補後，再從 X1開始重複第二步的動作。通常重複做十次(Raghunathan et al., 2002)即可收斂，到此就完成了多重插補中的一次插補，重複執行上述兩步驟的過程就可以得到多筆資料並做多重插補的參數估計。此演算法的概念 Azur、Stuart、Frangakis 以及 Leaf(2011) 有非常詳細的介紹。這種方法是一種透過迴歸模型計算最大概似估計量的方式，

單插補法中常用的一種方法。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第七節資料蒐集

本研究所使用資料為林沛盈所蒐集，使用面相萃取(aspect Identification)和情緒分析(sentiment analysis)將文字評論量化。面相萃取是從所有評論資料中分析文字組成，找出不同的商品面相的方法。基於不同消費者在評論同一個商品面相時，使用字詞通常會一致之假設，找出容易一同出現的名詞或名詞片語，再刪除當中無意義或可被取代者，即可獲得評論中用來表示商品面相的字詞組合。

情緒分析則是透過形容詞來分析評論是好或壞，因為在產品評論中面相和形容詞通常會相鄰出現，因此得到面相後即可分析該面相後的形容詞為何種評論。

林沛盈將形容詞依據好壞及其情緒強度分為 1 到 5 分，1 分和 2 分為負面評價，

3 分為中性評價，4 分和 5 分為正面評價。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中多重插補法在線上使用者評分之應用 - 政大學術集成 (頁 12-19)

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章 文獻回顧

第一節 遺漏值

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 遺漏值的處理

Y=(y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節 熱卡插補法

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四節 眾數插補和單插補法之參數估計

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五節 多重插補

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第六節 鏈式方程插補法

X

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第七節 資料蒐集

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

第二章文獻回顧

第一節遺漏值

立政治大學

第二節遺漏值的處理

立政治大學

第三節熱卡插補法

立政治大學

第四節眾數插補和單插補法之參數估計

立政治大學

第五節多重插補

立政治大學

第六節鏈式方程插補法

立政治大學

第七節資料蒐集

立政治大學