• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12

第二章 文獻回顧

本章節會介紹本研究所使用的插補方法以及各種方法下的參數估計值計算 方式,首先簡單介紹遺漏值以及遺漏值發生機制(missing mechanism)的定義,這 部分 Little 和 Rubin (2002)有非常詳細的介紹。第三節將介紹熱卡插補法的填補 方式,第四節為眾數填補以及單插補法的參數估計,最後介紹多重插補法及其參 數估計。

本研究中使用小寫符號代表單一值,大寫代表變數(變數為行向量),小寫粗 體代表向量(參數或觀察值向量,為列向量),大寫粗體代表矩陣。

第一節 遺漏值

一筆資料中任何缺漏的觀察值被稱為遺漏值,遺漏值的發生並不少見,而且 有可能會對分析的結果產生影響,因此瞭解一個資料中為何產生遺漏值就變得非 常重要。然而遺漏值產生的原因非常多,資料收集時的缺漏、實驗本身沒有結果 都有可能,有時候忽略遺漏值並不會造成分析結果的偏誤(bias),有時候卻不能 忽略。

遺 漏 值 產 生 的 機 制 可 分 為 完 全 隨 機 遺 失 (missing completely at random, MCAR)、隨機遺失(missing at random, MAR)和非隨機遺失(missing not completely at random, MNAR)。定義如下:給定未知參數 ψ,將一筆資料 X 分為𝑿𝒎𝒊𝒔(有遺 漏值)和𝑿𝒐𝒃𝒔(無遺漏值),而 M 為由 0 和 1 組成的矩陣,若𝑥𝑖𝑗遺漏時𝑀𝑖𝑗為 1,其 餘值皆為 0,遺漏值發生和𝑿𝒎𝒊𝒔、𝑿𝒐𝒃𝒔皆獨立,即

P(𝑴|𝑿𝒐𝒃𝒔, 𝑿𝒎𝒊𝒔, ψ) = P(𝑴|𝜓)

則稱此資料中的遺漏值是完全隨機遺失;但實際資料中很少是完全隨機遺失,因 此有了隨機遺失,隨機遺失的假設比完全隨機遺失弱一點,資料的遺失若只和 𝑋𝑜𝑏𝑠有關,和𝑋𝑚𝑖𝑠獨立,即

P(𝑴|𝑿𝒐𝒃𝒔, 𝑿𝒎𝒊𝒔, ψ) = P(𝑴|𝑿𝒐𝒃𝒔, 𝜓)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

13

則稱之為隨機遺失;而若資料中的遺漏值既不是完全隨機遺失也不是隨機遺失,

則稱之為非隨機遺失。

第二節 遺漏值的處理

有非常多方法可以處理遺漏值,資料中的遺漏值若是完全隨機遺失,觀察值 會維持原本的分配,此時忽略遺漏值直接進行分析不會造成結果上的偏誤,僅會 造成樣本數減少。但實際資料很少完全隨機遺失,通常都需要對遺漏值做處理,

單插補法(single imputation)是一個很常看到的方法,填補一個特定的值來取代遺 漏值,比如平均數、眾數、或迴歸模型的預測值,本研究中以主流意見代表遺失 資料即為眾數填補。

眾數填補有一個很大的問題是會造成填補後資料過度集中,眾數的出現頻率 非常高,會讓資料的分配很明顯集中在某個值,平均值插補也會有一樣的問題。

多重插補法(multiple imputation)是由 Rubin(1987, 1996)提出,是對資料進行多次 的插補,每次補的值都是從觀察值所得到的一個插補分配(imputation distri-bution) 中隨機取得而不是像單插補法一樣的填補一個特定的值,如多元常態分配和多項 分配都可以從未遺漏值估計參數並抽取資料填補。多重插補的結果好壞很顯然就 會和這個插補分配有關,分配越接近原始資料插補結果就越好。

本研究中將消費者評論之總分定為

Y=(y

1, …, yi, …, yn)

其中 yi 為第 i 筆評論的總分,不會有遺漏值存在,而消費者針對產品各個面向 (aspect)的評論轉換成數字的分數定為

𝑿 = (

𝑥11 ⋯ 𝑥1𝑝

⋮ ⋱ ⋮ 𝑥𝑛1 ⋯ 𝑥𝑛𝑝)

其中 xij為第 i 筆評論的第 j 個特徵之分數,i=1,…,n,j=1,…,p,會有遺漏值存在。

且 X 和 Y 皆為有序類別資料(ordinal data)。因此會有 y=f(x)的關係式為

𝑌 = 𝑓(𝑿) = 𝒳‧𝜷T+ 𝜺 = 𝛽0+ 𝑿‧(𝛽1, … … , 𝛽𝑝)T+ 𝜺 (1)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

14

其中 Y 是 n×1 之反應變數向量,𝒳為 n×(p+1) 之矩陣,由一個全部都是 1 的行向 量和 p 個解釋變數 X=(𝑋1, 𝑋2, … … , 𝑋𝑝)組成,而 β=(𝛽0, 𝛽1, … … , 𝛽𝑝)為 p 個解釋變 數的係數以及截距項𝛽0,ε 則為 n×1 的誤差向量,第三章中亦假設消費者評論資 料之 X 和 Y 服從此模型。

本 研 究 將 透 過 不 同 插 補 方 法 估 計 資 料 的 f(x) , 找 出 自 變 數 (independent variable)X 和反應變數(response)Y 之間的關係。希望插補後之完整 X 能夠接近真 實情形,同時希望估計 Y 對 X 的迴歸參數能得到較為準確的結果。

第三節 熱卡插補法

熱卡插補法(hot deck imputation 見 Andridge 和 Little, 2010)是利用其他變數 的資訊找到適當數值來替代遺漏資料,依照適當的條件,將未出現遺漏值的資料 分類成若干「插補細格」(imputation cell)。再將出現遺漏值的資料依其在研究者 設定的分類條件,從相對應的插補細格中尋找相似特徵的資料,以其數值替代遺 漏值,多項變數時則為不同變數交叉分類的插補細格。

熱卡插補中有一種做法為「最鄰近熱卡插補法」(nearest-neighbor hot-deck imputation),即藉由不同觀測值之間的距離,以最接近遺漏資料之觀測值來插補 該遺漏資料。一般做法會先計算不同觀測值之間的距離,依據研究者欲建立之插 補細格數量或限制插補資料之最大距離,將所有資料切割成符合研究者需求的數 個插補細格。本研究中之資料為類別資料,可以考慮相同類別者為相似資料,透 過觀測值預測遺漏資料的類別,找相同類別者進行填補。此外本研究中並非將全 部資料同時處理,而是每個觀測值皆只考慮在其之前的觀測值,因此必須在插補 過程中不斷的尋找相似的資料,而無法直接建立固定的插補細格進行處理。

本研究使用之分類條件為遺漏值之預測值 𝑋̂ (𝒁𝑖 𝑚𝑖𝑠 𝒊 𝒐𝒃𝒔) = 𝒁𝒊 𝒐𝒃𝒔𝜷̂𝑻

相同者,此處𝒁𝒊 𝒐𝒃𝒔為第 i 個觀測值中未遺漏之變數,𝑋̂ (𝒁𝑖 𝑚𝑖𝑠 𝒊 𝒐𝒃𝒔)為第 i 個觀測 值遺漏之變數對未遺漏變數配適迴歸模型(使用第 1 到 i-1 個觀測值)所得之預測

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

15

值,隨機抽取前 i-1 個觀測值中𝑋̂ 相同之資料的原始數值來填補。 𝑗 𝑚𝑖𝑠

第四節 眾數插補和單插補法之參數估計

眾數插補是把遺漏值替換為未遺漏資料的眾數,是一種非常容易的填補方式。

本研究所使用之眾數插補法並非所有資料的眾數,填補遺漏值 xij時所填補的眾

數是 x1, j到 xi-1, j中相同 y 值之資料的眾數。

考慮式(1)之模型,其中誤差向量 ε 服從標準常態分配 N(0,σ2I),資料無遺漏 值時,迴歸中β 的估計值𝜷̂ = (𝒳𝑇𝒳)−1𝒳𝑇𝑌可由最小平方法得到,但資料有遺漏 時則有另外的估計值。假設 Z=(Y,X)=(zij)為隨機遺失,且

𝑧𝑖 = (𝑦𝑖

𝒙𝑖) ~Multinormal [𝝁 = (𝜇𝑦

𝝁𝑥) , 𝜮 = (𝜎𝑦2 𝜮𝑦𝑥 𝜮𝑥𝑦 𝜮𝑥𝑥)],

假設參數θ=(μ, Σ),而 Ri為第 i 筆資料中未遺漏之變數(即為 zi的未遺漏變數),

使用單插補法填補完成後,第 i 筆資料之共變異數矩陣𝑪̂𝑖的第 j, k 個元素

𝑐̂𝑗𝑘= {𝑐𝑜𝑣(𝑧𝑖𝑗, 𝑧𝑖𝑘|𝑅𝑖, 𝜽𝑡), 𝑧𝑖𝑗, 𝑧𝑖𝑘 皆遺漏

0, 𝑧𝑖𝑗, 𝑧𝑖𝑘 至少一個未遺漏. 收斂時的估計值

(𝛽̂1, … … , 𝛽̂𝑝) = 𝛴̂𝑥𝑥−1𝛴̂𝑥𝑦= (𝑿̂𝑇𝑿̂ + 𝑪̂)−1𝑿̂𝑇𝑌, 其中𝑪̂ = ∑ 𝑪̂𝑛𝑖=1 𝑖(Shih 和 Weisberg, 1986)

𝛽̂0 = 𝝁̂ − 𝜷̂T𝝁̂𝑥, 𝜎̂2 = 𝜎̂𝑦2− 𝛴̂𝑦𝑥𝛴̂𝑥𝑥−1𝛴̂𝑥𝑦.

上述估計值除了共變異數矩陣的估計值之外皆為 Little 和 Rubin (1987)運用掃描 算子(sweep operator)所得,此運算過程可以讓估計值計算過程變得很簡單,另外 Little(1979)提供了一個Var(𝛽̂)的逼近值如下

𝐴𝑤 = 𝜎̂2𝑺𝑤−1 = 𝜎̂2(𝒳̂𝑇𝑾̂𝒳̂)−1, 其中𝑾̂是一個對角矩陣,對角線上之值為

𝑤𝑖𝑖 = {

1, 第𝑖筆資料中無遺漏資料 𝜎̂𝑦2

𝜎̂𝑦𝑖2 , 第𝑖筆資料中有遺漏資料,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

16

𝜎̂𝑦2為所有變數對 y 做迴歸所得之殘差變異數估計值,𝜎̂𝑦𝑖2為第 i 筆資料中之未遺 漏變數對 y 做迴歸所得之殘差變異數估計值。

第五節 多重插補

多重插補法是目前插補法中最受推崇的主流方法,由 Rubin 於 1978 年首先 提出,再由 Little 和 Rubin 加以發展。多重插補是由單插補法延伸而來,插補後 產生 m 個(m>2)完整的插補資料,每個完整資料均可由前述各種方法插補所得。

接著使用每個插補資料進行分析,再將這多筆完整資料估計出來的數個參數進行 合併,得到參數最終之估計值與標準差。

一般做法為,從觀察資料所得到的一個合理分配(如多重常態分配、多項分 配)中隨機抽取多個數值進行插補,再分別對每次插補結果進行分析,參數估計 如下,假設將一筆資料插補 m 次,使用線性迴歸模型同上一節最大期望法中模 型(1)之假設。

在沒有遺漏值時,假設模型的估計值𝛽̂服從下列分配 (𝜷 − 𝜷̂)~𝑁(0, 𝑈), 𝑈 = Var(𝜷̂) 則多重插補的估計值 𝜷̂則為

𝜷̂ =∑𝑚𝑘=1𝜷̂𝑘 𝑚 , 𝜷̂𝑘是第 k 次插補的估計值,且

(𝜷 − 𝜷̂𝑘)~𝑁(0, 𝑈𝑘), (𝜷 − 𝜷̂)~𝑁(0, 𝑉), 其中

𝑉 = 𝑊̂ + (𝑚+1𝑚 )𝐵̂, 此變異數 V 由組內變異

𝑊̂ =𝑚𝑘=1𝑚𝑈𝑘, 和組間變異

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

17

𝐵̂ =∑𝑚𝑘=1(𝜷̂𝑘− 𝜷̂)(𝜷̂𝑘− 𝜷̂)T 𝑚 − 1

所組成,並且

𝑉12(𝜷 − 𝜷̂)~𝑡𝑑𝑓𝑅.

Lipsitz 和 Parzen 以及 Zhao(2002)提出了自由度的逼近值為 𝑑𝑓𝑅 = [𝑊̂ + (𝑚 + 1 𝑚⁄ )𝐵̂]2

((𝑚 + 1)/𝑚)2𝐵̂2

𝑚 − 1

⁄ = [1 + ( 𝑚 𝑚 + 1)𝑊̂

𝐵̂]

2

(𝑚 − 1)

目前常見多重插補為最大期望法與馬可夫鏈蒙地卡羅法(Markov Chain Mo-nte Carlo, MCMC),此外當插補次數達到 10 次之後,再增加插補次數其估計準 確度並不會提升太多,因此 m 通常必須大於 3,但是不需要超過 10。

第六節 鏈式方程插補法

鏈式方程插補法(Multiple Imputation by Chained Equation)是一個常被使用的 插補方法,Van Buuren 和 Groothuis-Oudshoorn(2011) 開發了一套功能完整的套 件在 R 軟體中並且有持續更新,套件名為 MICE。

這個演算法第一步會將整筆資料進行一次插補,平均數或者是眾數都有人使 用,而在 R 的 MICE 套件中是使用 Gibbs 抽樣(Heckerman et al. 2001)來補。第二 步會把第一步插補完的完整資料中,第一個變數 X1回復到插補前的狀態,並估 計 X1對其他變數的迴歸參數,以此迴歸模型之預測值𝑋̂填補遺漏值。接著再對1

X

2做一樣的處理,直到(X1,…, Xp)都用迴歸模型的預測值填補後,再從 X1開始重 複第二步的動作。通常重複做十次(Raghunathan et al., 2002)即可收斂,到此就完 成了多重插補中的一次插補,重複執行上述兩步驟的過程就可以得到多筆資料並 做多重插補的參數估計。此演算法的概念 Azur、Stuart、Frangakis 以及 Leaf(2011) 有非常詳細的介紹。這種方法是一種透過迴歸模型計算最大概似估計量的方式,

單插補法中常用的一種方法。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

18

第七節 資料蒐集

本研究所使用資料為林沛盈所蒐集,使用面相萃取(aspect Identification)和 情緒分析(sentiment analysis)將文字評論量化。面相萃取是從所有評論資料中分 析文字組成,找出不同的商品面相的方法。基於不同消費者在評論同一個商品 面相時,使用字詞通常會一致之假設,找出容易一同出現的名詞或名詞片語,再 刪除當中無意義或可被取代者,即可獲得評論中用來表示商品面相的字詞組合。

情緒分析則是透過形容詞來分析評論是好或壞,因為在產品評論中面相和形 容詞通常會相鄰出現,因此得到面相後即可分析該面相後的形容詞為何種評論。

林沛盈將形容詞依據好壞及其情緒強度分為 1 到 5 分,1 分和 2 分為負面評價,

3 分為中性評價,4 分和 5 分為正面評價。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

19

相關文件