• 沒有找到結果。

調查資料之遺漏值的處置——以熱卡插補法為例

N/A
N/A
Protected

Academic year: 2021

Share "調查資料之遺漏值的處置——以熱卡插補法為例"

Copied!
32
0
0

加載中.... (立即查看全文)

全文

(1)

調查資料之遺漏值的處置

一一以熱卡揮補法為例

陳信木*

林佳瑩*

摘要 遺漏值 (missing values) 之出現,似乎是處理社會學調查資料時, 所面臨之不可避免難題。事質上,長久以來,社會學家早已體認此一 事實,然而,多年來,社會學家進行實證研究分析之際,面對遺漏值 的議題,除了少數鵰熟統計理論與電腦程式的學者之外,往往採取『黨 之不理J 的策略。固然大家深知此種處置方式即將引發諸多國境,諸 如選擇偏誤 (selection bias) 、甚或樣本規模嚴重流失等,但是,觀存 相關的統計文獻,普遍晦澀艱深,同時,目前盛行的電腦統計軟體並 未提供簡易套裝程式直接處理遺漏值問題。導致結果,社會學家雖然 深刻體認~\讀處置遺漏值問題,可是,現實上去B又無從追隨,只有忍 痛割愛。 這篇論文的主旨,就是一般性地介紹討論遺漏值處置議題。首先 探討社會學調查資料中所出現的遺漏值課題,尤其指出遺漏值可能引 發的一些困境。其次,我們介紹若干還漏值的處置方式 (treatments) 或是策略;然後,本文以實蝶的調宣資料為例,應用所謂熱卡揮補方 法,處置調查資料中的遺漏值。 *二位作者為政治大學社會學系副教授。

(2)

出現「遺漏值 J

(missing

values) 或是「不完整資料J

Ci

ncomplete

data) 的問題,幾乎是所有調查資料 (survey data) 不可避免的難題。 目前,社會學的經驗研究,相當仰賴調查方法和調查資料,尤其深受 此一困擾。然而,即使社會學家已經體認此一事實,長久以來,或許 回限於相關統計理論文獻晦澀艱深,加以缺乏實際處理遺漏值資料的 經驗, 1 導致結果,面對遺漏值的議題,往往採取「棄之不理J 的策略, 或是抱持「視而不見」的駝鳥式作法,不幸地,卻將引發諸多困境, 因此,社會學家在資料分析過程,實在不能對這個問題忍痛割愛。本 篇論文的主旨,就是一般性介紹討論社會學調查資料的遺漏值處置課 題,並且,以常用的「熱卡」插補法展示說明,希望藉此拋磚引玉, 鼓勵社會學研究者勇於面對此一困難。 不過,在此,我們首先必須指出本文研究的性質以及限制。本篇 論文的臣的,主要是為重新引發社會學研究者體認調查資料中的遺漏 值問題,特別加以重視之,是以,本文論述將不以相關的統計理論為 主。此外,本文討論的方向,係以社會學調查資料為主,對於其他研 究設計方式所獲得的資料,特別是實驗設計以及此類資料中的遺漏值 議題,則不加探討。 2 1 目前,社會科學界廣泛被採用於資料分析的統計套裝軟體(例如 SAS 和 SPSS) ,只 有納入 pair-wise deletion 和 list-wise deletion 兩種遺漏值處置方法,可能也是導致 社會學研究者忽略遺漏健處置重要性的原因之一。 2 經由實驗 (experiment) 設計所獲得的研究資料,當然,也不可避免地產生遺漏值間 題。實驗設計資料的統計分析,傳統上是以變異數分析 (analysis

of

variance) 為主 軸,由此,此類遺漏值的處置策略,大多數也以這一系列的方法作為重心。然而,典 型的社會學研究,並不偏好這種「版本 J (version) 的統計分析技術'是以,本文不 擬加以討論。不過,許多的理論文獻,對於這一類型的遺漏值處置技術,多有深入淺 出的討論介紹(例血口,

Anderson

,

Basilevsky

,

and Hum

,

1983; Armimger and

(3)

壹、社會學調查資料中的遺漏值課題

顯然地,社會學研究者早已體認分析資料中的遺漏值問題,可是,

有意或是無意地,卻加以忽視 即使是謹嚴的研究者,往往只是在

研究報告中輕描淡寫地告知讀者 I

the missing data were ignoredJ

或是 lonly

complete cases were used in the analysisJ

0

3

一般來說,調查資料中所出現的遺漏值或是不完整資料,就是通

稱的「無反應」問題,可以區分為兩類型:單位無反應 (unit

nonre-sponse) 以及項目無反應 (item nonrenonre-sponse) 。單位無反應是指樣本

中的部份觀察體之全部資訊遺失,項目無反應則是樣本中某些觀察體 的部份(變項)資訊遺失。 造成單位無反應的原因,主要和調查方法(設計)與資料蒐集過 程(例如訪問)有關,至於其所衍生的嚴重後果,特別是產生所謂樣 本代表性 (representativeness) 問題。因此,有關調查資料中的單位 無反應問題,普遍受到社會學研究者熱切關淫,相闊的研究論述眾多 (例如,章英華、傅仰止、種海源,

1995

:洪永泰,

1986

,

1989

,

1995)

,

也提出許多預防及治療的處置方法(例如,楊文山、蔡瑤玲,

1995 :

Bailey

,

Chapman

,

and Kasprzyk

, 1986; 詳見 Lessler

and

Kals-Sobel

,

1990;

Li

ttle and Rubin

,

1987

,

Chapter 2; McArdle

,

1994; Mendoza

,

1993;

Mislevy

,

1993; Muthn

,

Kaplan

,

and Hollis

,

1987; Rovine and Delaney

, 1990) 。

3

Af

ifi and Clark

(1990:223 一 25) 的著名參考工具書<Computer-Aided

Multivariate

Analysis} 就是指導使用者利用統計軟體既有的 pair-wise 或 list-wise deletion 方 法,簡單地處理遺漏值問題,當然只能告訴讀者:研究者的確「知道」分析資料中存

(4)

beek

,

1992:163-207 的討論)。本文將不以此類的單位無反應問題作為 對象,下文探討重心也將對之略而不談。 至於項目無反應的問題,姑且不論產生的原因,由於這個現象非 常普遍出現於調查資料中,而且,也是資料分析過程直接面對的困擾, 因此一般討論遺漏值課題之時,大都以它為對象。通常,標準的統計 分析程序係以所謂「矩形的資料結構J

(rectangular data

)是作為對 象,如果資料當中出現項目無反應的案例,即將破壞矩形的資料結構, 進一步導致一些統計的問題。 具體言之,部份觀察體出現項目無反應,致使研究資料損失,因 而減低統計能力 (statistical power) 。其次,項目無反應的案例,由 於破壞完整的矩形資料結構,可能導致資料分析最後所估計的參數值

(parameter

estimate) 變成偏誤 (biased) 。以包含遺漏值的資料作

為分析對象時,不僅可能相當程度地導致模型估計的參數值偏誤,即 使是單變項的描述統計值,也可能嚴重偏誤。 最後,社會學研究者在未來進行資料分析過程之時,所面臨的遺 漏值課題必然更加困擾、嚴重。究其緣故,目前的社會學調查資料, 大多數是橫斷面性質 (cross-sectionaI) ,即使出現遺漏值問題,只是 影響該橫斷面時空點上的樣本。但是,社會學研究日漸朝向時貫性研 究(l ongitudina I)的方向前進,而且,大量的長期性調查資料出土問 世,更加指出社會學家在未來必須處理遺漏值課題的迫切性。簡單來 說,時貫性資料,乃是由系列的橫斷面資料串連而成,每一波 (wave) 橫斷面時空點上的遺漏值案例,將會導致此個案在全程的觀察期間損 4 所謂矩形的資料結構,典型地,就是以「觀察髏×變項 J

(cases

variables) 方式所 安排而成的資料矩障。

(5)

耗 (attrition) ,最後致使樣本的全部資訊趨向「相乘、遞減h 嚴重惡

化遺漏值問題。正就是因為如此,社會學的長期性研究,特別重視遺

漏值的課題 (Chowdhury,

1991; Fay

,

1989; Lepkowski

,

1989; Li

tt1

e

,

1992a; Li

tt1

e and Su

,

1989; Marini

,

Olsen

,

and Rubin

,

1980)

;無怪

乎進行長期性研究的社會學家,第一個任務,就是必須彈盡心力於處 理遺漏值問題(例如 Hayward

and Grady

,

1990) 。

無論如何,遺漏值的確是社會學家進行資料分析過程必須重視的 課題,而且,任何調查資料不可避免地將出現遺漏值。那麼,如何處 置分析資料中的遺漏值問題呢?本文下節論述,探討若干的遺漏值處 置方法 對於這些方法的討論內容,將從社會學研究的實用角度出 發,並不深入涉及統計理論內涵。

氣、若干的遺漏值處置方法

論及遺漏值的處置方法,人類瓦古的智慧一一「預防勝於治療 J

'

永遠是唯一絕佳的策略。也就是說,處置遺漏值的最好、最有效方法, 就是避免資料出現遺漏值的案例。很不幸地,無論如何避免,幾乎任 何的調查資料,或多或少都會出現遺漏值。是故,遺漏值一旦出現, 如何加以治療性處置,就成為資料分析過程的重要任務。 5 首先,各種遺漏值的處置措施之間差異,源於對產生遺漏值的機 轉 (mechanism) 抱持不同的預設。有時候,遺漏值產生的機轉是在 研究者掌控之下,則此機轉乃是「可忽略的 J

(i

gnorable)

0 例如,在 5 關於遺漏饋的預防性處置措施,大多數的調查方法論之相關文獻以此為重心,本文不 另加討論之。

(6)

機率樣本抽取過程,未被納入樣本的個案,其資料必然是遺漏的,所 以,導致非樣本中的個案資料遺漏之機轉,就是可以被忽略的。 然而,很多時候,產生遺漏值的機轉卻不是在研究者掌控之下, 因此,也不可以忽略 (nonignorable) 。例如,

I

censoringJ 現象可能 導致資料遺漏,就是一例。如果產生遺漏值的機轉不可以忽略,研究 者勢必對其訂立若干預設。舉例來說,一組資料包含 K 個變項,那麼, 某一個案的 Xl 變項數值遺漏的可能性,或許@和整組資料完全無關, 或許@端視該個案的 X1 數值而定,或許@取決於沌的數值,或許@ 取決於X

2

, X3...X

k

的數值。 上述第一種現象,稱之為「完全隨機遺漏 J

(missing completely

at random; MCAR)

,亦即,某一個案的特定變項數值遺漏之可能 性,獨立於整組資料,係為完全隨機之下產生。第三種和第四種現象, 則只是「隨機遺漏 J

(missing at random; MCR)

,意指某一個案之特 定變項數值遺漏的可能性,取決於其他被觀鶴的變項之數值。至於第 二種現象,也就是某一個案之特定變項數值遺漏的可能性,端視其數 值而定(譬如,社會調查過程經常發現,高所得的受訪者傾向於拒絕 回答其收入,因此,所得變項的數值與產生遺漏的可能性有關) ,則不 是「隨機地遺漏J 0 既有文獻中所討論有關遺漏值的處置措施,大皆預設遺漏值的出 現、分佈呈現完全隨機 (MCAR) 的模式,本文以下討論也以此為出 發點。 6

Afifi and Elashoff (1966

,

1967

,

1969a

, 1969b) 以及 Hartley

6 Cohen and Cohen

(1 983) 、 Gilley

and Leone

(1991) 、 Kim

and Curry

(1 977) 、

Little and Rubin

(1 987) 、 Rubin (1976) 等文獻,提出若干檢驗遺漏值模式是否 隨機分佈的方法。

(7)

and Hocking

(1971) 最早綜合回顧既有的遺漏值處置文獻,桐後,

許多的方法和策略不斷發展;在此,我們依循這些分類 (Chapman,

1976; Jinn and

Sedransl宜,

1989; Kalton and

Kasprzyl宜,

1982

,

1986;

Little

,

1988

,

1992b;

Litt1

e and Rubin

,

1989-90)

,將遺漏值處置方法 區分為四個類別: (1)完整的觀察體 (complete-case) 分析法 (2)加權 (weighting) 法 (3)插補(imputation) 法 (的模型建構法 其次,我們必須指出,遺漏值處置的工作通常在實際進入社會學 模型建構之前進行,在此所謂的「多變項 J '並非意指「多變項模型建 構J

(multivariate modeling)

,而只是單純描述資料紐包含若干的變 項。所以,在此所謂的應變項 (dependent

variable)

,係指等待遺漏 值處置的變項,而解釋變項則是輔助之用,兩者之間並未設定必然的 社會學因果關連。 (1)完整的觀察體分析法 所謂完整的觀察體 (complete-case) 分析法,以最簡單的形容詞 來說,就是「丟掉它 J '亦即,一個觀察體,在統計計算過程,只要所 涉及的任何一個變項出現遺漏值,則將之排除於分析之外,因此,統 計分析時所使用的資料,都是完整的觀察體。這種方法,一般統計軟

體稱之為成批刪除(list

-wise

deletion)' 通常也是統計軟體的內設 (default) 方法。

以完整觀察體進行分析而處置遺漏值,的確是最簡單的方法,也 被廣為採用。但是,這個方法的致命之處,則是損失大量資料,最終

(8)

導致樣本偏誤。例如,

Kim and Curry

(1 977) 以五個變項的資料矩 陣進行實驗,如果每個變項上皆有 10% 的個案之觀察值遺失,且是隨 機的,那麼,以成批刪除方法加以處置,結果只剩餘 41% 的個案可以 用於分析。為了這個緣故,許多人使用「成對刪除 J

(pair-wise

dele-tion) 的方法處理遺漏值。 7 所謂成對刪除,就是在進行統計計算時,一個個案即使其某一變 項的觀察值遺失,仍將之保留,唯有當「必要時」才將它排除。相對 於成批刪除方法,成對刪除可能避免較大量的資訊流失,不過,其代

價則是產生不穩定的共變量矩陣 (unstable

covariance matrix)

,也 就是共變量矩陣並非 positive-definite '因而應用共變量矩陣進行多 變量分析時,發生統計的計算問題,甚至進行統計推論時也困難重 重。 8 無論如何,以完整的觀察體作為分析對象的作法,固然產生資料 流失、樣本偏誤、和若干的統計問題,這種方法由於「簡單J '且不涉 複雜的統計理論,因而,始終也是社會學研究者進行資料分析時,處 置遺漏值的「最愛」方法。 (2)加權法 個案的某一變項之觀察值遺失,將導致此個案在這個變項的分配 7 當然,也有研究者質疑,一旦遺漏值所佔全部資料的比例過高,那麼,究竟是否「合 法地」應用各種處置的措施?抑或必須重新蒐集資料?對於這個質疑,我們無法提供 解答,畢竟,此乃研究者必須評估的抉擇。本文的討論, {系假設研究者別無選擇之下, 必須援用「手上 J 現有的調查資料時,可籠遭遇的有關遺漏值問題以及可以採用的處 置方法。

8 Little and Rubin

(1987:4243) 指出,在「完全隨機遺漏 j 條件下,成對刪除法仍 可產生一致的共變數估計值。

(9)

上喪失代表(影響力) ;是以,如果樣本中存在其他具有相同變項特徵 的觀察體,那麼,藉由加權這些觀察體的代表性,可以補償此一特定 觀察體資訊遺漏的損失。這就是加權法的基本精神。傳統上,加權法 被廣為應用於單位無反應的情境,甚至,許多的抽樣設計本身也充分

運用加權設計而達到代表性和統計分析的目的(參見 Fuller, 197是;

Lee

,

Forthofer

,

and Lorimor

,

1986; Mandell

,

1974) 。舉例來說,電

話訪問所得的樣本,通常是偏誤的,因為男性的單位無反應率較高, 那麼,研究者可以利用男性的反應率 (response rate) 加權樣本中的 男性受訪者之代表性,以反映母體中的實際分配狀況。 當然,加權法也可以應用至項目無反應的情境,進一步處置遺漏 值的問題。不過,目前社會學界較少採用加權法處置遺漏值,因為: 第一,加權數的設定,必須考慮反應率,很多時候,實際的反應率並 不可知;第二,項目無反應的狀況中,每一特定項目(變項)之反應 率可能不同,因而必須分別處理,如果分析模型涉及多個變項,益加 使得問題更形複雜。因此,過於冗長、費時的加權計算過程,使得加 權法並未普遍被採用於處置遺漏值。 (3)掃補法 插補法的基本目的,就是一旦出現遺漏值時,則找尋一個數值替 代之。由於找尋和替代的策略不間,目前實用的插補法眾多,並不限 於單一方式 不過,所有插補法的共通目的,就是盡可能找尋一個 和遺漏值相似的數值替代之。至於如何找尋,一般都是仰仗若干「輔 助變項 J

(auxiliary

variables) 所提供的資訊達到一一不論是出現遺 漏值的個案或未出現遺漏值的個案,如果兩者的輔助變項表現相近資 訊(當然,輔助變項不可以出現遺漏個) ,那麼,我們就可以推論,兩

(10)

者在出現遺漏值的特定變項上,表現亦是接近,因而得以替代之 09 舉 例來說,兒 , XZ, ...X

k

就是輔助變項,個案

A

B

在這

k

個變項上的 行為表現相同,但是個案A 在 Xk +l 變項的數值遺失,而個案 B 則可 以觀察得到 Xk +l 變項的數值。藉由兩者在品,品, ...xk 等輔助變項表 現相同,我們推論,個案 A 和個案 B 在 Xk+1 變項的數值應該相同, 因此,以個案B 在 Xk+ l 變項的數值替代個案 A 的流失資訊。 @平均數替代 平均數 (mean) 替代(插補)法的基本假設,就是在遺漏值的分 配是完全隨機的前提之下,研究者相信,出現遺漏值的的若干觀察體, 其在該變項的平均數,理論上相等於未出現遺漏值的觀察體之平均 數,因此,我們以未出現遺漏值之觀察體的平均數替代所有遺漏值。 平均數替代法可以說相當簡單運用,不過,也有一些缺陷。例如,可 能扭曲 X 變項在樣本中的分配,因為,所有出現遺漏值的觀察體,其 X 變項的數值只有一個,就是平均數(或是若干個條件性平均數)。這 種事實,進一步也會降低、減少 X 變項的變異量,造成變異量低估的 問題。 @迴歸法 迴歸法 (regression method) 應用下列方程式進行遺漏值插補: ε

+

K

X

K Dμ

k2

十 βμ ﹒

一-Z

9 關於「輔助變項 J 的界定和選擇,通常與研究主題有關。有人認為,輔助變項應該和 被處理的遺漏值變項兩者有關遠,如此才具有意義;相反地,也有人主張,這兩者之 間不應過於密切關連,畢竟,因果閱(系的追尋,正就是研究的目的,所以,輔助變項 最好不要和處置的變項之間存在直接關係。大體而言,目前,社會學領域中較為普遍 採用基本人口學和社會學變項(諸如年齡、性別、種族等)。

(11)

具體來說,研究者的關切重點是 Z 變項,但是,全部樣本中只有 m 個觀察體的 Z 變項未流失。現在,我們認為 Z 變項與一組輔助變項

(兒 , X

2

, "'X

k

) 之間存在線性關{系,所以,首先就以 m 個觀察體計算上

述的迴歸方程式,估計其迴歸參數值,然後 , z 變項出現遺漏值的觀 察體,就以此迴歸方程式預湖其 Z 變項數值。 一般來說,過歸法較之成對和成批刪除方法更能保留資料(因為, 大部份的觀察體可以藉由迴歸插補而得能保留,毋需刪除之) ,而且, 迴歸預測值容許離差值 (deviation) ,因此,不致過於扭曲應變項的分 配情形。不過,當研究者應用迴歸法進行插補遺漏值時,必須注意迴 歸方程式所預測的數值是否合理,或是落入有效的範圈,也就是必須 考量迺歸預測的外插問題 (extrapolation) 。當然,如果等待插補的變 項係是類別性的 (categorica l) ,上述的迴歸模式可以延伸使用一般化

線性模型 (generalized

linear mode

l)

,尤其是 log-linear 模型最常 被應用。 除此之外,研究者可能認為,在輔助變項上具有條件的若干值觀 察體,其應變項 (z) 存在差異,也就是彼此之間的迴歸預測值 (Z') 雖然相間,其實際預測值則有差異:那麼,我們可以在上述的迴歸方 程式中加入隨機的殘餘值 (random

residua

l)

,亦即容許已不為 0 。 至於指定 εz 數值的方法也有很多,例如,從 N(O, ι) 中隨機取出一個 數值 1。如果研究者不能肯定迴歸模型的向質相等性 (homoscedas­

ticity)

,可以考慮輔助變項的不同條件,以相對應的 N(O , ι)產生隨機 殘餘值。另外,比較簡單的作法,則是在未出現遺漏值的觀察體中, 10 設定殘餘值的分配是常態的,平均數為 0' 標準差則是上述迴歸方程式的殘餘值之標 準差,亦即仇。

(12)

隨機選出一個觀察體,以其迴歸殘餘值附加於被預測個案的過歸預測 值,作為遺漏值的迴歸插補數值一一其實,這個作法已經接近以下即 將討論的熱卡插補法。 @熱卡插補法 熱卡插補 (hot-deck imputation) 法,可以說在目前的調查方法 論中最受青睞,而著名的 CPS hot-deck 則已風行數十年。 11 由於熱 卡插補方法已經發展許多版本,我們綜合討論並簡單加以介紹(請參

考 Ford,

1983; Rizvi

,

1983; Sande

,

1979

,

1982

,

1983) 。

熱卡插補法凹的基本精神,就是按照輔助變項的不同條件,將未 出現遺漏值的觀察體分額成為若干的「插補空格J

(imputation

ce

l1)

,然後,每一個出現遺漏值的觀察體,依據其輔助變項的條件, 從相對應的「插補空格」中找尋一個觀察體,以其觀測所得的變項數 值代替遺漏值。在此,輔助變項的指定,通常是基本的人口學變項或 是社會學變項,諸如年齡、性別、種族、教育、社會經濟地位等;而 且,若干個輔助變項所形成的眾多「插補空格J '必須是彼此周延

11 美國人口普查局的 Current

Population Survey

(CPS) 和各種普查資料,廣泛應用 熱卡插補方法處置遺漏(霆,經過數十年的努力 'CPS hot-deck 可以說是社會科學調

查資料之遺漏值處置措施中,最為成熟的一種方法,當然也備受關注 (David

et a

l.,

1986; Oh and Scheuren

,

1980; Oh

,

Scheuren

,

and Nisselson

,

1980; Welniak and

Coder

, 1980) 。 12 從各詞的意義來看,熱卡插補和電腦應用密切相關。「卡J 是一個電腦技術中的單位, 指一細打孔卡 (punch cards) 一一每一個觀察體就是一個打孔卡,具有相同輔助變 項的觀察體,形成獨一的「插補空格J '也就是組成-姻的打孔卡,而遺漏值插補過 程就是從相對應的一個打孔卡中取出一張,然後以其觀測所得之變項數值替代遺漏 值。至於稱之為「熱」的緣故,乃是因為插補來源的這些打孔卡,和出現遺漏值的 觀察體,都是隸屬相同的資料組一一就是正在電腦中運算之「熱騰騰的j 卡片。當 然,棺對而言,另外也有所謂的「冷卡 J (c old-deck) 插補,其替代數值的來源, 則是來自其他資料的一個打孔卡,並非手上正在處理的資料,故稱之為「冷」。

(13)

(exhaustive) 、互斥 (exclusive) 、和同質的 (homogeneous) 。

@其他方法

除了上述三類插補方法以外,另外也有一些曾經被採用、或建議 的策略。例如,運用其他來源的資訊,進行「記錄配對J

(record-matching) 的作法。舉例來說,美國人口普查局的 CPS 資料,曾經從 十年人口普查、國稅局、監理處、或是社會安全等檔案中精準配對, 進行遺漏值插補。當然,這種作法,除了必須擁有各種資料來源,實 際運作過程的成本龐大,恐怕並非一般的社會調查研究者所能負擔。 另外,也有人修正迴歸法和熱卡插補法,而提出所謂的 I

distance-function

matchingJ 方法 (Kalton

and Kish

,

198在;

Sande

,

1979

,

1982)

,以避免熱卡擂補的困境。不過,由於相闊的統計理論研究並不 成熟發展,所以,較不被採用於調查資料分析。 (4)模型建構法 模型建構法,主要應用概度最大化 (maximum likelihood) 的統 計理論,預設一個母體分佈的模型,然後,以觀測所得的樣本資料, 在「概度最大化」的原則之下,估計參數值。近年來,應用 ML 理論 或是 EM

(expectation

maximization) 理論,而進行遺漏值處置的 研究,相當大量出現於統計研究領域(例如,

Dempster

,

Laird

,

and

Rubin

,

1977; Fuchs

,

1982; Gelfand and Carlin

,

1993) 。這種方法具

有許多優點,遠勝於其他的遺漏值處置方法。例如,只要模型是正確

的, ML 的估計值是一致的 (consistent) 、有效用的(efficient) 其

次,即使遺漏值的分佈並非完全隨機(社會學的謂查資料確實經常如

此)

,

ML 的估計仍可能是一致的、有效用的;第三,由於這個方法應

(14)

和估計。 然而,事實上,以模型建構而處置遺漏值的作法,極其罕見於社 會學調查資料分析。究其緣故, ML 或 EM 理論,對於許多社會學研 究者來說,過於艱深難懂,因此,即使模型建構法具有諸多長處,反 而,其社會學經驗研究的實用性不高(有關統計理論介紹,參見Li ttle

and Rubin

,

1987

,

1989-90) 。

近年來 'Rubin (1987) 提出一個「多重插補J

(mu

1t

iple

imputa-tion) 的概念,主張運用各種方法插補和估計的數值,應該不限於一 組,反之,研究者對於某一特定變項之遺漏值的處置,可以插補(或 估計)一系列的數值。由於每一個遺漏值皆有對應的許多插補值或估 計值,因此,研究者可以比較不同處置方法的差異,甚至估計插補的 誤差,然後,進一步模擬估計值的分佈。可是,在實用的角度來看, 由於多重插補法必須產生許多組群的插補值,然後重複模型分析,自 然也就增加資料處理與分析的複雜性和成本。 13 討論至此,我們已經介紹許多的遺漏值處置方法,那麼,這些眾 多的處置方法之間的效用如何?過去以來,不少的研究者曾經試圖比 較各種遺漏值處置方法之差異與效用(例如,積彰佑、程爾觀 '1991) 。

不過,正如同 Kromrey

and Hines

(1994) 的看法,對於應用取向的

研究者而言,不同處置方法之間的效用與差異,並不是關切的重心所 在,而且,上列的研究顯示,對於各種遺漏值處置方法的效用,各家 的評估結果甚為分歧,如此益導致實用的研究者無所適從。

所以,我們贊同 Lessler

and Kalsbeek

(1992:229-233) 的建議,

第一,研究者必須謹記, r預防勝於治療 J '所有事後的遺漏值處置策

(15)

略,其效用永遠不會勝於「資料完整、毫無遺漏值 J '因此,研究者最 應集中心力於研究過程的設計以及資料蒐集。然而,社會學調查資料 不可避免地可能遭遇遺漏值的難題,那麼,任何的事後處置措施,遠 勝於駝鳥式的視而不見作法一一除非遺漏值的案例不多。當然,無論 如何,實際的研究情境,才是最為重要的考量。舉例而說,社會學調 查資料中,甚少變項的屬性是連續性,而是以類別的屬性為主,那麼, 平均數替代或是迴歸方法就不可能派上用場。

參、一個遺漏值處置實例一一熱卡掃補

現在,我們就以實例說明,展示遺漏值處置的可能措施之一。在 此,我們以「臺灣地區社會變遷基本調查(二期五次) J 為例, 14 展示 我們所採取的遺漏值處置策略。 首先,客觀而言,此一臺灣地區社會變遷基本調查(二期第五次) 資料,可以說是相當地「乾淨J

(c1

ean)

,也就是資料遺漏、流失的問 題並不嚴重。不幸地,社會學研究者在許多實際的研究中,情境並不 是如此「美好」一一調查研究的人力、物力、經費、時間等,通常非 常有限,因此,資料品質自然無法比擬中央研究院民族學研究所的社 會變遷基本調查。 現在,研究主題或是研究所關切的重心是「上週工作時數J '研究 者即將運用該調查中的文化價值問卷第四十九題資訊一一「請問您上 l 是「臺灣地區社會變遷基本調查(二期五次) J 係由塵海源主持,中央研究院民族研究 所執行完成之全憂灣地區社會調查計畫,詳見塵海源主編〈臺灣地區社會變遷基本 調查計畫:第二期第五次調查計畫執行報告} (中央研究院民族學研究所,

1994

年)。

(16)

星期總共工作幾個小時 ?J 。經過初步分析原始資料,我們得到表 1 的 次數分配。 根據這個次數分配表,上週「有工作的受訪者 J (1375 人)當中, 是8 個個案屬於項目無反應(不知道或拒答)。由於遺漏值的案例不多

(3.5%)

,因此,研究者可以考慮只納入「完整的觀察體」進行直接分 析。研究者不論採用成批抑或成對刪除方法刪除遺漏值個案,大體而 言,分析結果差異不大。也就是說,以這個變項為對象,研究者採用 表一 「上個星期總共工作時數j 的次數分配

額53U

Frequency

Percent

不適用

478

25.8

1-

25;J\日寺

67

3.6

26-

30 小時

34

1.

8

31- 40

小時

173

9.3

41-

50;J、時

621

33.5

51-

60 小時

192

10. 哇

61-

70 小時

104

5.6

71- 80

小時

55

3.0

81-

90 小時

38

2.1

91-100 小時

26

1.

4

101-110

;J\時

6

0.3

111-120 小時

7

。 4

121-130 小時

2

0.1

131-140

;J 、日守

l

。 1

141 小時以上

1

0

.1

不知道

29

1.

6

拒答

19

1.1

總計

1853

100.0

資料來源: r 臺灣地區社會變遷基本調查(二期五次) J 文化價值組間 卷第 49 題 rllS;上個星期總共工作幾個小持?j 0

(17)

成批或成對刪除而處置遺漏值,應該都是合理、可以接受的。不過, 如果資料分析工作進一步進入多變項模型,那麼此一少量的遺漏值個 案,仍有可能造成諸多問題。所以,我們考慮採取一些處置措施,試 圖克服這個困難一一以下採用熱卡插補法處置這些遺漏值。 15 圖 1 就是我們採用的熱卡插補之基本架構。第一步工作,就是依 照若干輔助變項的條件,將未出現遺漏值的觀察體劃分為許多的「插 補空格」。第二步工作,則是檢壺遺漏值個案,從其所應對的插補空格 中隨機找尋一個捐贈者,藉以替代插補選漏值。過程中我們選擇若干 與「上週工作時數」有關的輔助變項,用以形成插補空格。如果經過 全部的找尋過程,仍有某些遺漏值個案無法取得捐贈者,那麼我們將 減少輔助變項,重新形成插補空格,然後,重複熱卡插補找尋過程。 置可 熱卡揮捕的基本架構

observations without missings observations with mi間的gs

E

站在此,我們應用熱卡插補法的目的僅是「展示」的性質,也就是說,社會學調查資 料中的遺漏值處置方法很多,並非限於熱卡插補,所以,研究者必須考量資料的性 質、應用情境、以及研究者本身對於這些方法的偏好等因素。

(18)

現在,我們實際進行上述的熱卡插補工作。第一個工作,就是選 擇輔助變項。根據社會學文獻,我們可以得知,一個人上週工作的時 數,與其性別、年齡、教育程度、婚姻狀態、從業身份有關 譬如, 男女的工作時數有別,已婚或未婚者所投入工作的時間也不同。我們 以上週有工作的 1375 個觀察體為對象,檢視其次數分配狀況,並且, 比較不同性別、年齡、教育程度、婚姻狀態、從業身份的受訪者之工 作時數,可以獲得結論支持選擇這些變項作為輔助變項。圖 2 以盒型 圖 (box-and-whisker diagram) 呈現這些次數分配,經過檢查評估, 可以接受他們作為輔助變項。 所以,我們透過性別、年齡、教育程度、婚姻狀況、以及從業身 份等五個變項的「輔助J '將全部觀察體劃分為一千個插補空格 (2X

5

x

5

x

5

x

4=1000) 。第二步工作的過程如下: @第一個遺漏值個案,依照其輔助變項的條件,從一千個插補空 格中找出對應的位置。 @在這個對應的插補空格中,隨機找出一個變項數值未流失的觀 察體,將之作為捐贈者,以其在該變項的數值插補替代遺漏值。 @處理第二個遺漏值個案,重複上述步驟。 @依順序處理全部的個觀察體。 上述步驟可以人工方式直接處理,不過,如果觀察體的規模很大, 而且遺漏值案例不少,那麼人工處理就極不可能,勢必藉助於電腦協 助。不幸地,目前的統計套裝軟體並未提供現成的程式以進行這些工 作。本研究利用 SAS/IML 程式,撰寫一個 macro 執行上述隨機化熱 卡插補的工作(此 -macro 列載於附錄一,可進行隨機化的熱卡插補 替代工作。不過這個 macro 程式只能進行一輪的熱卡插補,所以,如 果想要進行第二輪的插補工作,則依序重複執行這個程式)。

(19)

「上個星期總共工作時數j的分佈按若干特徵分

•••

τ

ta

一女

SE

﹒丁且

172

一男

d性 別

自牛

T

圖 2 全部個案 150 140 130 120 110 100 90 80 10 60 50 40 到 20 10 O 。 B.o.-T

斗甲↓

loo-擇

osiT

iazi-酬

aB-Tl

7lass

一呻

8 ••

T!mTi!

教育程度

:Ti

γl.

。而

EaOEB--4

市中

iOBoe 150 140 130 120 110 100 90 80 10 60 50 40 30 20 10 O 小學 8 ••

1TE--T

從業身份

做)-64 40-49

Eli-白↓is

一峙

-20-29

ii

甲↓

e.g-欄

婚姻狀況

叩刊刊叫別叫叫別叫圳刊削叩叫 Mmmo 在家幫 忙事業 配偶去悅

g Oullîer 0 Extreme Value

已離婚 或分唐

11 ?vkan

(20)

經過第一輪 (cycle) 的處置,甚 8 個觀察體中,成功地插補替代 41 個遺漏值,不過,仍有 7 個觀察體的遺漏值未能插補。所以,針對這 7 個觀察體,我們進行第二輪的處置 只以年齡、教育程度、婚姻狀 態、及從業身份等四個變項作為輔助變項,形成插補空格,然後進行 熱卡插補。結果,再插補 1 個遺漏值。因此,我們考慮第三輪處置, 以教育程度、婚姻狀態、不口從業身分等作為輔助變項;最後,進入第 四輪處置,僅以婚姻狀態和從業身份等兩變項輔助劃分插補空格,終 於完全地將 48 個觀察體的遺漏值插補替代。表 2 列載四輪的插補處置 表二 遺漏值處置模擬結果 :r上個星總共工作時數」的次數分配 類別 原始資料第一輪處置第二輪處置第三輪處置第四輪處置 不適用

478

是 78 吐 78

478

478

1 一 25 小時

67

72

72

73

73

26 一 30 小時

34

35

35

37

37

31-40 小時

173

179

179

179

179

41 一 50 ;J\時

621

637

638

639

639

51 一 60 小時

192

196

196

196

197

61 一 70 小時

104

109

109

110

110

71-80 小時

55

56

56

56

56

81-90 小時

38

39

39

39

39

91-100 小時

26

28

28

28

28

101-110

;J、自寺

6

6

6

6

6

111-120

;J、日寺

7

7

7

7

7

121-130 小時

2

2

2

2

2

131 寸的小時

l

l

I

141 小時以上

1

1

I

1

1

總計

1805

1846

1847

1852

1853

遺漏值個案數

48

7

6

l

(21)

結果。 經過上述插補完成的「上週工作時數」變項,已經沒有遺漏值, 可以進一步應用於單變項,甚或多變項分析。不過,研究者必須謹慎, 畢竟這 48 個觀察體的變項數值乃是插補而來,所以,必要的時候,必 須檢查其表現行為是否顯著迴異於其他觀察體。

肆、討論

既然出現遺漏值的不完整資料乃是社會調查研究不可避免的難 題,適當地有所作為,仍是必要的。所以,社會學研究者,不應該忽 略遺漏值處置的課題。近年來,社會學方法論在此正闢大力發展,至 少兩個方向,已經日漸受到重視。 第一,遺漏值和樣本選擇偏誤的議題,不再完全被漠視,許多研 究探討這些課題和實質理論 (substance theory) 之闊的關係。例如, 勞力市場社會學以及生涯流動的研究,對於觀察體耗損導致觀察值遺 失的現象,逐漸重視它是否影響研究發現結果,甚至改變我們的理論 認知。事實上,相對於傳統調查資料的遺漏值議題而言,近來,時貫 性資料中由 ícensoringJ 、 ítruncationJ 所引發造成的不完整資料問 題,似乎已經成為社會學方法論的關注重心,尤其'事件史分析方法 日益成為社會學研究的重要工具之後,研究者對於不完整資料的議題 更應賦予嚴正關切。 16 16 有關 censoring 和 truncation 造成的不完整資料問題、以及相關的遺漏值處置之統 計模型,請參見 Little

and Rusibn

(1

987

,

Chap.

11) 的深入說明。不過,大部份

的社會學文獻則將之置於事件史分析方法的討論中加以處理,請參見棟信木、林佳 瑩 (1995) 。

(22)

其次,針對個別的統計方法,已有許多深入的研究文獻,探討遺

漏值處置問題,例如迴歸模型的遺漏值處置的ourieroux

and

M叩開

fort

,

1981;

Litt1

e

,

1992b; Orme and Reis

,

1991; Simon and

Simono日,

1986;

Simono缸, 1988) 、或是類別性資料分析的遺漏值處

置(Ibrahim.

1990;

Rindsko抖,

1992; Siepman and Yang

,

1994; van

Buuren and Rijckevorsel

,

1992; Winship and Mare

,

1989) 。此外,

經過處置的遺漏值,如果研究想要探討其統計性質,諸如變異量估計

或是漸近性 (asymptotic) ,除了上述的「多重插補」途徑之外,最近,

bootstrap sampling

(參見 Stine , 1989-90) 的抽樣模擬理論和技術,

也可以有效運用於遺漏值的研究 (Efron,

1994; Rubin

,

1987) 。事實

上,這個途徑,對於社會學研究者而言,並不會太難於掌握,所以, 應該有助於實際應用遺漏值處置技術。

參考文獻

伊慶春、蘇碩斌

1995

["無作答之分析:以公民容忍、度為例 J '章英華、傅何止、種海源主編,你土 會調查與分析:社會科學研究方法檢討與前瞻之一卜頁 7一切。憂北:中央 研究院民族學研究所。 李隆安

1995

["抽樣調查新方法的探討 J '章英華、傅仰止、農海源主編, (社會調查與分 析:社會科學研究方法檢討與前瞻之一) ,頁 31-587-30 。臺北:中央研究院 民族學研究所。 洪永泰

1986

["抽樣調查中訪問失敗的問題J

'

<思與言> ' 23(6):的一 71 0

1989

["抽樣調查中訪問失敗問題的處理 J

'

<社會科學論叢> ' 37:33-52 。

1995

["抽樣調查中樣本代表性問題J '章英華、傅仰止、種海源主編, <社會調查

(23)

與分析:社會科學研究方法檢討與前瞻之一扒頁 7-30 。臺北:中央研究院 民族學研究所。 翁彰佑、程爾觀

1991

I 隨機遺失資料插補法估計效用之比較J

'

<中國統計學幸蚣,

29(2):111

130 。 陳信木、林佳瑩

1995

I勞工離職、轉業行為之時間動態模型分析J '國科會專題研究計劃 NSC84

2412-

H-O阻力的。 章英華、傅lLlJ止、塵海源(主編)

1995

<社會調查與分析:社會科學研究方法檢討與前瞻之一〉。臺北:中央研究 院民族學研究所。 楊文山、蔡瑤玲

1995

I 實地調查中複查資料的結構模型分析:以臺灣地區社會意向調查為例 J

'

章芙華、傅仰ll::.、翟海源主編, <社會調查與分析:社會科學研究方法檢討 與前瞻之一卜頁 7-30 。臺北:中央研究院民族學研究所。 劉長萱、蔡政豐

1996

I大型訪問調查的不完整取樣設計J '論文發表於〈第一屆「調查研究方法與 應用」學術研討會> '八十五年五月八日至十日,臺北,中央研究院調查研 究工作室。

Afifi

,

Abdelmonem

A.

and Virginia Clark

1990

Computer-Aided Multivariate Analysis.

Second Edition. New Yor

k:

Van N ostrand Reinhold Co.

,

Inc.

Afifi

,

Abdelmonem

A.

and R. M. Elashoff

1966

Missing Observations in Multivariate Statistics-

I.

Review of the

Literature."

Joumal 01 the American Statistical Association

61:595-604.

1967

Missing Observations in Multivariate Statistics-I

I.

Point Estimation

in Simple

Li

near Regression."

Journal 01 the Amen'can Statistical

Association

62:10-29

1969a

Missing Observations in Multivariate Statistics-III. Large Sample

Analysis of Simple Linear Regression."

Joumal 01 the American

Statis-tical Association

64:337-58

1969b

Missing Observations in Multivariate

Statistics一 IV.

A Note on

Sim-ple Linear Regression."

Joumal 01 the American Statistical Association

64:359-65.

(24)

1983

Missing Data: A Review of the

Li

terature." Pp. 415-94 in

The

Hand-book 01 Survey Research

,

edited by Peter H. Rossi

,

James D. Wright

,

and Andy

B.

Anderson. Orlando

,

Florida: Academic Press

,

Inc.

Arminger

,

Gerhard and Michael

E.

Sobel

l

1凹99仰0

Pse臥凹udo

Structures with Missing

Da剖ta." ]oun仰n削t仰al

01

th如e Americ仿α?ηz St,仿αt的j必stic,叫αf As鈞50叮ci仿átion 85(409份):1 95-203.

Bailey

, L.,

David

ì月1.

Chapman

,

and Daniel Kasprzyk

1986

Nonrespondense Adjustment Procedures at the U.S. Bureau of the

Census."

Survey Methodology

12:161 一 79

Chapman

,

David W

1976

A Survey of Nonresponse Imputation Procedures."

American

Statisti-cal Association Proceedings 01 the Social StatistiStatisti-cal Section 1976(Part

1):245-5

1.

Chowdhury

,

Gopa

1991

A Comparison of Covariance Estimators for Complete and

Incom-plete Panel Data Models."

Oxlord Bulletin 01 Economics and Statistics

53(1):83-93

Cohen

,

J acob and Patricia Cohen

1983

Aþρlied

Multiple Regression/ Correlation Analysis lor the Behavior Sci

ences. Second Edition. Hillsdale

,

New Jersey: Lawrence Erlbaum

Asso-ciates

,

Publishers

David

,

Martin

,

Roderick J.

A. Li

ttle

,

Michael E. Samuhel

,

and Robert

K.

Triest

1986

Alternative Methods for CPS Income Imputation."

]ournal 01 the

American

S,的tistical

Association 81(393):29-4

1.

Dempster

,

A. P.

,

N. M. Laird

,

and Donald

B.

Rubin

1977

Maximum

Li

kelihood from Incomplete Data Via the EM Algorith

m."

]ournal 01 the Royal Statistical Society

,

Series B 39:1-38.

Efron

,

Bradley

1994

Missing Data

,

Imputation

,

and the Bootstrap."

]ournal 01 the Amer.

ican Statistical Association 89(426):463-75.

Fay

,

Robert

E.

1989

Estimating Nonignorable Nonresponse in Longitudinal Surveys

through Causal Modeling." Pp. 375-99 in

Panel

Sun句芯,巴dited

by

Daniel

KasprzyJ宜,

Greg Duncan

,

Graham Kalton

,

and M. P. Singh. New

(25)

Y or

k:

J ohn Wiley

&

Sons.

Ford

,

Barry

L.

1983

An Overview of Hot.Deck Procedures." Pp. 185-207

in

1:ηcomPlete

Data in SamPle Surveys

,

vo

l.

Volume 2

,

Theory and Bibliography

,

edit

ed by William G. Madow

,

Harold Nisselson

,

Ingram Olkin

,

and Donald

B.

Rubin. N ew Y or

k:

Academic Press.

Fuchs

,

Camil

1982

Maximum

Li

kelihood Estimation and Model Selection in

Contin-gency Tables with Missing Data."

Journal

01

the American Statistical

Association

77(378):270 一 78.

Fuller

,

Carol H.

1974

Weighting to Adjust for Survey Nonresponse."

Public

印inion

Quar

terly 38(2):239-46.

Gelfand

,

Alan

E.

and Bradley P. Carlin

1993

Maximum-

Li

kelihood Estimation for Constrained- or Missing-Data

Models."

The

Ca仰dian

Journal

01

Statistics 21(3):303-1

1.

Gi

l1

ey

,

Otis W. and Robert P. Leone

1991

A Two-Stage Imputation Procedure for Item Nonresponse in

Sur-veys."

Journal

01

Business Research 22(4):281-9

1.

Gourieroux

,

Christian and Alain Monfort

1981

On the Problem of Missing Data in Linear Models."

Review

01

Eco-nomic Studies 48(4):579-86.

Har

t1

ey

,

H. O. and

R. R.

Hocking

1971

The Analysis of Incomplete Data."

Biometrics 27:783-808.

Hayward

,

Mark D. and William

R.

Grady

1凹99叩0

1凹96描6-1凹983." De押mo愕'gra,αI戶F幼h仰y 27去:33幻7一5閃6.

Ibrahim

,

Joseph G.

1990

Incomplete Data in Generalized

Li

near Models."

Journal

01

the

American Statistical Association 85(411):765-69.

Jinn

,

J

H. and

J

Sedransk

1989

Effect on Secondary Data Analysis of Common Imputation Methods."

Sociological Methodology 19:213

4

1.

Kalton

,

Graham and Daniel Kasprzyk

(26)

Research Methods Section

,

American Statistical Association

1昀98剖6

16.

Ka剖It切on札1,

Graham and

Les叫sli跆e

Kish

1984

Some Efficient Random Imputation Methods."

Communications in

Statistics

, Theoη and

Methods 13:1319-39.

Kim

,

J ae On and J ames Curry

1977

The Treatment of Missing Data in Multivariate Analysis."

Sociologi-cal Methods and Research 6(2):215-40.

Kromrey

,

Jeffrey D. and Constance V.

Hi泣的

1994

N onrandomly Missing Data in Multiple Regression: An Empirical

Comparison of Common Missing-Data Treatments."

Educational and

Psychological Measurement 54(3):573-93.

Lee

,

Eun Sul

,

Ronald N. Forthofer

,

and Ronald

J.

Lorimor

1989

Analyzing Complex Survey Data. Newbury Park

,

California: Sage

Pub-lications

,

Inc.

Lepkowski

,

James M

1989

Treatment of Wave Nonresponse in

Panel Surveys." Pp.

348一 74

in

Panel Surveys

,

edited by Daniel Kasprzyk

,

Greg Duncan

,

Graham

Kalton

,

and M. P. Singh. New Yor

k:

John Wiley

&

Sons.

Lessl缸,

Judith

T.

and William D. Kalsbeek

1992

Nonsampling Error in Surveys. New Yor

k:

John Wiley

&

Sons

,

Inc.

Little

,

Roderick

J.

A.

1988

Missing-Data Adjustments in Large Surveys."

Journal 01 Business

and Economic Statistics 6(3):287-96

1992a

Incomplete Data in Event

Hi

story Analysis." Pp. 209-30 in

Demo-gra,戶hic Ap,ρlications

01 Event History Analysis

,

edited by James

Trus-sell

,

Richard Hankinson

,

and Judith Tilton. Oxford: Clearendon Press.

1992b

Regression with Missing X's: A Review."

Journal 01 the American

Statistical Association 87(420):1227-37.

Li

ttle

,

Roderick J.

A.

and Donald

B.

Rubin

1987

S似的tical

Analysis with Missing Data. New Yor

k:

John Wiley

&

Sons

1989-90

The Analysis of Social Science Data with Missing Values."

Socio-logical Methods and Research

18(2一 3):292-326.

(27)

1989

“It

em Nonresponse in

Panel Surveys."

Pp.

400~25

in Panel Surveys

,

edited by Daniel Kasprzyk

,

Greg Duncan

,

Graham Kalton

,

and M. P.

Singh. New Yor

k:

John Wiley

&

Sons.

Mandell

,

Lewis

1974

When to Weigh

t:

Determining Nonresponse Bias in Survey Data."

Public

Op

inion Quarterly

38(2):247~52.

Marini

,

Margaret Mooney

,

Anthony

R.

Olsen

,

and Donald

B.

Rubin

1980

Maximum-Likelihood Estimation in Panel Studies with Missing

Data."

Sociological Methodology

11:314~57.

McArdle

,

J ohn J

1994

Structural Factor Analysis Experiments with Incomplete Data."

Multivariate Behavioral Research

29(4):409一 54.

Mendoza

,

Jorge L

1993

Fisher Transformations for Correlations Corrected for Selection and

Missing Data."

P:砂chometrika

58(4):601

~

15

孔1islevy,

Robert ].

1993

Should "Multiple Imputations

Be Treated as "Multiple Indicators

“?"

Psychometri.如 58(1):79~85.

Muthn

,

Bengt

,

David Kaplan

,

and Michael Hollis

1987

On Structural Equation Modeling with Data That Are Not Missing

Completely Random."

Psychometrika

52(3):431

~62.

Oh

,

H. Lock and Fredrick Scheuren

, ].

1980

Estimating the Variance Impact of Missing CPS Income Data."

American Statistical Association 1980 Proceedings

0/

the Section on

Survey Research Methods.

Oh

,

H. Lock

,

Fredrick Scheuren

, ].,

and Harold Nisselson

1980

Differential Bias Impacts of Alternate Census Bureau Hot Deck

Pro-cedures for Imputing Missing CPS Income Data."

American Statistical

Association 1980 Proceedings

0/

the Section on Survey Research

Methods.

Orme

,

John G. and Janet Reis

1991

Multiple Regression with Missing Data."

Journal

0/

Social Service

Research

15(1

~2):61 ~91

Rindskopf

,

David

(28)

Using Generalized

Li

near Models with Composite Links."

Psychometri.

ka

57(1):29-42.

Rizvi

,

M. Haseeb

1983

Hot-Deck Procedures: Introduction." Pp.

351-52

in

lncomplete Data in

Sam

p!

e

Surv砂's ,

vo

l.

Volume 3

,

Proceedings of the Symposium

,

edited

by William G. Madow

,

Harold Nisselson

,

Ingram Olkin

,

and Donald B.

Rubin. New Yor

k:

Academic Press.

Rovine

,

Michael ]. and Mary Delaney

1990

Missing Data Estimation in Developmental Research." Pp.

35 月 in

Statistical Methods in Longitudinal Research

,

Volume 1: PrinciPles and

Structuring

C的nge,

edited by Alexander von Eye. New York:

Aca-demic Press

,

Inc.

Rubin

,

Donald

B.

1976

Inference and Missing Data."

Biometrika 70:41-55.

1987 Multiple lmputation lor

Nonre.坦ponse

in

Surv砂's.

New Yor

k:

John

Wiley

&

Sons.

Sande

,

Innis G.

1979

A Personal View of Hot Deck Imputation Procedures."

Surv砂 Metho­

dology

5:238

58.

1982

Imputation in Surveys: Coping with Reality."

The American

Statisti-cian

36:1是5可2.

1983

Hot-Deck Imputation Procedures." Pp.

339-49

in

lncomplete Data in

SamPle

Surv紗's ,

vo

l.

Volume 3

,

Proceedings of the Symposium

,

edited

by Wi

1li

am G. Madow

,

Harold Nisselson

,

Ingram Olkin

,

and Donald

B.

Rubin. New Yor

k:

Academic Press.

Siepman

,

Howard

R.

and Shie-Shien Yang

1994

Generalized Least Squares Estimation of Multivariate Nonlinear

Models with Missing Data."

Communications in Statistics.

TheoηI

and

Methods

23(6):1565-79.

Simon

,

Gary

A.

and J effrey S. Simonoff

1986

“Di

agnostic Plots for Missing Data in Least Squares Regression."

Journal

01

the American

S似的tical

Association 8

1(

394):501-09.

Simonoff

,

Jeffrey S.

1988

Regression

Di

agnostics to Detect Nonrandom Missingness in Linear

(29)

Stine

,

Robert

1989-90

An Introduction to Bootstrap Methods: Examples and Ideas."

Sociological Methods and Research

18(2一 3):2吐3-91

Van Buuren

,

Stef and J an

L.

Van Rijckevorsel

1992

Imputation of Missing Categorical Data by Maximizing Internal

Con-sistency."

Psychometrika

57(是):567-80.

1九Telniak ,

Edward ]. and John F. Coder

1980

A Measure of the Bias in the March CPS Earnings Imputation Sys

tem."

American Statistical Association 1980 Proceedings

0/

the Section

on Survey Research Methods 421-25.

Winsh巾,

Christopher and Robert D. Mare

1989

Loglinear Models with Missing Data: A Latent Class Approach."

(30)

附錄一

SAS Macro for Hot-Deck Imoutation

1*

- 一一一一-一- 一一一一一一一 -一一一 -一→一→

*

*

Randomized Hot-Deck Imputation of Missing Values

*

*

by Hsinmu Chen

*

*

Four parameters need to be provided to use this sas macro.

*

*

SAS macro name: IMPUTE

*

*

Parameters: DATA, MISSVAR,!D, AUXVAR

*

****

DA T A: specify the sas dataset

*

MISSV AR: variable with missings to be imputed

*

ID: unique observation-ID

*

AUXV AR: auxiliary variables

*

*

Observations with missing-value will be imputed, in which the

*

*

donation-source could be identified by the FLAG variable.

*

*

Imputation FLAG variable denotes:

*

*

observation without missing

*

*

0 observation with missing and not imputed

*

*

other value observation with missing but with imputed

*

*

value donated from other observation

*

*

(!D value is specified)

*

*

- - - -

-一 一一一一 一一- -一一一- -一 一- 一 *

í;

OPTIONS CLEANUP NOMPRINT NOMLOGIC;

%MACRO IMPUTE (DA T A ",

1*

Specify the DA T ASET

* /

MISSVAR",

í

*

Variable with missing-values to be imputed

* /

!D",

í

*

Unique observation-!D

* /

AUXVAR")

í

*

Auxiliary-Variables

* /;

/ *

Calculate # of Auxiliary-Variabl凹 *í

DA T A NULL ; ARRA Y XX &AUXV AR; DO OVER XX ; NV AR

+

1; END;

CALL SYMPUT ('NVAR',TRIM (LEFT (PUT (NV AR,2.)))); RUN;

PROC IML

1*

一 一一←

*

*

MISS: matrix with missing-observations

*

*

REF: matrix without missing, for reference

*

*

DONA TED: matrix to receive donation

*

*

FLAG: matrix with FLAG to denote imputation

*

(31)

USE &DATA;

READ ALL VAR {&ID &AUXVAR} WHERE (&MISSVAR ~.)

INTO MISS (

I

COLNAME ~ ITEMNAME

I );

READ ALL VAR {&ID &AUXVAR &MISSVAR} WHERE (&MISSVAR A ~ . )

INTO REF; CLOSE &DA T A;

DONATED ~ REPEAT (.,NROW (MISS));

FLAG ~ REPEA T (O,NROW (MISS));

/* - - - *

*

IMPUT A TION MODULE

*

*

This is the main part of this program to impute

*

*

value of missing variable from the referent population.

*

*

The module is consisting of three parts: 1) randomly

*

*

sort the observations; 2) identify the corresponding

*

*

cell based on &AUXV AR; 3) choose the first referent

*

*

observation and donate the value, then repeat the next

*

*

searching iteration.

*

* • - - - -一*/;

ST ART IMPUTING;

DO 1 ~ 1 TO NROW (MISS) ;

REF ~ REF [RANK (RANUNI (REPEA T 紗,NROW(REF)))),]

/*

Ran吐omlysort the referent population

* /;

DO

J

~ 1 TO NROW (REF) ;

/* - - - -

-一 一一*

*

Iterates NROW (REF) times of searching to

*

*

search for donation from REFerent-matrix

*

* - - - * /;

DO K ~ 1 TO &NVAR;

IF (MISS 口, K+ l] A~ REF 汀, K 十 lJ ) THEN GOTO NEXT; END;

/* - - - *

*

Choose the corresponding cell based on

*

*

&AUXV AR. Search the first observation

*

*

and donate the value as the imputed.

*

*一一 一一一 一一 一…一一 一一一一

* /;

DONATED [I]二 REF [J.&:-.JVAR+2J

/*

donation

*/;

FLAG [IJ ~ REF [J,日/

*

flag ID

* /;

GOTO MA TCHED; NEXT: END;

(32)

NOMA TCH 0 MISS [I,]

VNAME 0 {&ID &AUXVAR} ;

PRINT NOMATCH [COLNAMEoVNAME]

FREE VNAME NOMA TCH

MATCHED: END /

*

Next Missing-Observation

* /;

FINISH; RUN IMPUTING;

/*一*

*

Write out the imputed matrix into dataset

*

* - - - * /;

QUIT;

IMPUTE 0 MISS

I I

DONA TED

I I

FLAG /

*

vertically concatenate

* /;

VARNAME 0 {&ID &AUXVAR &加nSSVARFLAG}

/*

column label

*/;

CREA TE IMPUTED FROM IMPUTE ( I COLN AME 0 V ARN AME I );

REPLACE;

APPEND FROM IMPUTE;

CLOSE IMPUTED;

PROC SORT DATA 0 1孔1PUTED;BY &ID;

PROC SORT DA T A o&DA T A ; BY &ID;

DATA &DATA; UPDATE &DATA IMPUTED; BY &ID; RUN;

參考文獻

相關文件

5 個資法第二十七條 非公務機關保有個人資料檔案者,應採行適當之安全措施,防止個

replacement therapy」 ,請儘可能明確列出給予 外源性 FVIII 置換療法之標準 (criteria),包 括治療時機和用量。統計部分亦請說明此指 標將如何估計,針對 missing value 的插補方 法

依個人資料保護法第八條規定,本會將會蒐集個人資料,要求輸

例如中央處理器、晶片、插卡等,這些電子元件在使用過程中,皆會產生熱

以下 Java 程式執行完後,輸出結果為何?(A)無法編譯,因為 Rectangle 類別不能同時 extends 一個類別且 implemets 一個介面(B)無法編譯,因為 Shapes 類別沒有

7 we define the critical exponents characterizing the singular behaviour of the parti- tion function and the susceptibilities of the order parameters as

牆體附有敵臺 7062 座、馬面 3357 座、烽火臺 5723 座、關堡 1176 座、相關 遺存 1026 處、新發現各類遺蹟 498

在 Java 例外(Exception)處理中,若在 try 區塊中配置一個資源,下述何者正確?(A)至少要 跟隨一個