• 沒有找到結果。

第三章 研究設計

第一節 研究方法

投票抉擇屬於個人行為,多數傳統投票行為研究由於擔心可能的「區位謬 誤」,多採取個體層次的資料進行統計分析。但就統計方法而言,單採個體資料 來分析選民的投票行為,忽略總體層次的系絡效果,即是假設模型中的迴歸係數 在每一個系絡中皆相同(Luke 2004, 7)。這在社會環境相當一致的地區,或許這種 假設尚可成立。但過去許多政治行為研究卻常發生相同的理論模式可適用在某些 地區或國家,卻在其他地區發生矛盾或經驗上的爭議,即可從社會環境的總體差 異提出解釋(Anderson 2007, 601)。如果學理上存在系絡間的差異,研究者卻遺漏 了總體層次上的重要變數,忽略了群內個體之間的相關性,將會低估統計檢定上 的標準誤,進而膨脹「第一型錯誤」(Type I Error)的發生機率,高估自變數在 假設檢定上的顯著效果(Hox 1998, 147; Steenbergen and Jones 2002, 219-220; 溫 福星 2006, 1-6)。25也就是說,部分在統計模型中對選民投票行為有顯著影響之 個體層次變數,若將學理上對投票行為具有影響力的總體層次變數納入考量,同 時放入模型中進行估計,則部分個體層次的變數將可能因此喪失原有的顯著影響 力。Tilly與Goodin(2006, 24)也表示,我們必須瞭解哪一個面向的系絡因素發生作 用,並在我們的研究中將其控制在常數之下。唯有當這些系絡因素在我們的研究 中沒有實際發生作用,我們才可以安全的忽視它們。

晚近的研究為了將系絡因素同時納入考量,嘗試運用各種不同的解決方法。

最簡單的系絡分析可以利用「交叉表」來進行,比較兩個(或更多)團體之交叉 表的內容差異,甚至是畫出二維圖形來解釋兩條線之「截距」與「斜率」的差異

25 Hox(1998, 147-148)利用「設計效果」(design effect)來解釋,當「群內相關」(intraclass correlation) 愈大,其設計效果愈大,進而導致有效樣本數愈低,此時研究者若忽略「群內相關」,而使用一 般的統計方法,將會低估「抽樣變異」(sampling variance),使得顯著性的檢證發生錯誤(即係數 容易顯著)。Hox 引用 Tate 與 Wongbundhit(1983)實驗結果的發現指出,研究者若忽略「群內相關」

的迴歸係數估計並不會發生偏誤,但是卻會產生虛假的顯著性檢定結果。

(Iversen 1991)。這種方式雖然易於分析與解釋,但由於交叉表所能控制的變數相 當有限,仍然無法將諸多變數同時納入模型。有些研究則是將總體層次的資訊「分 解」(disaggregate)至個體層次,並在統計模型中以個體層次為分析單位進行各項 變數的解釋與預測。但此種方法仍因個體屬於相同的系絡而具有「誤差項相關」

(correlated errors),違反了迴歸模型對於分析單位必須相互獨立的基本假設(Luke 2004, 6-7)。此外,以「虛擬變數」或「交互作用」途徑,將總體層次的資訊納 入個體層次的模型進行分析也是常見的處理方式,但Steenbergen與Jones(2002, 220-221)則認為,虛擬變數的方法僅能檢視總體層次確實存在差異,卻無法解釋 為何存在差異的「因果異質性」問題。至於交互作用的方法雖然可以在理論上解 釋因果異質性的問題,但在統計上卻錯誤的假設總體層次間不存在殘差項(error components),以致迴歸模型違反「變異一致性」(homoskedasticity)的基本假設。

即便將這兩種傳統途徑合而為一,也常會因模型「自由度」的不足,而無法正確 估計系絡效果與虛擬變數的效果,故這兩種途徑在理論與統計方法間存在無法兩 全的「取捨」問題。26

1980 年代開始統計學者逐漸發展出多層模型,試圖解決上述統計方法上的 難題。這種分析方法起源於教育學中對學生學習成效的探討。研究者欲探討學生 的學習成效,除了需考量學生個人資質及學習態度外,班級老師的教學方式,學 校的教育方向,甚至是地區政府的教育政策,皆可能影響學生的學習效果。在這 樣的分析層次下,學生屬於個人層次的單元,班級、學校、地區則屬於總體層次 的單元。其中,學生隸屬於某一班級中,班級隸屬於某一學校中,學校則隸屬於 某一地區中。各分析層次之間形成標準「階層性」(hierarchical)的「套疊結構」

(nested structure)。而多層模型正是基於此種資料形式所提出的分析方法,這種資 料層級的階層性,基於研究者的分析目的、資料蒐集或是學理依據,可能僅有二 階層,亦可能在三層以上,完全依據理論的探討來決定。這種研究方法後續也逐 漸運用在家庭、鄰居、自願性團體、宗教團體、公司行號、社會網絡等,與人類 行為有關的社會學或政治學等系絡分析上(Iversen 1991)。

多層模型的基本學理,是在迴歸方法的基礎上,將個體與總體層次的階層屬 性納入考量。首先建立起個體層次的迴歸模型(如公式1)。其次,從學理上考 量系絡因素的影響,若系絡因素會「直接」影響依變數的結果,則將迴歸模型中

26 Steenbergen 與 Jones(2002, 220-221)將這兩種途徑稱之為「虛擬變數模型」(dummy variable model)及「交互作用模型」(interactive model)。

的「截距」(

β

0)獨立出來,依據可能影響的系絡變數來建立迴歸方程式(如公式 2)。若系絡因素對依變數的影響是「間接」的,也就是個體迴歸模型中的「斜 率」(

β

1)會受到特定系絡環境變數的影響,則將該斜率獨立出來,依據相關系絡 變數建立迴歸模型(如公式3)。最後,再將公式 2、3 代回公式 1 中(如公式 4),

如此即可將個體與總體層次的相關變數同時納入模型,在考量變數之間的變異與 共變異下,釐清影響依變數的真正變數。在公式 4 中,

γ

00是新迴歸模型中的截 距,

γ

10是個體層次相關變數(X)的影響係數,

γ

01是總體層次相關變數(Z)的影響 係數,而

γ

11則是個體與總體層次變數間的交互作用。

第一層(Level-1): i=個體(individual);j=總體(group) 公式 1………

Y

ij =

β

0j+

β

1j

X

ij+

ε

ij

第二層(Level-2):

公式 2………

β

0j =

γ

00+

γ

01

Z

j+

μ

0j 公式 3………

β

1j =

γ

10 +

γ

11

Z

j+

μ

1j 合併後(combined):

公式 4………

Y

ij =

γ

00+

γ

10

X

ij+

γ

01

Z

j+

γ

11

Z X

j ij+

μ

0j+

X

ij

μ

1j +

ε

ij

由於多層模型是以線性迴歸方法為基礎,並在考量資料階層屬性下所發展而 成,故學界多以「階層線性模型」(Hierarchical Linear Model,簡稱HLM)稱之。27 以此次立法委員選舉而言,選民與選區之間正存在套疊關係,每一位選民必定隸 屬於其所屬的選區,構成最標準的雙層模型分析架構。選民個人為第一層(level 1) 即個體層次(individual level)的分析單位,選區環境則是第二層(level 2)屬總體層 次(aggregate level)的分析單位。依據學理所提出的理論架構,藉由多層模型的分 析方式,不但可以改善屬於個體層次相關影響因素的估計,建構並檢定總體層次

27 惟該多層模型在不同學科中亦有不同的名稱,在社會學領域中多稱之為「多層線性模型」

(multilevel linear models);在生物統計學領域中稱之為「混合效果模型與隨機效果模型」

(mixed-effects models and random-effects models);在經濟學領域中稱之為「隨機係數迴歸模型」

(random-coefficient regression models);在統計學領域中則稱之為「共變異成分模型」(covariance components models) (Raudenbush and Bryk 2002, 5-6)。

差異的影響外,更可以檢視不同層次之間的共變影響(Raudenbush and Bryk 2002, 7)。Steenbergen與Jones(2002, 219-220)更明確從實質上及統計上的動機,說明運 用多層模型分析方法的重要性。在實質動機上,多層模型讓分屬不同層次的資料 結合在單一完整的模型中(single comprehensive model)成為可能,並允許研究者探 索系絡間的因果異質性,更提供對某項學理能否在比較研究的領域上建立「一般 化能力」(generalizability)的檢驗。在統計動機上,則如前所述,若資料具有階層 屬性,但研究者在分析時卻忽略它,將可能導致錯誤的估算模型變數中的標準 誤,進而高估個體層次因素的影響效果。

由於「階層線性模型」是以依變數為連續變數之迴歸方法為基礎,並無法直 接針對依變數為類別資料進行多層分析。之後統計學者將階層線性迴歸模型,進 一步與「推廣線性模型」(Generalized Linear Models,簡稱GLM)結合,發展出「階 層推廣線性模型」(Hierarchical Generalized Linear Models,簡稱HGLM),利用不 同的「連結函數」(link funtion),得以針對各種型態的類別依變數進行多層模型 分析(Raudenbush and Bryk 2002; 黃紀 2008b)。28本研究旨在探討台灣2008 年 立委選舉選民的投票行為,由於感興趣的依變數是選民在第一票及第二票的投票 對象,以及兩張選票的抉擇是屬一致或分裂投票,皆屬於「二分類」(binary)或

「無序多分」(nominal)的類別資料型態,此時「階層推廣線性模型」自然成為本 研究最適當的統計方法。

第二節 資料蒐集

在資料的蒐集上,有關選民的人口背景特徵、心理態度認知或投票抉擇等個 體層次的資料,本文將採用「台灣選舉與民主化調查」針對2008 年立法委員選 舉的選後面訪資料(簡稱 TEDS2008L)。在 59 個單一選區中,總計完成 2,621 份成功樣本,訪問期間為 2008 年 1 月中旬至 3 月上旬。至於 TEDS2008L 的訪 問執行可分為兩大部分,一部份為「定群追蹤調查」(panel study),即針對 2004 年立法委員選舉選後面訪調查(TEDS2004L)之 2,507 份成功樣本全數進行追蹤 訪問,總計完成1,381 份。另一部份則為「橫斷面調查」(cross-section)之重新獨

28 亦有部分學者將「階層線性迴歸」與「推廣線性模型」結合後,稱之為「推廣階層線性模型」

(Generalized Hierarchical Linear Models,簡稱 GHLM)、「推廣線性混合模型」(Generalized Linear Mixed Models,簡稱 GLMM)或「具隨機效果的推廣線性模型」(Generalized Linear Models with Random Effect)(Luke 2004, 53; Raudenbush and Bryk 2002, 292)。

立抽樣,在全國73 個單一選區依選民人口比例抽取 38 個選區,並依「抽取率與 單位大小成比例」(probability proportional to size,簡稱 PPS)原則抽取村里後,再 以等距抽樣抽出合格受訪對象來進行訪問,共計完成1,240 份有效樣本。本研究 同時將兩部分的資料合併,主要是考量提高選區與選民的樣本數,以利多層模型 的建構與分析。但由於「定群資料」(panel data)有「非隨機性」之樣本流失與訪 問效應的問題,在分析結果的推論上可能受到侷限(陳陸輝 1999;劉從葦、陳 光輝 2006)。若資料的選樣標準與「依變數」有關係時,將使因果關係的係數估 計發生偏誤,可能高估或低估自變數的影響效果。若是與「自變數」有關係時,

則 不 會 影 響 因 果 關 係 的 係 數 估 計 , 但在 代 表 性 的 推 論 上 將 受 到 限 制(King, Keohane and Verba 1994, 129-138)。為此,本文針對 TEDS2008L 之「定群追蹤」

與「橫斷面調查」兩筆資料,在人口變項、重要政治態度及投票抉擇上進行卡方

與「橫斷面調查」兩筆資料,在人口變項、重要政治態度及投票抉擇上進行卡方

相關文件