第四章、 資料分析
第二節、 模型識別
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 4-4、政黨認同與社會回溯型經濟評估交叉表 社會回溯型經濟評估
政黨認同 比較不好 差不多 比較好 合計
泛綠 350(20.36) 149(8.67) 30(1.75) 529(30.77)
無明顯政黨認同 217(12.62) 175(10.18) 53(3.08) 445(25.89)
泛藍 181(10.53) 338(19.66) 226(13.15) 745(43.34)
合計 748(43.51) 662(38.51) 309(17.98) 1719(100.00)
資料來源:TEDS2012。
說明:表中數字為樣本數,括弧中數字為百分比。
Pearson chi-squared = 269.2714, P< 0.001。
總的來說,從交叉分析可以初步看出 2012 年總統選舉,政黨認同、經濟評估和投票 選擇之間的概略關係;亦即選民在投票時似乎有評估經濟因素,進行經濟評估時可能也有 政黨認同的影子。然而,面對認知性與資料性的內因問題,交叉分析並不能進行較為妥善 的處理。因此本文採用 PALR 方法處理認知性與資料性的內因問題,以更全面的視角檢 視 2012 年總統選舉。
第二節、 模型識別
在圖 4-1 的路徑估計模型能夠被估計之前,首先要檢視它是不是能夠被識別。Berry
(1984, 18-38)和 Paxton, Hipp, and Marquart-Pyatt(2011, 24-45)在著作中提到識別問題 是數學上的問題而不是統計上的問題。因此問題的發生和樣本數多寡並沒有太大的關係,
而是和模型的特徵有關。也就是模型中的已知參數和未知參數的數量比例(黃芳銘 2007, 69-84;Asher 1976, 53-71; Paxton, Hipp, and Marquart-Pyatt 2011, 24-45; Kline 2011,
124-150)。識別的目的在於檢視模型中已知參數和未知參數的數量是否相等,或是已知 參數的數量是否大於未知參數,也就是檢視模型中的參數是否有足夠的訊息去求解(Berry 1984, 18-55)。所謂的已知參數指的是從資料中獲得的參數,例如變數的變異數與變數之 間的共變數;而未知參數則是指模型內的係數,如路徑的係數、外因變數之間的共變數、
誤差項(disturbance term)之間的共變數。如果未知參數數量大於已知參數數量,則模型 不能夠通過識別,也就是所謂的低度識別(underidentification)。如果未知參數數量小於
58
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
已知參數數量的狀況則稱為過度識別(overidentification)。若未知參數數量等於已知參數 數量,則稱為適度識別(exact identification)的狀態。
參考 Kline(2011, 124-150)、Paxton et al.(2011, 24-45)和黃芳銘(2007, 69-84)的 著作,細究上述的三種情況如果用線性代數的概念去理解,我們可以發現低度識別起因為 未知參數數量大於已知參數數量,如同聯立方程式中未知參數數量大於方程式數量。顯然 低度識別的情況將無法估計出未知數參數,進而對未知參數的估計將不可能是一致的估計。
那麼模型就要回過頭來重新設定(respecification),也就是對理論所呈現的假設要再次地 檢視,斟酌變數之間的關係。此外,就是找尋可靠的工具變數(instrumental variable)來 有效減低未知參數的數目。第二,關於過度識別,從上段描述可知這種情況就像是聯立方 程式中未知參數數量小於方程式數量,求解的結果就是會出現多組解,亦即未知參數的估 計值有多個可能值。大部分遇到這種情況時通常會在估計時加入一些限制(restriction),
而這些限制通常來自於過度識別的模型本身,(Paxton et al. 2011, 24-45);或是選擇一 個最接近解釋觀察資料且產生的誤差也是最小的解(黃芳銘 2007, 69-84)。最後,適度 識別可想而知就如同聯立方程式中未知參數數量等於方程式數量,模型中的所有未知參數 都將會有唯一的估計值。
至於識別的標準,相關的書籍很多(Asher 1976, 53-71; Paxton et al. 2011, 24-45; Kline 2011, 124-150; 黃芳銘 2007, 69-84),Paxton et al.(2011, 24-45)則是把這些方法細分成 二類,第一類是以模型為基礎的識別規則(model-based identification rules),這類的規則 主要是從模型上的特徵來進行識別,如變數的數目,稱為 t 規則(t Rule)其屬於必要條 件、模型的種類——模型路徑均為單向,稱為遞迴規則(recursive rule)其屬於充分條件、
變數的關係——模型中沒有任何內因變數影響內因變數,稱為內因變數無影響規則(null beta rule)其屬於充分條件;第二類是以方程式為基礎的識別規則(equation-based
identification rules),這類的規則大多用在非遞迴模型(nonrecursive models)上,它主要 針對方程式進行識別,如方程式是否有足夠係數路徑的數量被限制,也就是說能不能把待 估計的未知參數數量限制在能估計的範圍之下(階條件)——必要條件、或是聯立方程式
59
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
中各個方程式間有無存在線性關係(秩條件)——充要條件。
考量到選後訪問可能產生變數間因果方向不明的內因問題,因此本文建立的模型將屬 於非遞迴模型。所謂的非遞迴模型有三種特徵:模型中某些的變數誤差項具有相關、模型 中的變數路徑不是單向的而是相互影響的關係(reciprocal relationship),或是數個變數的 路徑形成一個迴圈(loop)最後仍指向第一個變數的反饋迴圈(feedback loop)(Paxton et al. 2011, 13 36)。識別上,Paxton 等學者(2011, 36-45)認為非遞迴模型在找尋秩條件的 過程相當地繁複,如果非遞迴模型的誤差項不是全部有相關,那麼區塊遞迴識別法
(block-recursive identification)是一個比秩條件更加簡潔的方法。區塊遞迴識別法主要是 針對非遞迴模型的處理,它將整個非遞迴模型拆解成幾個區塊,每一個區塊內只有一到二 個方程式;也就是把一個原本較複雜的聯立方程式拆成數組的聯立方程式,在路徑圖上即 呈現數個區塊(block)。用意在於將造成非遞迴的原因——也就是相互關係、回饋關係 和誤差項相關——限制在區塊之中,而區塊與區塊之間則是保持遞迴的性質。這樣的好處 在於簡化非遞迴模型的識別過程,讓研究者能夠分別地對每個區塊進行識別,不用大費周 章地對整體模型進行識別;因為只要確定每個區塊能通過識別,區塊間根據上述的遞迴規 則亦通過識別,那麼整個模型也能通過識別。
圖 4-1 的路徑估計模型區塊化,乃是依照整體模型內的內因變數做分割,分割的標準 則是盡可能地把具遞迴關係的區塊分割成更小的區塊,甚至不惜把區塊分割成小到只有內 含一個方程式的小區塊。除非區塊內含有非遞迴的關係,讓區塊無法再分割。就圖 4-1-1 的路徑區塊模型而言,它可以分割成六個區塊,分別標示為 A1-1、A1-2、A2-1、A2-2、
A3,以及 A4。A1-1 與 A1-2 屬於政黨認同迴歸式。A2-1 與 A2-2 屬於候選人形象評估迴 歸式。A3 是社會回溯型經濟評估迴歸式。A4 則包含了社會前瞻型經濟評估與投票選擇二 個迴歸式。
60
‧
ordered logit社會前瞻 評估 ordered logit
差不多 Multinomial
logit Multinomial
logit 候選人形象 評估:泛綠
較高 Multinomial
logit
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
從區塊遞迴識別法的規則來看,每個區塊間符合遞迴規則所以是通過識別的。在 A1-1 與 A1-2 區塊內,因為影響它的變數均為外因變數符合內因變數無影響規則,所以 A1-1 與 A1-2 區塊都能夠符合識別的條件。A2-1 、A2-2 與 A3 區塊則是都符合遞迴規則,故 也能通過識別。然而,A4 區塊內是二個迴歸式之間存在不明確的因果關係,使得 A4 區 塊模型屬於非遞迴模型,在識別上可以採用 Paxton 等學者介紹的雙方程式區塊識別法
(identification of two-equation blocks),該方法討論了八種雙方程式區塊可能的案例(cases)
(2011, 39-45)。這八種可能的情況:
1. 如果二個內因變數的唯一連結是他們的誤差項(error term)相關,那麼根據內 因變數無影響規則,這個區塊是通過識別的,無論這二個內因變數有沒有各自影 響它們的自變數。
2. 如果二個內因變數的連結不只是誤差項相關,還包括一條單向的影響路徑,而且 處於這條路徑影響變數端的內因變數本身沒有可提供識別訊息的自變數,那麼這 個區塊是無法通過識別的。
3. 如果區塊內的情況跟上述案例是一樣的,只是路徑影響變數端的內因變數本身有 可提供識別訊息的自變數,那麼這個區塊是通過識別的。
4. 如果區塊內的二個內因變數的連結是相互影響的關係,而且又沒有其他可提供識 別訊息的自變數,則這個區塊並無法通過識別。
5. 同前一例的情況,不過二個內因變數只需其中一個擁有可提供識別訊息的自變數,
而且還必須確定不存在誤差項相關,這個區塊就可以通過識別。
6. 區塊內部情況同前例,只是除了二個內因變數的連結是相互影響的關係,和其中 一個變數擁有可提供識別訊息的自變數之外,二個內因變數的連結還又多了誤差 項的相關,這將會使得這個區塊無法通過識別。
62
‧
ordered logit社會前瞻 評估 ordered logit
差不多 會變好
63
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
從圖 4-1-2 來看,肇因於社會前瞻型經濟評估與投票選擇之間不明確的因果方向 性,造成資料性內因問題(虛線標示的部分)。這是使 A4 區塊成為非遞迴模型的主 因。除此之外,在圖 4-1-2 中社會前瞻型經濟評估不僅影響投票選擇,社會前瞻型經 濟評估也被其他不影響投票選擇的自變數所影響。正是這些不影響投票選擇的自變 數——職業和教育程度,提供了識別的資訊。也就是說,這樣的變數關係符合雙方程 式區塊識別法中第三個案例,因此 A4 區塊同樣能夠通過識別的標準。綜合上述的各 個區塊內與區塊之間的識別,依據區塊遞迴識別法,圖 4-1 的路徑估計模型符合識別 的條件。