第五章 政治上無力的實證研究設計與測量
5.3 資料來源、蒐集、處理與變數建立過程
5.3.2 民意問卷資料的處理、變數建立
民眾民意資料方面,民意調查資料檔內含基本的人口屬性資料,包含性別、
年齡……等,針對年齡先使用R 語言的 scale 函數標準化處理(中心移到 0,並 且把每個數值都除以標準差;另外以下為便於在多層次模型中估計,因此本研究 中所有的標準化採用的都是總平減(grand-mean centering),也就是往全體樣本的 中心移動的總平減而非往組中心移動的組平減248)。有關族群部分,問卷的問題 皆有共同的「父母親是哪裡人」的兩個選擇題及開放填充題,我將此題目依據答 案重新編碼為父母親分別為台灣閩南人、台灣客家人、大陸各省市、台灣原住民、
外裔或原國籍為外籍或原國籍中國大陸的新移民(例如有部分受訪者的父母親是
「外省人第二代」,而在開放填充題中回答臺灣人),其他則設定為遺漏值(例如 有受訪者只填答「臺灣人」)。接著依照廣義的原生論(primordialism),只要父母 有其一為人口比例較少的較少數族群者,則一律視為較少數族群(另一方面也是 希望可以減少誤差的推論影響),為類別變項。
合併宗教信仰,分為佛教、道教、民間信仰、一貫道、天主教、基督教、沒 有宗教信仰與其他,2010 綜合問卷訪問到一名伊斯蘭教信仰者而 2016 公民問卷 則無,為免合併分析時多了一個變數而不便因此將伊斯蘭教整併至其他,為類別 變數。
有關民眾以及立法委員的教育程度方面,原則都依照學位等級以及受教育年
247 政府開放資料平台:中央選舉委員會,〈選舉資料庫(含選舉區資料) | 政府資料開放平臺〉,
https://data.gov.tw/dataset/13119(最後瀏覽日:Jun 11, 2020)
248 多層次模式未平減(centering)通常不具有解釋上的意義,邱皓政(2017),《多層次模式與縱 貫資料分析:Mplus 8 解析應用》,頁 90,臺北市:五南。平減也可以減少共線性問題,李春 長&童作君(2010),〈住宅特徵價格模型之多層次分析〉,《經濟論文叢刊》,第 38 卷第 2 期,
頁296。
數進行編碼,以小學6、國(初)中/初職 9、高中/高職/中正預校/高中職業科/高中 普通科12、軍警校專修班、軍警專修班 13、士官學校/五專/二專/三專/五專/學士 14、技術學院/大學/學士/軍警校專科班/軍警專科班/空中行(商)專/空中大學/軍警 官學校/大學/軍警官校或大學/科技大學/二技/四技/大學 16、研究所/碩士 19、博 士23 為準。肄業則給一半(例如大學肄業是 12+2=14)。若填答無/不識字/識字 /私塾/自修則為 0(某受訪者回覆日本教育讀三年,經比對檢視其他回覆內容後 以0 編碼;某受訪者回覆空軍子弟小學的師範學校,經檢視其他回覆內容後以 9 編碼;某受訪者回覆宜蘭特教學校,比對該受訪者對於「請問您從國小到現在,總 共受幾年的學校教育?」題目反應為12,並經查證宜蘭的特教學校有高中職學制,
因此編碼為12;某受訪者回覆基督學院,經查證後該校授與學士學位,同樣編碼 為16)。
收入部分則有個人收入與家庭收入,個人收入包含「請問您平均每月所有的 (稅前)收入差不多有多少?」、家庭收入主要依據為問卷問題為「包括各種收入來 源,您全家人的所有收入,每個月大約多少元?」等題目;這兩種收入原調查得到的 資料為根據每組不同所得範圍的區間組別,此處重新根據各組組中點的編碼為收 入,最低一組(無收入)為0,家庭收入最高一組(100 萬元以上)編碼為 1,500,000。
測量政治參與行為指標中關於有無投票的問題,只要答案是沒有投票權的,
都以「沒有投票」重新編碼,這樣的重編碼是為了研究上目的需要觀察行為與外 在環境的關係,與觀察對象個人內在參與政治行為動機無關。
職業社經地位則以各問卷中的「(退休前或未退休)工作主要的職位和工作 內容是?變遷職位碼」問題參考黃毅志(2008)的作法轉換得出一職業社經地位 的量化連續尺度變項。249 至於黃毅志該文中並未指出的軍人職業社經地位分數,
則先參考黃毅志(1997)的作法250,參考不同官階的志願役軍人之技術層級、權 力,以及教育、收入,先初步地以士兵為1 士官 2 尉官 3 校官 4 將官 5 同樣把軍 人的社經地位分成五等,再將這五等對照黃毅志(2008)的作法251中五等分中每 一等份的該等分所有種類職業平均職業社經地位分數評分。黃毅志研究中並未得 出結論的職業(或是非職業)如學生、家庭主婦、待業者等,則先設定為遺漏值,
249 黃毅志(2008),〈如何精確測量職業地位?——「改良版臺灣地區新職業聲望與社經地位量 表」之建構〉,《臺東大學教育學報》,第19 卷第 1 期
250 黃毅志(1997),〈台灣地區社會科學研究的收入測量問題之初步探討:以社會變遷基本調查 為例〉,《調查研究》第4 期
251 黃毅志前註 249 文。
接著由後述的多重填補法自動填補。
在基本的處理完之後,依據研究問題的需要我先選擇有關個人基本人口屬性 資料、社經地位資料、政治參與、政策意向的欄位,檢視資料是否有遺漏值,並 針對遺漏值進行多重填補,二份問卷資料各先填補出各24 份經過填補的資料。
使用多重填補而不刪除有遺漏值的觀察值好處是避免偏差。252 填補使用的軟體 是R 語言的 mice 套件 mice 函數,253 用來計算填補的演算法選擇的是隨機森林
(random forest)演算法,此演算法可以同時處理類別資料與連續資料;用以衡 量填補基礎的計算基礎欄位則是所有與個人人口屬性、社會經濟地位與政治生活 有關的變數。
最後,將上述有關民眾社經地位的變數(教育程度、個人收入、家庭收入、
職業社經地位)以結構方程式探測潛在變數的方式(類似因素分析法)萃取而出
「綜合社經地位」,過程運用由R 語言中的 lavaan 套件 254驗證性因素分析cfa 函 數,該函數以最大概似法進行參數估計。「綜合社經地位」的因素分析數值估計 結果與軟體執行結果如「附表 3」所示。
政治參與依據前述最廣義的概念界定,把所有最廣義概念內的政治參與行為 全部納入作為指標,由於問卷中的變數屬於類別次序資料,因此運用試題反應理 論(item response theory)中適用於試題為次序變項的 graded response model255進 行維度縮減(類似因數分析或主成分分析,不過因素分析、主成分分析只適用於 觀察對象為連續變項,而試題反應理論適用於類別變項),設定受訪者有一個只 有「政治參與」的潛在特徵(在試題反應理論中稱為能力)決定受訪者的各種政 治參與行為,如「附表 4」所示,分析結果可得一連續變數。使用的是 R 語言 mirt 套件的 mirt 函數。256這個變數是分析立法者回應性迴歸模型的自變項,也是 分析政治參與迴歸模型的應變項。
「民眾與立委不相似程度」:在串聯完成回應性資料前,先經過後述立法委
252 于若蓉等,瞿海源等(編)(2015),《社會及行為科學研究法:資料分析》,頁 326,臺北市:
臺灣東華書局
253 Stef van Buuren&Catharina Gerarda Maria Groothuis-Oudshoorn, mice: Multivariate Imputation by Chained Equations in R, 45 JOURNAL OF STATISTICAL SOFTWARE 1(2011)
254 Yves Rosseel, Lavaan: An R Package for Structural Equation Modeling and More. Version 0.5–12 (BETA), 48 JOURNAL OF STATISTICAL SOFTWARE 1(2012)
255 Fumiko Samejima, Graded Response Model, in HANDBOOK OF MODERN ITEM RESPONSE THEORY(van der Linden&Hambleton eds, 1997)
256 Chalmers, mirt: A Multidimensional Item Response Theory Package for the R Environment, 48 JOURNAL OF STATISTICAL SOFTWARE 1(2012)
員個人資料以及受訪者個人資料的資料集,利用性別、教育程度、職業社經地位、
年齡、族群(自我認同)等變項為基準,使用Gower’s Distance 在立法委員以及 民眾之間計算相似/不相似矩陣(similarity/dissimilarity matrix),使用的是 R 語 言StatMatch 套件257中的gower.dist 函數。Gower’s Distance 是一種可以用來計算 連續資料以及類別資料兩個觀察對象彼此間相似程度的演算法,258 建立完資料 後稍晚合併到回應性資料裡面,此變項為一連續變數。
選民的政策理想點(政策意向)方面運用試題反應理論(item response theory)
中對應不同試題類型,包含 graded response、單選題 2PL(二參數)、nominal response 等模型針對多個問卷中的政策意向問題構面縮減得出的特徵分數方式 處理(類似因素分析或主成分分析,因素分析、主成分分析只適用於觀察對象為 連續變項,而試題反應理論適用於類別變項),但由於構面數未知,所以先使用 因素分析中探測因素個數的平行分析方法(使用的是 R 語言 psych 套件的 fa.parallel 函數259)以及hull 方法(使用 R 語言 EFA.MRFA 套件中的 hullEFA 函 數 260)。針對 2010 綜合問卷的填補資料集平行分析得到可能是 5-8 個因素或主 成分,2016 公民問卷平行分析結果是 21-27 個因素或主成分,Hull 方法分析 2016 公民問卷則是有12 個因素。利用因素或主成分探析個數分別先試建立項目反應 理論的探索性因素分析模型(過程加入事後反覆加權權重raking 調整),這些模 型的背景資訊如「附表 8」所示。使用的是 R 語言 mirt 套件的 mirt 函數。261 其 中 AIC、AICc、SABIC、HQ、BIC 的值是權衡模型不確定性指標,不確定性越 低意味著越能貼近真實情形,代表模型越適合。由於有五個指標以及分別填補的 資料集,在此比較後選擇能夠在多個指標勝出的模型與構面個數,因此這裡決定 2010 綜合問卷使用 6 個構面(因素)、2016 公民問卷使用 12 個構面(因素)。262
257 Marcello D'Orazio, CRAN - Package StatMatch: Statistical Matching or Data Fusion, available at https://cran.r-project.org/web/packages/StatMatch/index.html (last visited: Jun 10, 2020)
258 John. C. Gower, A General Coefficient of Similarity and Some of Its Properties, 27 BIOMETRICS 857(1971)
259 Revelle, psych: Procedures for Psychological, Psychometric, and Personality Research, 165 NORTHWESTERN UNIVERSITY,EVANSTON,ILLINOIS (2014)
260 David Navarro-Gonzalez&Urbano Lorenzo-Seva, CRAN - Package EFA.MRFA: Dimensionality Assessment Using Minimum Rank Factor Analysis, available at https://cran.r-project.org/web/packages/EFA.MRFA/index.html (last visited: Jun 22, 2020)
261 Chalmers, mirt: A Multidimensional Item Response Theory Package for the R Environment, 48 JOURNAL OF STATISTICAL SOFTWARE 1(2012)
262 例如 2016 公民問卷中,即便選擇較多的構面數,但也無法顯著提升可解釋變異比例。例如填
補資料集一選擇21 個構面時,未轉軸前的解釋變異比例分別是合計只有 0.364。在這種情況下
選擇較少構面反而較恰當。
在決定構面個數後則以varimax 轉軸方法取出特徵權重觀察模型的各試題鑑別度
(權重)與彼此關係並將構面命名,得到在2010 綜合問卷的六個構面分別命名
(權重)與彼此關係並將構面命名,得到在2010 綜合問卷的六個構面分別命名