第五章 政治上無力的實證研究設計與測量
5.3 資料來源、蒐集、處理與變數建立過程
5.3.3 集群分析法及民眾分群結果
關於受訪者資料如何建立受訪者所屬的群體身分方面,在先前的概念化過程 已經強調群體關係植基於多變項的重要性,因此此處的操作方式是針對多變項進 行集群分析方法(cluster analysis)將個體分群而歸類為不同群體的成員得出。集 群分析法的主要精神是在追求組內差異最小而組間差異最大,因為沒有事先已經 分好的群體標籤存在,因此又稱為非監督式學習的方法。透過集群分析法可以挖 掘資料中的潛在結構,對應本研究中也就是能夠處理群體身份交疊的問題以及瞭 解臺灣社會的深層結構。選取作為集群分析基準的變項包含性別、年齡、族群(自 我認同)、婚姻狀態、戶籍區域(中央研究院的分群結果命名為都會核心、工商 市區、新興市鎮、傳統產業市鎮、低度發展鄉鎮、高齡化鄉鎮+偏遠鄉鎮266)、 前述的綜合社經地位以及宗教信仰,選取這些指標的主要原因是:1.驗證前述 Ackerman 關於人口特徵佔人口比例越小的群體反而可能有利於組織動員的理 論;2.這些指標在兩份問卷都存在,且屬常見、重要且引起爭論的人口變項。因 為前述概念化過程認為群體身份與潛在特徵的關係中,外顯特徵各自有不同的權 重,所以這裡採用的分群方法採用模型導向分群法(model-based clustering),不 純粹以距離基礎(distanced-based)的分群法。前者通常假定群體特徵符合某種 機率分布,再藉由對照資料的機率分布型態去擬合最適當的模型;後者則是將資 料間以特定的距離演算法(例如歐式距離算法)先計算出資料間距離後,在進行 分群方法併行演算。由於涉及多個變項,每個變項各有不同的機率分布型態,混 合在一起後呈現什麼樣的機率分布、機率密度函數為何,牽涉到混合機率分布
(mixture distribution)的問題,而混合機率分布連結至涉及總群體中亞群體的存 在的機率模型,也就是統計學中的混合模型(mixture model)。根據後述「6.1 敘 述統計、資料分布情形」資料分布情形顯示,每一個變項都有不同的分布情形,
266 分層的方法其實也就是分群演算法,詳細過程可參見侯佩君(等著)(2008),〈臺灣鄉鎮市區
類型之研究:「臺灣社會變遷基本調查」第五期計畫之抽樣分層效果分析〉,《調查研究》第23
期。2010 綜合組問卷的分層方式請見該計畫報告書,章英華. (2014). 臺灣社會變遷基本調查 計畫2010 第六期第一次:綜合組(限制版)(R090044)【原始數據】.;2016 公民組問卷的分層方 式請見該計畫報告書,傅仰止. (2017). 臺灣社會變遷基本調查計畫 2016 第七期第二次:公民 與國家組(限制版)(R090057)【原始數據】.。
因此不適合選取有過強預設特定機率分配的分群方法(常見如高斯混合模型 Gaussian mixture model),又因為本研究的資料特性(如後面章節「6.1 敘述統計、
資料分布情形」所述),所以在選擇分群演算法時避免有「強機率分布假設」的 分群方法。本研究採用的分群方法kamila 分群方法(R 語言的 kamila 套件),267 是一種對於資料的機率分配性質預設較少的半母數 model-based 且又有 k-means 特性(距離為基礎,無母數特性)的分群方法,分群建立群體身份類別變項後,
將分群結果依照群體佔人口比例大小,重新依序編碼為1、2、3、4……等代表群 體1、群體 2、群體 3……,並且轉換為次序類別變項,這個變項意味著群體身份 之外,又附帶有人口數量特徵大小順序之別的內涵。
在針對二份問卷各24 個填補資料集進行集群分析後,根據演算法得到不同 的最適群體數目,同時分群結果也有所不同。這是由於資料填補時的隨機性以及 分群演算法本身並無標籤的特徵加上迭代計算起點不同而來,同時也因為並沒有 標籤的特性所以也沒有特定一套可以評估分群演算法優劣的標準,因此我觀察後 以「第一群集男>女、第一群集年齡小於零、第一群集社經地位大於零、第一群 集單身大於已婚、第一群集民間信仰大於沒有信仰、第二群集女>男」等項目為 指標並比較了不同的分群結果,以分群的內部穩定性與一致性決定各問卷的適合 分群數,如果這幾個指標都能夠表現一致,則具有穩定性。經選擇後決定 2010 綜合問卷群數4 個(指標彼此一致率 100%),2016 公民問卷群數 6 個(指標彼 此一致率100%)。從分群結果也可以發現人口比例最大的群體都是年齡最輕的,
年紀最大的群體都在第三個群體,而社經地位最高的群體往往也都是人口比例最 少的群體或第四個群體,分群結果如表 五-1 所示。
此處中我要說明一個研究限制,Kamila 套件沒有讓使用者輸入觀察值權重 調整的功能,因此這邊是先以膨脹觀察值到資料集的作法處理,受限於電腦硬體 功能限制,僅膨脹「10×事後反覆加權權重」的次數(例如一個權重為 0.5 的觀察 值,膨脹後變成5 個同樣內容的觀察值)。膨脹後進行集群分析,接著將分析結 果加回原本的資料集。然而分群結果在「有事後反覆加權」以及「沒有事後反覆 加權」的情況下,第二與第三群體的實際上人口比例會出現順序上的反差(未加 權時第二群體人口比例大於第三人口比例;事後反覆加權下第三群體人數大於第 二群體)。細節差異請見後述「圖 六-1:政治參與資料受訪者所屬群體分布比例
267 Alexander H. Foss&Marianthi Markatou, kamila: Clustering Mixed-Type Data in R and Hadoop, 83 JOURNAL OF STATISTICAL SOFTWARE 1(2018)
圖(套用事後反覆加權後,kamila 模型基礎分群方法)」與「圖 六-2:政治參與 資料受訪者所屬群體分布比例圖(套用事後反覆加權前,kamila 模型基礎分群方 法)」所示。因此在隨後分析以及推論時此部分會特別注意提出說明。編碼時都 還是以Kamila 套件的分析結果加上未加權前的資料處理。
各以一個填補後的資料集為例說明分群結果中各變項的關係如下所示(連續 變項為平均值,類別變項為機率)。
表 五-1:2010 綜合與 2016 公民問卷受訪者分群結果
問卷 2010綜
合 2016公
民
填補編號 2 1
群體編號 1 2 3 4 1 2 3 4 5 6
人口比例 0.304 0.296 0.256 0.145 0.256 0.181 0.160 0.151 0.149 0.102 年齡 -1.056(4) -0.217(3) 1.084(1) 0.166(2) -1.095(6) -0.060(4) 1.291(1) -0.428(5) 0.915(2) 0.040(3) 社經地位 0.202(2) -0.132(3) -0.963(4) 1.340(1) 0.255(3) -0.595(5) -1.269(6) 0.550(2) 0.069(4) 1.578(1) 男 0.588 0.400 0.429 0.642 0.558 0.404 0.407 0.384 0.635 0.591 女 0.412 0.600 0.571 0.358 0.442 0.596 0.593 0.616 0.365 0.409 台灣閩南人 0.706 0.696 0.749 0.604 0.685 0.603 0.781 0.769 0.613 0.569 台灣客家人 0.148 0.173 0.164 0.167 0.194 0.185 0.148 0.104 0.136 0.127 台灣原住民 0.018 0.023 0.014 0.007 0.030 0.069 0.028 0.022 0.007 0.025 大陸各省市(含港
澳金馬) 0.118 0.081 0.065 0.210 0.077 0.083 0.036 0.099 0.234 0.272 新移民 0.010 0.027 0.008 0.012 0.014 0.060 0.007 0.007 0.009 0.007 單身且從沒結過
婚 0.954 0.014 0.041 0.079 0.948 0.068 0.040 0.014 0.041 0.205 已婚且與配偶同
住 0.019 0.827 0.665 0.830 0.015 0.665 0.585 0.896 0.809 0.668 已婚但沒有與配
偶同住 0.008 0.028 0.023 0.016 0.005 0.026 0.026 0.049 0.027 0.005 同居 0.004 0.004 0.013 0.004 0.017 0.011 0.010 0.015 0.007 0.005 離婚 0.005 0.108 0.044 0.043 0.005 0.196 0.033 0.017 0.032 0.097 分居 0.004 0.005 0.021 0.004 0.004 0.019 0.006 0.004 0.013 0.009 配偶去世 0.006 0.013 0.195 0.023 0.005 0.014 0.299 0.006 0.070 0.011 都會核心 0.246 0.207 0.187 0.248 0.209 0.091 0.113 0.077 0.279 0.333 工商市區 0.266 0.212 0.244 0.386 0.277 0.091 0.228 0.399 0.441 0.406 新興市鎮 0.256 0.289 0.268 0.240 0.280 0.378 0.259 0.366 0.168 0.112 傳統產業市鎮 0.082 0.102 0.081 0.060 0.113 0.138 0.105 0.084 0.056 0.063 低度發展鄉鎮 0.112 0.130 0.161 0.036 0.103 0.237 0.218 0.064 0.042 0.062 高齡化鄉鎮+偏遠
鄉鎮 0.037 0.061 0.058 0.030 0.018 0.065 0.078 0.009 0.014 0.023 佛教 0.141 0.215 0.261 0.268 0.128 0.197 0.231 0.161 0.388 0.302 道教 0.151 0.145 0.177 0.184 0.178 0.151 0.140 0.143 0.133 0.147
問卷 2010綜
合 2016公
民
民間信仰 0.283 0.364 0.430 0.226 0.372 0.475 0.477 0.408 0.256 0.246 一貫道 0.023 0.038 0.014 0.018 0.017 0.013 0.020 0.029 0.029 0.004 天主教 0.007 0.024 0.011 0.008 0.012 0.016 0.011 0.004 0.022 0.012 基督教 0.032 0.039 0.025 0.083 0.046 0.031 0.034 0.066 0.068 0.101 沒有宗教信仰 0.356 0.162 0.073 0.210 0.243 0.107 0.067 0.185 0.100 0.183 其他,請說明 0.007 0.013 0.008 0.004 0.004 0.011 0.019 0.004 0.004 0.004 註:作者自製;括號內數字代表排序由高往低的排序