第三章 研究設計
第二節 研究方法
本研究主題為「以空間分析探討 2014 九合一縣市長選舉青年因素與民進黨獲 票之關係」,探討各縣市青年分布情況與九合一選舉「民進黨獲票率」以及與上一 屆選舉獲票率相減計算出的「獲票率差」在空間上的相關性。因此本研究將透過「空 間分析方法」進行探討。而空間分析方法又可以依其性質可以分為「地理視覺化」
(Geographic Visualizations)「空間統計」(Spatial Statistic)與「空間計量」(Spatial Econometrics)。
壹、 視覺化呈現(Geographic Visualizations)
「地理視覺化」(Geographic Visualizations)利用展示方法探索資料的空間特性,
從探索過程或結果中發掘新的問題、新的解決方案,或是建構新知識的方法 (Kraak, 2003)。其透過 3D 或者平面地圖呈現以處理空間問題,而非只是抽象的屬性資料 (Gennady L. Andrienko、 Natalia V. Andrienko, 1999)。透過地圖繪製(Mapping),可 以依照一定的地理位置、排列順序作圖面上的呈現,專注於探索與地理現象有關的 時間、空間議題 (Stuart K. Card、Jock D. Mackinlay、Ben Shneiderman, 1999)。而 本研究即是探討民進黨獲票率增減以及青年因素在空間分布特性,因此適用「地理 視覺化」。以不同的角度觀察資料表並找出隱藏的資料特徵如資料關聯性、空間分 布 或 是 趨 勢 (Mark Gahegan, Monica Wachowicz, Mark Harrower ,Theresa-Marie Rhyne, 2001)。在本研究中以鄉鎮市區為研究基本單位,多以「台灣 358 鄉鎮市區」
面範圍為底圖,透過 GeoDa 軟體中的分位圖(Quantile Map)、標準差圖(Standard Deviation Map)來作呈現。
分位圖(Quantile Map):分位圖是透過將變數資料依大小順序分為 n 等分,
各等分以漸層色系呈現在地圖上,而漸層深淺表示大/小。
標準差地圖(Standard Deviation Map):標準差地圖為以平均值做為中心,
加減一個到三個的標準差將變數資料分為六群以不同顏色表示於地圖上。
然而,誠如美國學者 Mark Monmonier 在其著作的《地圖會說謊》(How to Lie with Maps)中提到,儘管可以將抽象的數據轉換成人們可以一目了然的示意圖,但 不管是任何地圖形式都可能因為資料概括或者在製圖時使用方法不適當、粗心、故 意操控數據、時間不一致以及圖像無法真切表達作者理念等造成讀圖者的錯覺因
而誤導 (Mark Monmonier, H. J. de Blij, 1996),因此接下來透過空間探索分析,從 數據資料進行數據分析並做出統計圖表。
貳、 空間探索分析(Exploratory Spatial Data Analysis)
空間探索分析(Exploratory Spatial Data Analysis)為透過空間統計工具,將數據 資料中的空間效應加以量化及顯示,常用的工具有直方圖、盒狀圖、散佈圖、
Moran’
s I
散佈圖,LISA地區自相關分析 (local indicators of spatial association)等。空間探索分析主要加入了兩個重要概念,分別為「空間自相關」與「空間異質」。 一、 空間自相關(Spatial Autocorrelation)
「空間自相關」的定義為「若一個郡的表現值與其鄰近郡的表現值更相似或不 相似時,則此時存在空間自相關現象」 (Cliff, A.D. and Ord, J.K., 1973)。1970 年代 Tobler 提出「地理學第一定律」(first law of geography),即「每件事情都與其他每 件事情相關,但比較近的事情會比較遠的事情來得更有關係」(All attribute values on a geographic surface are related to each other, but closer values are more strongly related than are more distant ones.) (Tobler, 1970)點出鄰近地區影響的重要性。而空 間自相關包含兩種情況─與鄰近地區表現值差異小、與非鄰近地區表現值差異大,
此為「正空間自相關」,亦即空間聚集(Spatial Clustering);反之,與鄰近地區表現 值差異大、與非鄰近地區表現值差異小,為「負空間自相關」,亦即空間離散(Spatial Dispersion) (Haggett, P., Cliff, A. D. and Frey, A., 1977)。而當中便出現了「鄰近」與
「非鄰近」的定義問題,若界定的標準不同即會產生不同的結果。常用的方法是以
「相鄰性」(Contiguity)為標準,以「共同邊界」作為判斷依據,若地區間有共同邊 界即認定為「鄰近」,否則認定為「非鄰近」。亦可以距離為門檻,方圓一距離內 之地區稱為「鄰近」,距離之外地區為「非鄰近」。或者以距離最近的 K 個單位 (K-nearest)定義鄰近地區,而 K 為自訂常數。透過這些判斷基準,便可以找到一地 的鄰近區與非鄰近區。當然,鄰近區數量可能為零,如同海中之一島嶼,其因大海 阻隔,因此不與其他地區鄰近。
經過釐清「鄰近地區」的定義後,接著是其在方程式中的表現,稱為「鄰近變 數」。其值即是以各鄰近地區屬性變數的值加權平均而來。加權平均的方式可以為 算術平均數,即以相同權數計算之。亦可以其他變數如共同邊界長度、核心點距離、
社經變數相似度加權計算,原始變數以 Y 表示,鄰近變數以 WY 表示。常用的計 Moran’s I 值觀察不同鄰近定義對 Moran’s I 值的影響,即 Correlogram 圖,依距離 大小作排序 Moran’s I 值將趨近於 0。
立。比較 Z 值大小,則可比較空間自相關程度的大小。
而 Moran’s I 指數關心的是整體(Global)的空間自相關趨勢,若想比較一地 區與其鄰近地區的差異時,可以利用「區域空間自相關」(Local Indicators of Spatial Autocorrelation, LISA)概念 (Anselin, Local Indicators of Spatial Autocorrelation─
LISA, 1995),衡量個別地區與其鄰近地區相關程度的指標,其方程式為式(4):
(4) 𝐼𝐼 = 𝑥𝑖−𝑥̅
∑𝑛𝑖=1(𝑥𝑖−𝑥̅)2∑𝑛𝑗=1𝑤𝑖𝑗(𝑥𝑗− 𝑥̅)
Local Moran’s I 的顯著性檢定與 Global Moran’s I 類同。亦可透過標準化 檢定後作為比較空間自相關依據。通常有些地區的空間自相關現象比較明顯,其他 地區則不是那麼明顯。
本研究將透過 GeoDa 繪製 1.直方圖(histogram)、2.箱型圖(box plot)、3.散布圖 (scatter plot)、4. PCP 圖(Parallel Coordinate Plot)、5. Moran’s I 圖、6..Lisa 圖觀察 此二變數的空間分布特性,說明如下所列:
直方圖(histogram):直方圖是使用圖形來顯現數據分布的情況,透過 此圖可以看出變項數據的分布並可以找到歧異值。
箱型圖(Box Plot):箱型圖是一種用來呈現數據分布情況的統計圖,
可以顯示數據的分佈及偏斜的程度,亦顯示變數的最大值、最小值、
平均數、標準差、中位數、四分之三位數、四分之一位數等統計量。
散佈圖(Scatter Plot):散佈圖是瞭解變數與變數間關係最常見的做法,
並且可以計算相關係數。
Moran’s I 散佈圖:顯示探討變數的全域(整體)空間聚集的情況及顯 著性檢定。本研究藉由此圖展示民進黨獲票率、獲票率差整體空間聚 集情形與顯著性檢定。而此散布圖可分為四個象限並各具意義。位在 第一象限即表示某地區與其鄰近地區的表現相似,且呈現正向(+)趨 勢;位在第三象限則表示某地區與其鄰近地區的表現相似,但呈現負 向(-)趨勢。而位處這兩象限即呈現空間聚集現象,可說是「穩定區」。 而若在第二、四象限之情形,則表示地區與地區間差異甚大,未能觀 察出空間聚集現象,可說是「不穩定區」,屬空間例外。
LISA(Local Moran’s I Spatial Association)分析圖:可以顯示探討的 變數在單獨地區與其鄰近地區的相關關係及顯著性檢定。本研究即
針對單獨地區與其鄰近地區之民進黨獲票率差的空間聚集情形及顯 著性進行檢驗。
二、 空間異質性(Spatial Heterogeneity)
空間異質性是指一個特徵、事件或者跨區域的關係在空間上分布不均勻,描述 在 廣 泛 空 間 中 塊 狀 或 片 狀 分 布 的 過 程 或 事 件 (Anselin, Thirty years of spatial econometrics, 2010)。
本研究探討地方選舉中青年因素對於民進黨獲票的影響,然而以各地區分別 探索青年因素對於民進黨獲票率及獲票率差的關係,確實發現以縣市單位觀察有 些地區與總體趨勢並不相同,此即空間異質現象,如下圖 2 所呈現。探究空間異質 形成的原因,可能是因為地區差異造成該地區結果與總體趨勢有所不同。地區差異 可能是候選人因素如候選人特質、政績、年齡等,亦可能是其他我們尚未探討到的 因素所造成。
針對這些因素所造成的空間異質現象,並須透過特殊的模型加以處理。通常可 以透過逐一增加控制的變數試圖消除「空間異質」,亦即條件都一樣的話,就不應 該有任何地區表現特別「異質」。然而要控制所有的變數不是件易事。此外,可以 增加地區虛擬變數或者透過特殊的空間迴歸模型處理。本研究即嘗試透過將台灣 縣 市 分 為 北 、 中 、 南 、 東 四 區 設 定 虛 擬 變 數 以 及 使 用 地 理 加 權 迴 歸 方 法 (Geographically Weighted Regression,GWR)處理空間異質問題。
透過幾個空間探索方法觀察本研究探討的命題「青年因素與九合一縣市長選 舉」,可以發現在獲票率差在空間分布上具有空間自相關的特性,且發現獲票率差 與青年因素呈現正相關。此外,在進一步以縣市做類別製作散布圖,如圖 3,發現 青年因素對於獲票率差具有空間異質的現象,針對空間自相關以及空間異質的特 性是後續研究所要探討的。
圖 3 民進黨獲票率差與青年因素之散佈圖(以縣市為類別)
參、 空間迴歸分析(Spatial Regression Analysis)
常見的迴歸分析模型主要分為兩種,一為傳統迴歸模型(Classic),一種為空間 迴歸模型,其又可分為空間落遲模型(Spatial Lag Model, SLM)與空間落遲模型 (Spatial Error Model, SEM),主要處理空間自相關的問題。 在實務中,通常會先尋 找可能的自變數進行傳統迴歸分析,並檢查誤差是否具有空間自相關現象(即檢定 Moran’s I 值是否拒絕虛無假設)。如果誤差沒有空間自相關現象(即 Moran’s I 值接 受虛無假設),則傳統迴歸模型估計結果已具充分解釋力;如果誤差有空間自相關 現象(即 Moran’s I 值拒絕虛無假設),則需進行空間迴歸模型。
一、 傳統迴歸模型(Classic)
傳統迴歸模型是採最小平方法(Ordinary Least Square Estimation , OLS)來進行
估計,分析影響 2014 年九合一縣市長選舉之民進黨獲票率以及民進黨獲票率差變 異之因素,估計模型為:
(5) 𝑌𝑖 = 𝛼 + ∑ 𝛽𝑖𝑋𝐼 = 𝛼 + 𝛽1∗ 𝑋1+ 𝛽2∗ 𝑋2+ ⋯ + 𝛽𝑛∗ 𝑋𝑛+ 𝜀𝑖,𝜀𝑖~𝑁(0, 𝜎2)𝑌𝑖表示被解釋變數,即依變數;
𝛼表示截距項;
𝛽1、𝛽2… 𝛽𝑛表示迴歸係數;
𝜀表示隨機誤差
建立 OLS 迴歸模型,利用各項自變數解釋民進黨獲票率及獲票率差的變化,
當迴歸模型中誤差呈現隨機分布,即誤差獨立,則所選擇的自變數已足以解釋各陣 營獲票率的變化。如誤差不呈現獨立,則需要進一步以空間落遲模型或空間誤差模 型加以檢驗。
二、 空間落遲模型(Spatial Lag Model, SLM)
如果利用社經文化背景等變數進行傳統 OLS 迴歸分析後誤差呈現不獨立,即 表示這些變數無法充分解釋民進黨在 2014 年九合一選舉獲票率及獲票率差變化的 原因。而誤差不獨立的原因有可能是因為鄰近地區的表現產生鄰近效應擴散造成 的。為了檢驗空間鄰近效應的存在,可以藉由空間落遲模型來進行分析。空間落遲 模型用了一個空間上「落遲」的被解釋變數作為一般的解釋變數,此處的「落遲」
如果利用社經文化背景等變數進行傳統 OLS 迴歸分析後誤差呈現不獨立,即 表示這些變數無法充分解釋民進黨在 2014 年九合一選舉獲票率及獲票率差變化的 原因。而誤差不獨立的原因有可能是因為鄰近地區的表現產生鄰近效應擴散造成 的。為了檢驗空間鄰近效應的存在,可以藉由空間落遲模型來進行分析。空間落遲 模型用了一個空間上「落遲」的被解釋變數作為一般的解釋變數,此處的「落遲」