第三章 研究設計與樣本資料分析
第一節 研究設計
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
19
第三章 研究設計與樣本資料分析
第一節 研究設計 一、共線性檢定
若 自 變 數 之 間 有 準 確 或 近 似 準 確 的 線 性 關 係 , 則 可 能 存 在 線 性 重 合
(multicollinearity)的情形,或稱爲多重共線性。當模型中自變數之間存在高度 線性重合問題時,迴歸係數會趨向於較大的標準誤,無法精確地估計系數值,使 模型估計結果缺乏穩定性。在此問題下,OLS 估計量之變異數與共變異數偏大,
有關總體參數的置信區間增大,以致更容易接受虛無假設,並且由於以上原因,
一個或多個係數傾向於統計上不顯著。
爲避免線性重合問題所導致的估計結果偏誤,本研究將採用相關係數矩陣與 變異數膨脹因子的方法,檢測選取之自變數是否存在線性重合的情況。
(一)相關係數矩陣(Correlation matrix)
檢定變數間一一對應之線性相關,其估計方式如下所示:
𝛾𝑥𝑦= ∑𝑛𝑖=1(𝑋𝑘,𝑖𝑡− 𝑋̅)(𝑌𝑘,𝑖𝑡− 𝑌̅)
√∑𝑛𝑖=1(𝑋𝑘,𝑖𝑡− 𝑋̅)2√∑𝑛𝑖=1(𝑌𝑘,𝑖𝑡− 𝑌̅)2
其中𝑋𝑘,𝑖𝑡與𝑌𝑘,𝑖𝑡爲第 i 個城市在第 t 期所對應之第 k 個自變數,𝑋̅與𝑌̅則爲自 變數之平均值,𝛾𝑥𝑦表示此兩自變數之相關係數。
(二)變異數膨脹因子(Variance inflation factors;VIF)
OLS 估計量變異數與共變異數增大的速度可由變異數膨脹因子度量:
𝑉𝐼𝐹𝑘= 1 1 − 𝑅𝑘2
其中𝑉𝐼𝐹𝑘爲第 k 個自變數之變異數膨脹因子,𝑅𝑘2則爲以第 k 個自變數爲依 變項,模型中其他自變數爲自變項所求得的判定係數(R-square)。當判定係數越 大時,𝑉𝐼𝐹𝑘與之俱增,此時第 k 個自變數就有可能與模型中其他自變數存在線性
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
20
重合,因此,𝑉𝐼𝐹𝑘較小爲佳。據 David G.Kleinbaum(1988)所示,𝑉𝐼𝐹𝑘以 10 爲 臨界點,若是一個自變數的 VIF 值超過 10,則可認爲與其他自變數有高度共線 性,容易使估計結果出現偏誤。與相關係數矩陣之差別在於,相關係數矩陣衡量 自變數之間彼此一一對應的線性相關程度,而變異數膨脹因子則是檢定自變數之 間一對多的線性相關問題。
二、追蹤資料模型設計(Panel data model)
對於追蹤資料的估計,一個極端策略是將其視爲截面數據直接進行混合迴歸,
即假設每個樣本個體都具有完全相同的迴歸方程。但這種方式忽略了城市間不可 觀測或被遺漏的異質性,而此異質性可能與解釋變數相關從而導致估計不一致。
另一種極端策略爲樣本中的每個城市估計一個單獨的迴歸方程,但是卻忽略了城 市間的共性,也極易受制於不足的樣本數量。
因此本文预计將採用個體效應模型(individual-specific effects model),首先 假設每個城市的迴歸方程具有相同的斜率,也有不同的反映城市間異質性的截距 項,追蹤資料模型迴歸方程如下:
𝑦𝑖𝑡 = 𝛼𝑖+ 𝛽1𝑋1𝑖𝑡+ 𝛽2𝑋2𝑖𝑡+ ⋯ +𝛽𝑛𝑋𝑛𝑖𝑡+ 𝑢𝑖𝑡 = 𝛼𝑖+ ∑ 𝛽𝑘𝑋𝑘,𝑖𝑡
𝑛
𝑘
+ 𝑢𝑖𝑡,
其中𝑦𝑖𝑡爲第 i 個城市在第 t 年的商品住宅價格;
𝑋𝑘,𝑖𝑡爲第 i 個城市在第 t 年所對應的第 k 個自變數;
𝛽𝑘則表示第 k 個自變數的迴歸係數;
𝛼𝑖表示該城市所具有的個體效應(individual effect),即爲不隨時間變化的異 質性(heterogeneity);
𝑢𝑖𝑡則爲第 i 個城市在第 t 年的隨機誤差,且滿足𝑢𝑖𝑡~𝑖𝑖𝑑. (0, 𝜎𝑢2)。
依據樣本資料性質,追蹤資料模型可分爲隨機效應模型(random effect model)
與固定效應模型(fixed effect model)。隨機效應模型假設母體內橫斷面差異較小,
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
21
相似程度高,模型允許各橫斷面有不同截距參數,因爲樣本中的個體源自隨機抽 取,所以將個體差異視爲隨機變數。固定效應模型則假設母體內差異較大,直接 以全部母體觀察所有橫斷面差異,模型中截距項包含橫斷面資料差異,被視爲固 定參數。如果模型截距項與自變數具有相關性,則可能有遺漏變數存在,容易產 生估計偏誤,因此以固定效應模型進行估計較爲合適。反之則以隨機效應模型爲 適當選擇。
無論是固定效應模型抑或是隨機效應模型,都可以對城市橫斷面個體效應、
不同年期時間效應,以及綜合個體效應和時間效應進行考量。依照考量者不同,
分爲一元固定效應模型(one-way fixed effect model)或一元隨機效應模型(one-way random effect model)與二元固定效應模型(two-model)或一元隨機效應模型(one-way fixed effect model)或 二元隨機效應模型(two-way random effect model)。
三、模型配適度檢驗
以判定係數 R²表示因變數被模型所揭示的比例稍顯不足,必須於追蹤資料 模型建立前,先經過相關檢定,從而確保模型配適程度。本研究擬採用 F 檢定、
LM 檢定、Hausman 檢定以及概似比檢定(likelihood ratio test)來進行檢驗。
(一)F 檢定(F Test)
F 檢定用以檢定每個個體的模型截距參數是否相等,判斷應該採用混合 OLS 迴歸模型還是追蹤資料模型。檢定之虛無假設爲個體模型截距參數相同,若檢定 結果拒絕虛無假設,則可以推斷個體模型之間的截距項有明顯差異,不應混合資 料並置於只有一個共同截距參數的單一模型中,而應選擇追蹤資料模型;反之,
則表示數據可視爲混合資料(pooled data),應採用混合 OLS 迴歸模型。
F 檢定統計量如下所示:
F= (𝑅𝑝𝑎𝑛𝑒𝑙
2 −𝑅𝑝𝑜𝑜𝑙𝑒𝑑2 )/(𝑛−1) (1−𝑅𝑝𝑎𝑛𝑒𝑙2 )/(∑𝑛𝑖=1𝑇𝑖−𝑛−𝑘)
其中𝑅𝑝𝑎𝑛𝑒𝑙2 爲使用追蹤資料模型之判定係數 R²,𝑅𝑝𝑜𝑜𝑙𝑒𝑑2 爲使用混合 OLS 模
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
22
型之判定係數 R²,n 爲城市數量,T 爲年數,k 爲自變數個數。
(二)LM 檢定(Lagrange Multiplier Test)
LM 檢定是 Breusch 與 Pagan(1980)設計用以檢驗資料中是否存在隨機個 體異質性、是否應當採取隨機效應模型的檢定方法。檢定之虛無假設爲不隨時間 改變的截距項爲同質變異;在虛無假設下,LM 統計量服從自由度爲 1 的卡方分 配。當檢定結果接受虛無假設時,說明截距項不具有隨機性,可以採用混合 OLS 模型;反之,則表明樣本資料中存在隨機個體差異,隨機效應模型是適當的。
LM 統計量爲:
LM = 𝑁𝑇
2(𝑇 − 1){∑𝑁𝑖=1(∑𝑇𝑡=1𝑒̂𝑖𝑡)2
∑𝑁𝑖=1∑𝑇𝑡=1𝑒̂𝑖𝑡2 − 1}
其中,n 表示城市數量,T 爲年數,𝑒̂𝑖𝑡2爲最小平方殘差值。
(三)Hausman 檢定
LM 檢定僅能確定包含相同截距項之混合 OLS 模型是否適用於樣本資料,
若檢定拒絕虛無假設,則說明樣本資料中存在隨機個體差異,卻無法證明隨機效 應和固定效應模型何者爲佳,需要藉助 Hausman 檢定加以判別。該方法由 Hausman(1978)提出,通過比較隨機效應模型和固定效應模型所估計的係數估 計值,檢驗模型中誤差組成要素 ui與自變數之間的相關性。若 ui與自變數之間 不存在相關性,則隨機效應和固定效應的估計值應該近似相等,此亦爲檢定之虛 無假設。其檢定統計量漸近服從卡方分配,具體形式如下:
H = (𝛽̂𝐹𝐸− 𝛽̂𝑅𝐸)′[𝑣̂𝛽̂𝐹𝐸− 𝑣̂𝛽̂𝑅𝐸]−1(𝛽̂𝐹𝐸− 𝛽̂𝑅𝐸)
其中𝛽̂𝐹𝐸爲固定效應模型估計值,𝛽̂𝑅𝐸爲隨機效應模型估計值,𝑣̂爲共變異數 矩陣估計值。
若檢定結果接受虛無假設,表示個別效果與自變數無關,應採用隨機效應模 型;反之,檢定結果拒絕虛無假設,則說明個別效果與自變數有關,採用固定效 應模型爲佳。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
23
(四)概似比檢定(likelihood ratio test)
概似比檢定是利用似然函數來檢測某個假設是否有效的一種檢定方法。一般 情況下,要檢測某個附加的參數限制是否是正確的,可以將加入附加限制條件的 較複雜模型的似然函數最大值與之前的較簡單模型的似然函數最大值進行比較。
如果參數限制是正確的,那麼加入這樣一個參數應當不會造成似然函數最大值的 大幅變動。一般使用兩者的比例來進行比較,以概似比為基礎可以構造一個服從 卡方分配的統計量。