國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
22
第四章 研究方法與設計
第一節 研究方法
藉由第三章第一節的討論得知,在複迴歸模型之下,係數(𝑏2)與𝑡值之對等
關係不一定存在。此外,若誤差並非來自常態分配,則𝑡2統計量也不一定是樞紐
統計量,僅在樣本數大時為近似樞紐統計量(asymptotic pivotal statistics)。為了 解使用係數做為統計量之可行性,本研究將使用蒙地卡羅方法(monte carlo method),透過 R 統計軟體(version 3.3.2)來模擬比較型一誤差機率及檢定力。
一、 資料生成以及型一誤差機率、檢定力計算方式
首先藉由設定的特定分配隨機產生數據,分別做為解釋變數值及誤差值,並 給定各解釋變數之真實參數值,進而產生反應變數值。將反應變數針對解釋變數 做迴歸得到觀察到的檢定統計量,並取絕對值作為臨界值。接著再以文獻中所介 紹之六種複迴歸係數排列檢定方法,將資料進行排列並建立其排列分配,進而計 算在排列分配中大於或等於臨界值之比例,並以此作為𝑝 − 𝑣𝑎𝑙𝑢𝑒。重複以上動作 N 次即可得出型一誤差機率及檢定力的一個估計值。詳細模擬流程如圖 4.1 所示。
二、 模擬結果評估方式
欲探討任一檢定方法之可行性,首先須先探討其型一誤差機率值是否呈現過 度膨脹,抑或過度縮水之情形。若模擬次數為 N 次,並給定顯著水準α = 0.05,
則預期檢定結果小於顯著水準之比例應為 5%。以 95%信賴區間的角度來看,若 該檢定方法所計算出之型一誤差機率值並未介於
(0.05 − 1.96 × √0.05×0.95
𝑁 , 0.05 + 1.96 × √0.05×0.95
𝑁 ) 區間內,則視該方法可能不適當。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
23
*註:𝑡2統計量之模擬流程亦同。
圖 4.1 模擬流程圖 產生資料
解釋變數 X 和 Z 以及誤差均由特定分配隨機產生 依給定之真實參數值計算反應變數值 Y
𝑌 = 𝛽0+ 𝛽1𝑋 + 𝛽2𝑍 + 𝑒
計算𝒃𝟐,𝒐𝒃𝒔 (觀察到的檢定統計量) 將反應變數 Y 對解釋變數 X 和 Z 做迴歸
得到最小平方參數估計值
並計算𝑏2,𝑜𝑏𝑠作為臨界值
建立排列分配 依據第二章所述的六種方法
分別將資料進行排列
以最小平方法計算參數估計值𝑏2𝜋值 重複執行 M 次
計算 𝒑 − 𝒗𝒂𝒍𝒖𝒆
計算𝑏2𝜋大於或等於𝑏2,𝑜𝑏𝑠之絕對值的比例 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = # {𝑏2𝜋| |𝑏2𝜋| ≥ |𝑏2,𝑜𝑏𝑠|}
𝑀 + 1
型一誤差機率 / 檢定力
計算資料數據集𝑝 − 𝑣𝑎𝑙𝑢𝑒小於顯著水準α的比例
# {𝑝 − 𝑣𝑎𝑙𝑢𝑒| 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < α}
𝑁
重複執行 N 次
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
24
第二節 研究設計
在以往的文獻中亦提及過類似的模擬研究,然而卻沒有同時比較這六種複迴 歸係數排列檢定方法,以及統計量若非使用樞紐統計量 (此處指的是𝑡2統計量)之 相關模擬。參考過去文獻的參數設定方式(如表 4.1),本研究之參數設計如下表 4.2 所示。
其中考量在排列檢定下,誤差分配並無限制必須來自標準常態分配的條件之 下,若分配結構不同,其模擬結果或許也有所差異。因此在本節的設定中,考慮 三種不同偏斜程度的分配作為誤差的分配結構,除了在執行迴歸分析時要求之標 準常態分配外,亦考量兩端極端值較多之厚尾分配(在此挑選自由度為 5 之 t 分
配),以及右偏之指數分配(在此將隨機產生之誤差開三次方,以凸顯該分配之
右尾特性)。
此外,我們也將解釋變數間之相關性納入考量。參考 Anderson and Legendre (1999) 之方法,將相關係數矩陣進行特徵值分解(singular value decomposition), 以計算相關係數矩陣平方根(square root of correlation matrix),進而與解釋變數 矩陣相乘,以產生具有相關性之新解釋變數值。詳細計算方式如下呈現:
令 𝑾 = (
𝑥11 𝑧12 𝑥21 𝑧22
⋮ ⋮ 𝑥𝑛1 𝑧𝑛2
) 為解釋變數矩陣,𝑹 = ( 1 𝑟12
𝑟21 1 ) = 𝑷𝑫𝑷𝑇 為 相 關 係 數矩陣,其中 P 為特徵向量(eigen vector),D 為特徵值(eigen value)對角線矩 陣。則 𝑹12 = 𝑷𝑫12𝑷𝑇 即為相關係數矩陣平方根,𝑾𝑹 = 𝑾𝑹1/2 即為具相關性之新 解釋變數矩陣。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
25
表 4.2 本研究之參數設計
重複模擬次數 3000
排列次數 999
樣本數 10, 30, 50
解釋變數 均勻分配 U(0, 3)
解釋變數間相關性 0, 0.8
誤差分配
標準常態分配 N(0, 1) 自由度為 5 的 t 分配 t(5) 指數分配三次方exp(1)3
𝛽0、𝛽1 1
𝛽2 0, 0.3, 0.75
‧
and Lane Kennedy ter Braak Levin and Robbins Oja
Anderson and Robinson (2001)
{2, 5, 10}
Type I Error with Non-Pivotoal
Statistics (using slope coefficient) ● ● ●
(using n-p) {12, 20, 40}
uniformly at values {1, 2, 3}
in a crossed 3*3 design {9, 18, 36, 54, Type I Error comparing t /
numerator / slope coefficient as statistics
Type I Error ● ●
Type I Error w/ and w/o Outlier ● ●
●
Anderson and Legendre (1999)
Issue X from square trend of Z
and mean-centred A.M. Winkler et al.
(2014)
Significance and Power ● ● 10000 {2}
{0.8}
O'Gorman (2005)
Power
𝒏 𝟐
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
27