第三章 研究方法
第四節 計量迴歸分析工具之選擇
H01:遊覽車事故的「肇事地點」對於肇致死亡無統計學上的顯著性 H02:遊覽車事故的「事故種類」對於肇致死亡無統計學上的顯著性 H03:遊覽車事故的「疑似肇事原因」對於肇致死亡無統計學上的顯著性 H04:在 2006 年梅嶺交通安全事故之後,交通部所提出的改善行車安全
方案經實際執行結果,大型車交通安全事故肇致死亡無統計學上的 顯著性成效
第三節 資料搜集方式
本研究是蒐集自 2002 年至 2012 年 4 月間之國內遊覽車事故樣本共 129 筆,逐筆整理出事故死傷情況以及發生之原因、地點、事故種類以及 死傷人數。
其中自變項中的「肇事地點」大致上有下列四種:國道、省道、縣 道、山路,「事故種類」亦可分為:火燒車、追撞、擦撞或翻覆等四種,
而「疑似肇事原因」則概略可區分為:疲勞駕駛、酒駕、超速、未保持 安全距離、路況不熟、煞車失靈、機件故障、氣候濃霧、落石擊中車輛 或閃避障礙不及等十類,而依變項則為事故導致死亡與否(Probit 與 Logit 模型)或死亡人數(Poisson 與 Tobit 模型)。
第四節 計量迴歸分析工具之選擇
本研究以統計套裝軟體 SPSS 12 與 Eviews 6.0 來進行分析計算,最 主要是求得自變項與依變項之間的函數關係與相關機率函數估計模型。
51
Logit 模型是 Berkson (1944) 在從事生物學研究時,提出的一個轉換函 數,利用 ln〔p / (1-p)〕轉換結果,使得依變數的反應變量的對應值會落 在 0 與 1 之間,而不需對自變數做任何的限制。而後 Ashford (1959)提 出了應用最大概似法(Maximum likelihood)來估計 Logit 模型的參數,
成為估計該模式的最佳方法並廣被學界所採用。Pregibon (1981) 的研究 中 更 進 一 步 發 展 出 反 覆 加 權 最 小 平 方 法 ( Iteratively Re-weighted Least-Squares,IRLS)求取概似函數下的參數估計值。此方法則廣為目前 套裝統計軟體所採用。Truett et al. (1967) 首先將多變量分析代入 Logit 模型的使用,此一模式成為解決二分類反應變量問題的標準模式,並在 各領域中廣被使用。該模式可以明確的顯示出函數的特質,同時以 0(無 死亡)與 1(有死亡)為漸進值。
在迴歸模型下被解釋的變數(依變項)為 1 或 0 的二維選擇模型
(Binary choice model)中,通常以 1 代表某事件發生,0 代表某事件未 發生,我們仿照 Greene(2003)的說明,定義事件發生與不發生的機率 如下:
Prob( Y 1| ) x F ( x,β )
Prob( Y 0 | ) 1 x F ( x,β )
x 為一解釋變數向量,β 則為對應之係數向量。事件發生機率之估計可使
用簡單線性迴歸模式如下:
F
(x,β) = x β
由於
E Y
[ | ]x F
(x,β
) ,因此線性迴歸模型可寫為以下之形式:Y E Y
[ | ] (x Y E Y
[ | ])x x β
假設ε 為平均數為 0 的獨立隨機干擾項,在此模型設定下,僅有兩個值:
( )
F x,β
的機率為1 x β
及1 F
(x,β
)的機率為x β
。在線性迴歸模型下,觀52
53
Probit 模型與 Logit 模型的估計均可採取最大概似估計法(maximum likelihood method),首先寫出對數概似函數為:
Probit 模型: 景觀;Boyle et al.(1996)衡量美國獵麋許可證的價值;Alvarez-Farizo et
al.(1999)分析英國蘇格蘭地區因劃定環境敏感地區之非市場效益;吳
54 數(probability density function)可表示為
1
機變數(continuous random variable)之函數形式並不屬於機率密度函數,因此零觀察值之機率分配應視為累積分配函數(cumulative distribution function)。即當事故 i 的觀察值YiT等於零時,其實際事故死亡人數Yi*可能
55
一律帶入 Tobit 模型中分析。進而計算以 Tobit 模型估計而來的平均點估 計值,再以每個觀察點預測所得之事故死亡人數而後求其平均,做為平 均的點估計量,算式為
1
( ) ( )
n i i
E Y
E Y n
至於平均值的區間估計值之計算方式,如下式所示
2
1
[ ( )] ( )
2 SCI E Y E Y t
N
式中 S 為所有樣本點預測事故死亡人數的標準差。
本研究係以 Probit、Logit 模型來預測遊覽車事故是否會造成死亡,
由於樣本有時難以判斷是否為常態分佈,故比較預測常態分佈的 Probit 模型與預測 Logistic 分佈的 Logit 模型兩者,詳細驗證兩者分析之結果,
務求研究的準確性及可靠性。最後再以 Tobit 與 Poisson 模型求出遊覽車 事故造成死亡人數之預測估計模型,如此即可分析近十年來臺灣各次遊 覽車事故造成死亡之最主要因素為何。
由於遊覽車事故之死亡人數屬於整數計數資料 (integer count data),
故本文亦另外利用計數資料模型 (Count Data Model) 以卜瓦松迴歸模型 (Poisson regression model),推估遊覽車事故之各類成因對於事故死亡人數 的影響為何?
Poisson 迴歸模型相當廣泛應用於依變數為計數資料,而自變數為類 別或計量資料時。Poisson 迴歸模型是以 Poisson 分配為分析起點。簡言 之,為表示在單位時間內某事件發生次數之分佈狀況,Poisson 分配適合 解釋間斷且非負整數之可數資料,由於本研究探討遊覽車事故造成的死 亡人數,在被解釋變數之特色上,具有非負整數與大部分數值很小之兩 個特點,較適用於 Poisson 分配,故本研究選擇以 Poisson 迴歸模型作為 計量分析工具。
56
Poisson 分配模型(Poisson distribution model)的機率函數可以如下 表示:
( , ) , 0,1, 2,... , 1, 2,...,
!
i Yi
i
i i i
i
f Y e Y i n
Y
Poisson 迴歸模型是包含在廣義線性模型中一種計數反應值與迴歸因子間 具有某種相關性的一種模型。假設
Y
是具有 Poisson 分配的觀察值,且 我 們 有Y
1Y
n 個 計 數 觀 察 值 服 從n
個 獨 立 的 Poisson 分 配 , 其 中( )
i iE Y
而且迴歸因子x
i 透過以下的關係影響期望值, 1, 2,...,
xi
i
e
i n
其中
x
i 為解釋變數, ,
為迴歸係數。Poisson 分配模型具有下列兩 個特性:1. 在特定時間內某事件的發生彼此間互相獨立。
2. Poisson 模型的條件平均數等於其條件變異數,即
E Y x ( |
i i) ( ) x
i e
xi=Var( Y x
i|
i) , i 1, 2,..., n
因此 Poisson 迴歸的對數線性估計式為:log Y
i x
iPoisson 迴歸是一般線性模型的特例,其估計式與一般線性模型的差 別僅有左邊的 log,因此模型解釋與其他線性模型相同,當
係數為正
數時,代表x
自變數對依變數有正面的影響,反之亦然。底下以美國職棒大聯盟(Major League Baseball, MLB)全壘打王 Barry Bonds 為例,說明 Poisson 迴歸的應用。Barry Bonds 自 1986 年進入大聯 盟以來,累計 22 年共轟出 762 發全壘打,成為現階段的紀錄保持者,領
57
先第二名 Hank Aaron 的 755 轟有 7 轟之多,現役球員中僅有紐約洋基隊 的明星三壘手 Alex Rodriguez 至 2011 球季為止以 629 轟排名第 6。Barry Bonds 除了全壘打產量驚人外,亦是故意四壞球保送(Intentional Bases on Balls, IBB)的紀錄保持人,生涯累計 688 次故意保送亦是大聯盟之最。同 樣領先第二名的 Hank Aaron 多達 395 次,現役球員中聖路易紅雀隊的明 星一壘手 Albert Pujols 以 251 次名列第 4。現在我們以 Poisson 迴歸來預 測 Barry Bonds 全壘打(x)與故意四壞保送(Y)之間的關係。本例中我們以 故意四壞保送當作依變數,全壘打產量當作自變數,實證分析輸出結果 如下,可以看出 Barry Bonds 全壘打產量與故意四壞保送之間有高度顯著 相關。
係數 估計值 標準誤 z 值 Pr( >|z|)
截距(常數項) 2.472971 0.107247 23.06 <2e-16 ***
全壘打 0.026038 0.002503 10.40 <2e-16 ***
顯著水準: ‘***’ 0.01, ‘**’ 0.05, ‘*’ 0.1
根據上面檢定建立起 Barry Bonds 全壘打產量與故意四壞球保送之間的模 型如下:
log(Y)= 2.473 + 0.026 x (23.06) *** (10.40) ***
其中
值 0.026 為正且顯著,代表全壘打與故意四壞球保送間有正向的 關係。經過指數換算,我們得知當 Barry Bonds 每轟出一發全壘打就增加 1.026 (=exp(0.026038))次被保送的機會。58
又如當 Barry Bonds 該 球季 轟出 30 發 全壘打 時, 根據 模型以 log(Y)=2.473+0.026x 方程式計算 30 轟全壘打時的 log(Y),再利用指數將 log(Y)轉換為Y
=25.89621 我們可以估計該球季 Barry Bonds 被故意保送
的次數約為 26 次。而如果 Barry Bonds 轟出 31 轟,模型預測 Bonds 該季 被保送的次數為Y =26.57934,即約 27 次。
而估計模型的
值預測 Barry Bonds 每轟出一發全壘打就增加
1.026 的保送機會,從 30 轟被保送次數 25.896 成長到 31 轟時,預測 Bonds 被保送次數約為 26.992 (=25.89621+1.02638),與模型計算的結果約略相 當。準此,本文依上例以 Poisson 分配,推估遊覽車事故之各類成因對 於事故死亡人數的影響,其中依變數(Y)為計數資料-事故死亡人數,而自 變數(x)則包含一系列各類遊覽車事故之因素分類虛擬變數,如肇事地 點、疑似肇事原因、以及事故種類等。
59