第四章 樣本分析與研究設計
第三節 實證模型
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
- 51 -
第三節 實證模型
一、選取實證模型
為了配合樣本型態和提高實證分析的準確性,本研究選用 Logistic 迴歸模型 作為本研究的實證模型。本研究欲了解影響房貸「違約與否」之因素,被解釋變 數屬於二元類別資料,其函數為非線性函數,若使用線性迴歸模型分析此類資料,
將產生誤差(王濟川與郭志剛,2010)。根據相關的文獻研究,當樣本為類別資 料時,使用區別分析、Logistic 迴歸模型或 Probit 迴歸模型較為適合。然而使用 區別分析時受其分析方法的限制,自變數必須為連續資料,但是本研究欲探討影 響房貸違約機率的因素同時包含連續與類別資料,所以排除區別分析的適用。
Logistic 和 Probit 迴歸模型皆適用於被解釋變數為類別資料,且自變數同時 存在連續與類別資料時。不過,Agresti(2002)指出,Logistic 迴歸模型的檢定 適合大樣本和小樣本的檢定,而 Probit 迴歸模型的檢定較適合大樣本的檢定。由 於本研究受限於房貸資料取得不易,所以資料屬於小樣本(565 筆),因此本研 究選用 Logistic 迴歸模型作為實證模型,分析各因素對房貸違約機率的影響。
二、Logistic 迴歸模型
線性迴歸是一普遍的計量分析模型,但是當被解釋變數不是連續性資料,而 是類別性資料時,例如有患病和無患病、當選和無當選、同意或不同意等等,就 不適合用線性迴歸分析。Logistic 迴歸模型被廣泛使用於被解釋變數為類別性資 料時,該模型適用於分析一個或多個連續或類別性質的自變數對類別性質的被解 釋變數的影響。
本研究之被解釋變數(Dependent Variable)為房貸是否違約,屬於類別變數
(Categorical Variable)而非連續變數(Continuous Variable),此時自變數與事件 發生機率之間存在非線性關係,因此使用 Logistic 迴歸模型(Logistic Regression Model)加以分析。模型設定如下:
令 yi=1 表示第 i 個觀察值為房貸違約者
yi=0 表示第 i 個觀察值為房貸無違約者
則第 i 個觀察值為房貸違約者的機率如式(4-3-1)所示:
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
- 52 -
P(𝑦
𝑖= 1|𝑋
𝑖) = 𝑃
𝑖=
1+𝑒𝑥𝑝(𝛼+𝛽𝑋𝑒𝑥𝑝(𝛼+𝛽𝑋𝑖)𝑖)
(4-3-1)
第 i 個觀察值為房貸無違約者的機率如式(4-3-2)所示:
P(𝑦
𝑖= 0|𝑋
𝑖) = 1 − 𝑃
𝑖=
1+𝑒𝑥𝑝(𝛼+𝛽𝑋1𝑖)
(4-3-2)
又兩者發生的機率比如式(4-3-3)所示:
𝑃𝑖
1−𝑃𝑖
= 𝑒𝑥𝑝(𝛼 + 𝛽𝑋
𝑖)
(4-3-3)房 貸 違 約 和 無 違 約 發 生 的 比 值 稱 為 事 件 發 生 的 比 率 ( The Odds of Experiencing an Event,odds,勝算比),為事件發生機率與不發生機率的比值。
因為 0<Pi<1,所以勝算比一定為正值。將勝算比取自然對數即可轉換為一個線性 函數如式(4-3-4):
ln (1−𝑃𝑃𝑖
𝑖) =
𝛼 + 𝛽𝑋
𝑖(4-3-4)
當有 K 個自變數時,公式(4-3-1)可擴展為式(4-3-5):
𝑃
𝑖=
𝑒𝑥𝑝(𝛼+∑𝐾𝑘=1𝛽𝑘𝑋𝑘𝑖)1+𝑒𝑥𝑝(𝛼+∑𝐾𝑘=1𝛽𝑘𝑋𝑘𝑖) (4-3-5)
同樣地,當有 K 個自變數時,公式(4-3-4)可擴展為式(4-3-6):
𝑙𝑛 (
1−𝑝𝑝𝑖𝑖
) = 𝛼 + ∑
𝐾𝑘=1𝛽
𝑘𝑋
𝑘𝑖 (4-3-6)p
𝑖= P(𝑦
𝑖= 1|𝑥
1𝑖, 𝑥
2𝑖, … , 𝑥
𝑘𝑖)
(4-3-7)其中 pi是指在給予特定自變數時,事件之發生機率,在本研究中有十個自變 數,包含契約屬性和借款人屬性。
三、模型的適當性(Adequacy)檢驗
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
- 53 -
(一) 擬合優度(Goodness of fit)指標
模型的擬合優度是指模型適合觀測資料的程度,如果模型的預測結果能夠與 對應的樣本實際結果有較高的一致性,則認為此一模型能有效地擬合資料。否則 將不能接受此一模型,需要重新設定。在包含連續變數的 Logistic 迴歸模型中 Hosmer-Lemeshow 指標(下以簡稱 HL)是被廣泛接受的擬合優度指標,所以本 研究採用 HL 作為判斷模型擬合優度的指標。HL 是一種類似於皮爾遜 χ(Pearson 2 χ2)統計量的指標,當χ2檢驗不顯著表示「不能拒絕模型很好擬合資料的假設」,
換句話說,模型很好地擬合資料。
(二) 類 R2指標(Analogous R2)
在線性迴歸中,R2 值表示模型中自變數對被解釋變數的解釋能力,但在 Logistic 迴歸模型中沒有相對應的統計指標。然而在 Logistic 迴歸模型中可以利 用 Nagelkerke R2當作類似 R2的指標,該指標亦可以表示自變數對被解釋變數的 解釋能力。
(三) 模型 χ2統計(Model chi-square Statistic)
模型 χ2 可以用來檢驗模型中自變數對被解釋變數的解釋能力是否顯著。模 型定義為零假設模型(即只包含常數項的模型)與所設模型在「-2 Log Likelihood」
值上的差異。模型χ2所檢驗的虛無假設是「除了常數項外的所有係數都等於零」, 若模型χ2顯著則拒絕虛無假設,認為自變數對被解釋變數有顯著的解釋能力。
四、係數顯著性檢定
Logistic 迴歸模型中 Wald 統計量可用來檢定自變數的係數顯著程度,其為自 由度為 1 的卡方分配。Wald 檢定值越大表示該自變數的作用越顯著,Wald 值的 計算如公式(4-3-7),β 為 Logistic 迴歸模型中自變數係數之估計值、S.E.為 β 之 標準差。
Wald = (
𝑆.𝐸.𝛽)
2(4-3-7)
五、多元共線性(Multicollinearity)診斷
王濟川與郭志剛(2004)表示 Logistic 迴歸模型對多元共線性十分敏感,而 且多元共線性基本上都會存在於模型之中,只是程度大小的不同。當多元共線性
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
- 54 -
程度不大時,Logistic 迴歸模型係數的估計基本上還是不偏且有效。但當多元共 線性程度過高時,易導致較大的迴歸係數的估計標準誤差。
本文藉由容忍度(Tolerance)判斷自變數間的多元共線性程度,容忍度計算 如公式(4-3-8)所示。容忍度的倒數稱為變異數膨脹因子(Variance Inflation Factor, VIF),VIF 亦是一個常用的多元共線性指標。
𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑒 = 1 − 𝑅
𝑥2𝑘 (4-3-8)其中𝑅𝑥2𝑘為 Xk 做為被解釋變數時與其他變數之間的確定係數,故當𝑅𝑥2𝑘很高 時,容忍度就會很低,表示對應的自變數與其他自變數之間存在高度相關,即存 在多元共線性的問題。Menard 於 1995 年提出容忍度小於 0.2 代表多元共線性問 題存在,而容忍度小於 0.1 則代表多元共線性問題嚴重(王濟川與郭志剛,2004)。
因此本文以容忍度 0.2 做為判斷多元共線性問題是否存在的標準。
‧
利率加碼最小為-2.25%,最大 5.75%,平均為 1.24%,利率加碼小於零表示借款 人取得的貸款利率比指標利率低,可能是政策性的優惠利率房貸。