• 沒有找到結果。

第三章 研究設計與方法

第三節 研究方法

一.Logistic廻歸模型

Logistic廻歸模型的基本形式和傳統的線性廻歸模型,都是在描述一個依變 數與多個自變數間的關係。但若廻歸模型之依變數呈現離散型或二分類之特性 時,將無法滿足傳統廻歸模型中依變數為連續性、呈常態分布之假設,此時傳統 廻歸模型可能就不適用。因此,當研究結果的依變數是離散型,其分類只有二類 或少數幾類時,Logistic廻歸分析就變成是很普遍的分析方法,不但適用於依變 數是屬於質化變數(非量化)的廻歸模型,且此模型利用累積機率密度函數將自 變數的實數值轉為機率值,可克服自變數須服從常態分配的假設,而且可進一步 估計事件發生的機率。

Logistic廻歸模型是由線性機率模型(Linear Probability Model,LPM)引申 而出,該模型只要求每個自變數不能是其他自變數的完全線性組合,並且自變數 不能與誤差項相關。其自變數可以是連續的,也可以是二元型的,然依變數卻必 須是連續的,正因為如此,當欲研究的依變數是一個分類變數(categorical variable)而不是連續變數時,線性機率模型的估計和預測會存在下列問題:

一. 由於在線性機率模型中殘差的異質性,參數估計的變異數將是有偏的。

因此,任何假設檢驗都是無效的,即使樣本很大也如此。

二. 由線性機率模型估計的事件機率值在遇到很大或很小的xi值時可能會超 出﹝0, 1﹞區間。

三. 線性機率模型中自變數與依變數是呈線性的關係,亦即不論xi取任何 值,其廻歸係數都應是常數,然在LPM中其截距和斜率對所有xi值並非 常數。

因此,以二元變數作為因變數的線性機率模型,在自變數與事件發生機率之

間存在非線性關係。而LPM不能擬合這種非線性關係,於是出現了非線性廻歸模 型。

為了使因變數之估計機率值均落於﹝0, 1﹞之間,學者提出利用logistic機率 密度函數作一次單調轉換(Monotonic Transformation),以保證機率值落在﹝0, 1﹞

之間,此一模型即為Logistic廻歸模型。其模型如下:

假設Y為一二分類變數,事件發生時為 1,事件不發生時為 0;令Zi

β

′ Xi , 為一過渡隨機變數,且服從logistic分配,函數圖型如圖 3.1:

事件發生的機率定義為

p

i,可得到下列 logistic 模型

這個比例被稱之為事件發生比(the odds of experiencing an event),簡稱為 odds,

odds 一定為正值,因為 0< <1。進一步將 odds 取自然對數就能得到一個線性

稱為 logit form,這一轉換的重要性在於,logit (y)有許多線性模型的特質,logit (y) 對其參數而言是性線的,並且與x有關,值域為負無窮到正無窮。因此,Logistic

p =

i zi

logistic 函數

二.Logistic 廻歸模型的適合度(Goodness of fit)

1989 年,Hosmer 和 Lemeshow 研發了一種對 Logistic 廻歸模型擬合優度的 檢驗方法。這種方法是根據模型預測機率值將資料分成大致相同規模的 10 個 組,而不管模型中有多少共變類型,將觀測資料按其預測機率做升序排序,其中 第一組包含預測機率最小的所有觀測資料,而最後一組包含預測機率最大的所有 觀測資料。

Hosmer-Lemeshow(HL)指標是一種類似於 pearson 統計量的指標。它可 從觀測頻數和預測頻數構成的 2×G 交叉表中求得,其統計式如下:

χ

2值統計顯著表示模型擬合不佳。

三.Logistic 廻歸模型參數估計及檢定

Logistic廻歸透過最大概似估計法(MLE)求出漸近不偏且有效

(asymptotically unbiased and efficient)的參數估計值,進一步針對個別參數之最 大概似估計值進行Wald統計量檢定。當眾多自變數被放入Logistic廻歸模型時,

四.Logistic廻歸模型的區別正確性

對於評估Logistic廻歸模型的預測準確性有多種方法,本研究採用Logistic廻 歸模型被廣泛應用的分類表(Classification Table)來評估。分類表是透過比較預 測的事件機率和設定的機率切點(cutpoint),將案例分成預測事件發生或不發生,

一旦所有觀測樣本被分為兩群,便可計算出事件發生或不發生的頻數,以建立一 2×2的交叉表來比較預測情況和實際觀測的情況,這就是所謂的「分類表」。進

一步,經由表中分類的情形可以計算此切點下的敏感度(sensitivity)與精確度 (specificity)。若切點變動則分類結果亦變動,因此敏感度與精確度也隨之改變。

利用預測機率作為分類指標,機率值越高則代表事件發生的風險(risk)越 高。我們使用預測機率作為切點,計算出所有分類表的敏感度與精確度,如果我 們分類的目標是找出最佳切點,我們可以將敏感度與精確度繪製在同一張圖表 上,選擇一個切點同時使敏感度與精確度最大時(即敏感度=精確度),此點的預 測機率即為最佳切點(optimal cutpoint)。當「sensitivity」對應「1-specificity」繪 圖時,得到操作特性曲線 (ROC curve),曲線下方面積是該模型區別分類能力的 指標,以C值表示,當C值越大表示該模型分類能力愈佳。

五、Kolmogorov-Smirnov 檢定法

統計分析上,對於實際次數分配與理論分配是否配合適當的問題,是屬適合 度檢定問題,可依 Kolmogorov-Smirnov 檢定法(簡稱 K-S 檢定法)進行。而 K-S 檢定法亦可用於特定階層之樣本與母體比例的比較,或檢定兩個樣本之分配是否 一致。

本研究為驗證模型區別逾期戶之有效性,在模型預測全體樣本之逾期機率 後,將全體樣本依逾期戶與非逾期戶分為兩組樣本,並以 K-S 檢定法檢定該兩 組樣本之逾期機率分配是否有顯著差異。其檢定統計量如下:

D = max│Fd(x)-Fn(x)│~

χ

g22

其中Fd(x)為逾期戶之累積機率,Fn(x)為非逾期戶之累積機率,而其自由度為g-2,

g表分組數。若D大於相對應之卡方值,亦即p-value低於顯著水準α ,則表示該 模型能有效區別此兩組樣本。

第四章 實證分析

(27.5%) (34.3%) (61.8%) 1,588 826 2,414 逾期戶 (25.13%) (13.07%) (38.2%)

odds

0.914 0.381 0.618

3,326 2,994 6,320

(11.71%) (19.68%) (18.37%) (17.75%) (14.22%) (9.51%) (5.7%) (3.05%) (100%)