• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第四節 羅吉斯迴歸分析

本節將本研究有使用到的技術分兩個部份來介紹,分別是羅吉斯迴歸分析 定義與虛擬變數的介紹。

一、 羅吉斯迴歸分析定義

羅吉斯迴歸(英語:Logistic regression 或 Logit regression),即邏輯模型(Logit model,也譯作「評定模型」、「分類評定模型」)是離散選擇法模型之一,屬於多 重變量分析範疇,是社會學、生物統計學、臨床、數量心理學、計量經濟學、市 場行銷等統計實證分析的常用方法。

使用羅吉斯迴歸時,依變相(Y)需是二元分類的變項,事件發生(Y=1)

的機率用符號 𝑝表示,機率值的範圍應在 0 與 1 之間。若以線性迴歸方程式來表 示,

E(Y = 1|X) = β0+ β1X1+ ⋯ + β𝑘X𝑘

表示在特定自變項(X)數值的情況下,預測或估計依變項 Y=1 的平均值,然 而在特定X 數值下,平均值的範圍有可能大於 1 或小於 0,為了避免碰到上述的 難題,將條件機率P(Y=1|X)作為羅吉斯轉換(Logistic or Logit transformation), 也就是事件發生(Y=1)的勝算(Odds of event)取自然對數。在此情況下,於特 定X 下,依變項(Y=1)的分佈是二項式分佈(Binomial Distribution),其平均值 為特定X 數值下,事件發生的條件機率,π(x) = P(Y = 1|X = x),即當 X=x 時,

Y=1 的機率。方程式如下:

𝑙𝑜𝑔𝑖𝑡 [𝜋(𝑥)] = log ( π(𝑥)

1−π(x)) = β0+ β1X1+ ⋯ + β𝑘X𝑘 (1) π(x) = eβ0+β1X1+⋯+β𝑘X𝑘

1+eβ0+β1X1+⋯+β𝑘X𝑘 = 1

1+e−(β0+β1X1+⋯+β𝑘X𝑘) (2)

第(1)式中,某一自變項的羅吉斯歸係數取指數後的值,我們稱它為勝算 比(Odds ratio),如自變項X1羅吉斯迴歸係數為β1,對羅吉斯迴歸係數β1取指數 後為eβ1(廖麗娜,2010)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

羅吉斯迴歸與線性迴歸相比具有許多獨特的優點,如對正態性和方差齊性 不做要求,對自變量類型不做要求、係數的可解釋性等。儘管羅吉斯迴歸應用如 此廣泛,但在具體使用中主要存在三個問題:資料的適合、適合度檢定及迴歸診 斷問題(馮國雙、陳景武、周春蓮,2004)。

(一) 資料的適合問題:

在應用羅吉斯迴歸方法前,首先應分析該資料用羅吉斯模型是否適合,這就 是資料的適合性問題。當迴歸模型的自變量為分類變數時,可以不必考慮線性關 係,但當自變量為連續型變數時,則需要檢驗兩者之間的線性關係是否成立,如 果不成立,應進行相應的變數變換,如對數變換、指數變換、多項變換等,使其 以恰當的方式進入方程式。嚴格來說,因為如果兩者之間的關係是非線性的,參 數估計將發生偏差,從而導致結果的不準確已及結論的不可靠。判斷自變量與 logit p 之間是否具有線性關係可用多種方法,而比較簡單的一種方法是在模型中 加入非線性項,從而判斷出自變量與logit p 是否有非線性關係。羅吉斯迴歸模型 對樣本含量有一定的要求,一般經驗認為,樣本規模至少應是自變量個數的 10 倍以上。當樣本含量過少時,估計的方程式會顯得不穩定,係數與標準誤的估計 也會使方程式變得無法解釋。

(二) 適合度檢定的問題:

建立模型並進行假設檢驗只說明了模型中的迴歸係數是否具有統計學意義,

但並不表明模型適合度的效果如何。適合度檢定檢驗結果出來,適合度的效果好,

所做出的結論才更符合事實,若效果不好,預測值與實際值差別較大,得出的結 論是不可靠的。然而,有在文獻中發現有文章所用的評價指標是判定係數R2,這 是不恰當的。R2是多元線性迴歸中經常用到的一個指標,表示應變量的變動中油 模型中自變量所解釋的百分比,並不涉及預測值與觀測值之間差別的問題。在羅 吉斯迴歸當中,評價模型適合度檢定的指標主要有 Pearson 卡方檢驗、偏差

(Deviance)、Homer-Lemeshow(HL)指標、AIC、SC 等。Pearson 卡方和 Deviance

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

用HL 指標則更為恰當。Pearson 卡方、Deviance 和 HL 指標值均服從卡方分佈,

當檢驗顯示無統計學意義(p-value>0.05)表示模型適合度檢定適合的好。而 AIC 與SC 指標還可用於比較模型的優劣,當適合多個模型時,可以將不同模型按其 AIC 和 SC 指標值排序,AIC 和 SC 值較小者一般認為適合得更好。

(三) 迴歸診斷問題:

即使資料符合羅吉斯迴歸應用的條件,所求模型的適合程度也不一定很好,

因為模型中很可能存在相關性較強的幾個變數或較為特殊的幾個樣本,從而影響 模型的適合度效果,這時就應該對模型進行多重共線性診斷以及離群值識別等。

羅吉斯迴歸與多元線性迴歸一樣也存在多重共線性問題,其診斷可以用容忍度

(Tolerance)、變異數 膨脹因素( Variance Inflation Factor, VIF )、 條件指數

(Condition Index)、變異比率(Proportion of Variation)等指標來表示。

二、 虛擬變數的介紹

變數可以分為可用數量表現的連續型變樹的數量變數,和無法定量度量的屬 性變數,如性別、職業、季節等。因此為了在模型當中能夠反映這些因素的影響,

並提高模型的精度,需要將他們量化,而這種量化通常是通過引入虛擬變數來完 成的。根據這些因素的屬性類型,構造只取0 或 1 的人工變量,通常稱為虛擬變 數(Dummy Variable)。如教育程度分為三個層次,高中以下、高中、大學及其以 上。這時需要引入兩個虛擬變量:(MBA 智庫文檔)

D1 = {1, 高中 0, 其他}

D2 = {1, 大學及其以上 0, 其他 } 模型可以寫為:

𝑌𝑖 = β0+ β1X1 + β2D1 + β3D2+ 𝜀

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

其中,高中以下的模型為:

E(Y𝑖|𝑋𝑖, D1 = 0, D2 = 0) = β0+ β1X1 高中的模型為:

E(Y𝑖|𝑋𝑖, D1 = 1, D2 = 0) = (β0+ β2) + β1X1 大學及其以上:

E(Y𝑖|𝑋𝑖, D1 = 0, D2 = 1) = (β0+ β3) + β1X1

是4:6 的狀態,在教育部統計處公布最新的數據顯示(University TW, 2017)國立 政治大學全校的男女比也將近4:6 的狀況,所以問卷結果是均衡的;年齡分布以

相關文件