羅吉斯迴歸分析 - 應用羅吉斯迴歸分析在個性化旅遊景點推薦模型之研究

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第四節羅吉斯迴歸分析

本節將本研究有使用到的技術分兩個部份來介紹，分別是羅吉斯迴歸分析定義與虛擬變數的介紹。

一、羅吉斯迴歸分析定義

羅吉斯迴歸（英語：Logistic regression 或 Logit regression），即邏輯模型（Logit model，也譯作「評定模型」、「分類評定模型」）是離散選擇法模型之一，屬於多重變量分析範疇，是社會學、生物統計學、臨床、數量心理學、計量經濟學、市場行銷等統計實證分析的常用方法。

使用羅吉斯迴歸時，依變相（Y）需是二元分類的變項，事件發生（Y=1）

的機率用符號 𝑝表示，機率值的範圍應在 0 與 1 之間。若以線性迴歸方程式來表示，

E(Y = 1|X) = β₀+ β₁X₁+ ⋯ + β_𝑘X_𝑘

表示在特定自變項（X）數值的情況下，預測或估計依變項 Y=1 的平均值，然而在特定X 數值下，平均值的範圍有可能大於 1 或小於 0，為了避免碰到上述的難題，將條件機率P（Y=1|X）作為羅吉斯轉換（Logistic or Logit transformation），也就是事件發生（Y=1）的勝算（Odds of event）取自然對數。在此情況下，於特定X 下，依變項（Y=1）的分佈是二項式分佈（Binomial Distribution），其平均值為特定X 數值下，事件發生的條件機率，π(x) = P（Y = 1|X = x)，即當 X=x 時，

Y=1 的機率。方程式如下：

𝑙𝑜𝑔𝑖𝑡 [𝜋(𝑥)] = log ( ^π(𝑥)

1−π(x)) = β₀+ β₁X₁+ ⋯ + β_𝑘X_𝑘 (1) π(x) = ^eβ0+β1X1+⋯+β𝑘X𝑘

1+eβ0+β1X1+⋯+β𝑘X𝑘 = ¹

1+e−(β0+β1X1+⋯+β𝑘X𝑘) (2)

第（1）式中，某一自變項的羅吉斯歸係數取指數後的值，我們稱它為勝算比（Odds ratio），如自變項X1羅吉斯迴歸係數為β₁，對羅吉斯迴歸係數β₁取指數後為e^β¹（廖麗娜，2010）。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

羅吉斯迴歸與線性迴歸相比具有許多獨特的優點，如對正態性和方差齊性不做要求，對自變量類型不做要求、係數的可解釋性等。儘管羅吉斯迴歸應用如此廣泛，但在具體使用中主要存在三個問題：資料的適合、適合度檢定及迴歸診斷問題（馮國雙、陳景武、周春蓮，2004）。

（一）資料的適合問題：

在應用羅吉斯迴歸方法前，首先應分析該資料用羅吉斯模型是否適合，這就是資料的適合性問題。當迴歸模型的自變量為分類變數時，可以不必考慮線性關係，但當自變量為連續型變數時，則需要檢驗兩者之間的線性關係是否成立，如果不成立，應進行相應的變數變換，如對數變換、指數變換、多項變換等，使其以恰當的方式進入方程式。嚴格來說，因為如果兩者之間的關係是非線性的，參數估計將發生偏差，從而導致結果的不準確已及結論的不可靠。判斷自變量與 logit p 之間是否具有線性關係可用多種方法，而比較簡單的一種方法是在模型中加入非線性項，從而判斷出自變量與logit p 是否有非線性關係。羅吉斯迴歸模型對樣本含量有一定的要求，一般經驗認為，樣本規模至少應是自變量個數的 10 倍以上。當樣本含量過少時，估計的方程式會顯得不穩定，係數與標準誤的估計也會使方程式變得無法解釋。

（二）適合度檢定的問題：

建立模型並進行假設檢驗只說明了模型中的迴歸係數是否具有統計學意義，

但並不表明模型適合度的效果如何。適合度檢定檢驗結果出來，適合度的效果好，

所做出的結論才更符合事實，若效果不好，預測值與實際值差別較大，得出的結論是不可靠的。然而，有在文獻中發現有文章所用的評價指標是判定係數R²，這是不恰當的。R²是多元線性迴歸中經常用到的一個指標，表示應變量的變動中油模型中自變量所解釋的百分比，並不涉及預測值與觀測值之間差別的問題。在羅吉斯迴歸當中，評價模型適合度檢定的指標主要有 Pearson 卡方檢驗、偏差

（Deviance）、Homer-Lemeshow（HL）指標、AIC、SC 等。Pearson 卡方和 Deviance

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

用HL 指標則更為恰當。Pearson 卡方、Deviance 和 HL 指標值均服從卡方分佈，

當檢驗顯示無統計學意義（p-value>0.05）表示模型適合度檢定適合的好。而 AIC 與SC 指標還可用於比較模型的優劣，當適合多個模型時，可以將不同模型按其 AIC 和 SC 指標值排序，AIC 和 SC 值較小者一般認為適合得更好。

（三）迴歸診斷問題：

即使資料符合羅吉斯迴歸應用的條件，所求模型的適合程度也不一定很好，

因為模型中很可能存在相關性較強的幾個變數或較為特殊的幾個樣本，從而影響模型的適合度效果，這時就應該對模型進行多重共線性診斷以及離群值識別等。

羅吉斯迴歸與多元線性迴歸一樣也存在多重共線性問題，其診斷可以用容忍度

（Tolerance）、變異數膨脹因素（ Variance Inflation Factor, VIF ）、條件指數

（Condition Index）、變異比率（Proportion of Variation）等指標來表示。

二、虛擬變數的介紹

變數可以分為可用數量表現的連續型變樹的數量變數，和無法定量度量的屬性變數，如性別、職業、季節等。因此為了在模型當中能夠反映這些因素的影響，

並提高模型的精度，需要將他們量化，而這種量化通常是通過引入虛擬變數來完成的。根據這些因素的屬性類型，構造只取0 或 1 的人工變量，通常稱為虛擬變數（Dummy Variable）。如教育程度分為三個層次，高中以下、高中、大學及其以上。這時需要引入兩個虛擬變量：（MBA 智庫文檔）

D₁ = {1, 高中 0, 其他}

D₂ = {1, 大學及其以上 0, 其他 } 模型可以寫為：

𝑌_𝑖 = β₀+ β₁X₁ + β₂D₁ + β₃D₂+ 𝜀

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

其中，高中以下的模型為：

E(Y_𝑖|𝑋_𝑖, D₁ = 0, D₂ = 0) = β₀+ β₁X₁ 高中的模型為：

E(Y_𝑖|𝑋_𝑖, D₁ = 1, D₂ = 0) = (β₀+ β₂) + β₁X₁ 大學及其以上：

E(Y_𝑖|𝑋_𝑖, D₁ = 0, D₂ = 1) = (β₀+ β₃) + β₁X₁

‧

是4:6 的狀態，在教育部統計處公布最新的數據顯示（University TW, 2017）國立政治大學全校的男女比也將近4:6 的狀況，所以問卷結果是均衡的；年齡分布以

在文檔中應用羅吉斯迴歸分析在個性化旅遊景點推薦模型之研究 - 政大學術集成 (頁 32-36)

羅吉斯迴歸分析

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四節 羅吉斯迴歸分析

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

立政治大學

第四節羅吉斯迴歸分析

立政治大學

立政治大學

立政治大學