R軟體資料分析應用 : 線性迴歸診斷

(1)

R 軟體資料分析應用：線性迴歸診斷

鄭哲宇副統計分析師迴歸分析是統計學中非常重要且實用的方法，能夠建立數學模型來描述我們觀察或蒐集到的資料中，當自變數(Independent Variable) 變動時，依變數 (Dependent Variable)的變數的變化量。因此使用迴歸模型，我們可以解釋自變數與依變數間的關係，或者使用迴歸模型來預測依變數的變化。在 30 及 32 期的 eNews 當中，分別介紹了簡單線性迴歸以及多變項迴歸分析，我們學會使用 R 軟體建立一個或多個自變數的迴歸模型，並且解讀模型的意義。然而，在建立一個迴歸分析模型後，我們要如何確定該模型是精確且合適的呢？這時我們必須注意到迴歸分析模型有幾個基本假設，若模型不能符合以下幾個假設，則迴歸模型的精確性會大大受到質疑。本期 eNews 將使用 R 軟體來介紹，判斷迴歸模型是否符合模型基本假設的方法及常用檢定。本文將使用R 軟體內建之資料檔 mtcars 作為診斷迴歸模型之範例，此檔案已內建於R 軟體中不須額外下載或載入，若要觀看資料檔，可輸入下列程式碼。

(2)

(3)

一、迴歸模型共線性診斷

在建構包含多個自變項的多變項迴歸模型時，若自變項之間存在高度相關性，則可能造成下列問題： 1. 個別變項迴歸模型檢定顯著，但多變項迴歸係數檢定為不顯著。 2. 個別變項迴歸模型和多變項迴歸模型對同一預測變數，迴歸係數估計值差異過大。 3. 個別變項迴歸模型和多變項迴歸模型對同一預測變數，迴歸係數估計值正負號相反。以上所產生之不合理現象，稱為「共線性問題」(Multicollinearity)。為預防迴歸模型存在共線性問題，我們可以使用變異數膨脹因子(Variance Inflation Factor， VIF) 判斷解釋變數間是否存在高度多重共線性，其方程式如下： 𝑉𝐼𝐹𝑖 = 1 1 − R2_i (4) 其中，𝑉𝐼𝐹_𝑖為第i 個解釋變數之𝑉𝐼𝐹值; 𝑅_𝑖2為將第i 個解釋變數視為反應變數，其他變數當成解釋變數建立迴歸模型，所得之判定係數。本文範例將使用 mtcars 資料集建立多變項迴歸模型後，對模型進行共線性診斷。範例程式碼如下：

(4)

【R 程式】

【分析結果】

由程式執行結果可知，本文所建立之迴歸模型中各自變數之 VIF 值。一般判斷共線性問題之標準為，若VIF 值≥10，則認為自變數間存有共線性問題。本文範例中自變數 cyl, disp, wt 之 VIF≥10，存在共線性問題，必須考慮移除上述變數或對模式進行矯正。

移除變數之方法，可依據變數之 VIF 值，由高至低逐一移除 VIF 最高的變數後，重新建立模型並計算剩餘變數之VIF 值，直到所有變數之 VIF 值皆<10，則可確認迴歸模型不存在共線性問題。以下為範例逐一移除 VIF 最高變數後之模型結果。

(5)

(6)

二、簡易殘差分析

在迴歸模型中，若預測模型是合適的，那麼預測誤差應該要呈現隨機的分配、不存在系統性變化。使用殘差圖(Residuals Plot) 可以初步的檢視殘差是否符合基本假設。在R 軟體中，透過 plot()函數能夠輕易的畫出四張殘差圖形，其方法如下列程式碼。【R 程式】

(7)

【分析結果】由上列圖形可以大略判斷範例模型的殘差 1. 不存在系統性的模式，而是隨機分布。 2. 符合同質變異(Homoskedasticity)，即殘差間具有相同的變異數。 3. 大致否符合常態分配。 4. 不存在特別明顯的離群值。

(8)

三、迴歸模型基本假設之檢定

殘差圖形能夠初步判斷模型是否符合假設，然而若我們想要進一步用更精確的方法來確定模型究竟是否符合假設，那麼使用檢定方法來驗證能夠更加有說服力，以下列出較常使用之迴歸模型基本假設之檢定。 1. 殘差服從常態分配前面有提到若模型是合適的，則預測的誤差應該要呈現隨機而非特定模式。因此我們可以藉由模型殘差來確認，若模型殘差並不符合常態分配，則認為模型並不符合基本假設。 Shapiro-Wilk 檢定常用於常態性檢測，其檢定假為： 𝐻₀: 資料服從常態分配 vs. 𝐻₁: 資料服從常態分配 2. 變異數同質性合適的迴歸模型，殘差的變異數應該要一致，而非呈現系統性變化。在R 軟體中，可使用 car 套件中的 ncvTest()函數來作檢定，其檢定假設為： 𝐻₀: 殘差變異具同質性 vs. 𝐻₁: 殘差變異不具同質性 3. 殘差獨立性基本模型中假設殘差之間是互相獨立的，否則若殘差存有自我相關性時，MSE 會嚴重低估誤差項的變異數。殘差獨立性常用的檢定方法為 Durbin-Watson 檢定，其檢定假設為： 𝐻₀: 殘差變異具同質性 vs. 𝐻₁: 殘差變異不具同質性上述三個假設皆是迴歸模型的基本假設，也就是說唯有當殘差「同時滿足」這三個條件時，迴歸模型才能夠被確認為適合的。因此每次在建立迴歸模型時，我們都應該要確認模型符合基本假設，然後才能夠針對模型做出其他解釋或是結論。否則不符合基本假設的模型是非常可能得到錯誤的結論、並受到他人質疑模型的正確性的！以下同樣使用R 軟體示範三種基本假設之檢定：

(9)

【R 程式】

【分析結果】

1. Shapiro-Wilk 檢定中，p-value=0.3727>0.05。即迴歸模型之殘差服從常態分配。

2. Non-constant Variance 檢定中，p-value=0.083208>0.05。即迴歸模型之殘差具有變異數同質性。 3. Durbin-Watson 檢定中，p-value=0.1867>0.05。即迴歸模型之殘差之間互相獨立。迴歸分析方法廣泛應用在許多不同領域中，本期 eNews 介紹了如何判斷模型是否存在共線性問題的方法，以及應用圖形和假設檢定來診斷迴歸模型究竟是否符合其基本假設。提醒大家在使用迴歸分析於各種資料時，不要疏忽了診斷和調整模型的重要性，畢竟首先要有了正確的模型，我們才能夠真正進一步了解資料間所隱含的重要關係！