• 沒有找到結果。

R軟體資料分析應用 : 線性迴歸診斷

N/A
N/A
Protected

Academic year: 2021

Share "R軟體資料分析應用 : 線性迴歸診斷"

Copied!
9
0
0

加載中.... (立即查看全文)

全文

(1)

R 軟體資料分析應用:線性迴歸診斷

鄭哲宇 副統計分析師 迴歸分析是統計學中非常重要且實用的方法,能夠建立數學模型來描述我們 觀 察 或 蒐 集 到 的 資 料 中 , 當 自 變 數(Independent Variable) 變 動 時 , 依 變 數 (Dependent Variable)的變數的變化量。因此使用迴歸模型,我們可以解釋自變數 與依變數間的關係,或者使用迴歸模型來預測依變數的變化。在 30 及 32 期的 eNews 當中,分別介紹了簡單線性迴歸以及多變項迴歸分析,我們學會使用 R 軟 體建立一個或多個自變數的迴歸模型,並且解讀模型的意義。然而,在建立一個 迴歸分析模型後,我們要如何確定該模型是精確且合適的呢?這時我們必須注意 到迴歸分析模型有幾個基本假設,若模型不能符合以下幾個假設,則迴歸模型的 精確性會大大受到質疑。 本期 eNews 將使用 R 軟體來介紹,判斷迴歸模型是否符合模型基本假設的 方法及常用檢定。本文將使用R 軟體內建之資料檔 mtcars 作為診斷迴歸模型之 範例,此檔案已內建於R 軟體中不須額外下載或載入,若要觀看資料檔,可輸入 下列程式碼。

(2)
(3)

一、迴歸模型共線性診斷

在建構包含多個自變項的多變項迴歸模型時,若自變項之間存在高度相關性, 則可能造成下列問題: 1. 個別變項迴歸模型檢定顯著,但多變項迴歸係數檢定為不顯著。 2. 個別變項迴歸模型和多變項迴歸模型對同一預測變數,迴歸係數估計值 差異過大。 3. 個別變項迴歸模型和多變項迴歸模型對同一預測變數,迴歸係數估計值 正負號相反。 以上所產生之不合理現象,稱為「共線性問題」(Multicollinearity)。為預防迴 歸模型存在共線性問題,我們可以使用變異數膨脹因子(Variance Inflation Factor, VIF) 判斷解釋變數間是否存在高度多重共線性,其方程式如下: 𝑉𝐼𝐹𝑖 = 1 1 − R2i (4) 其中,𝑉𝐼𝐹𝑖為第i 個解釋變數之𝑉𝐼𝐹值; 𝑅𝑖2為將第i 個解釋變數視為反應變數,其他變數當成解釋變數建立迴歸模型,所 得之判定係數。 本文範例將使用 mtcars 資料集建立多變項迴歸模型後,對模型進行共線性 診斷。範例程式碼如下:

(4)

【R 程式】

【分析結果】

由程式執行結果可知,本文所建立之迴歸模型中各自變數之 VIF 值。一般判 斷共線性問題之標準為,若VIF 值≥10,則認為自變數間存有共線性問題。本文 範例中自變數 cyl, disp, wt 之 VIF≥10,存在共線性問題,必須考慮移除上述變 數或對模式進行矯正。

移除變數之方法,可依據變數之 VIF 值,由高至低逐一移除 VIF 最高的變 數後,重新建立模型並計算剩餘變數之VIF 值,直到所有變數之 VIF 值皆<10, 則可確認迴歸模型不存在共線性問題。以下為範例逐一移除 VIF 最高變數後之 模型結果。

(5)
(6)

二、簡易殘差分析

在迴歸模型中,若預測模型是合適的,那麼預測誤差應該要呈現隨機的分 配、不存在系統性變化。使用殘差圖(Residuals Plot) 可以初步的檢視殘差是否 符合基本假設。在R 軟體中,透過 plot()函數能夠輕易的畫出四張殘差圖形, 其方法如下列程式碼。 【R 程式】

(7)

【分析結果】 由上列圖形可以大略判斷範例模型的殘差 1. 不存在系統性的模式,而是隨機分布。 2. 符合同質變異(Homoskedasticity),即殘差間具有相同的變異數。 3. 大致否符合常態分配。 4. 不存在特別明顯的離群值。

(8)

三、迴歸模型基本假設之檢定

殘差圖形能夠初步判斷模型是否符合假設,然而若我們想要進一步用更精 確的方法來確定模型究竟是否符合假設,那麼使用檢定方法來驗證能夠更加有 說服力,以下列出較常使用之迴歸模型基本假設之檢定。 1. 殘差服從常態分配 前面有提到若模型是合適的,則預測的誤差應該要呈現隨機而非特 定模式。因此我們可以藉由模型殘差來確認,若模型殘差並不符合常態 分配,則認為模型並不符合基本假設。 Shapiro-Wilk 檢定常用於常態性檢測,其檢定假為: 𝐻0: 資料服從常態分配 vs. 𝐻1: 資料服從常態分配 2. 變異數同質性 合適的迴歸模型,殘差的變異數應該要一致,而非呈現系統性變化。 在R 軟體中,可使用 car 套件中的 ncvTest()函數來作檢定,其檢定假設 為: 𝐻0: 殘差變異具同質性 vs. 𝐻1: 殘差變異不具同質性 3. 殘差獨立性 基本模型中假設殘差之間是互相獨立的,否則若殘差存有自我相關 性時,MSE 會嚴重低估誤差項的變異數。殘差獨立性常用的檢定方法為 Durbin-Watson 檢定,其檢定假設為: 𝐻0: 殘差變異具同質性 vs. 𝐻1: 殘差變異不具同質性 上述三個假設皆是迴歸模型的基本假設,也就是說唯有當殘差「同時滿足」 這三個條件時,迴歸模型才能夠被確認為適合的。因此每次在建立迴歸模型時, 我們都應該要確認模型符合基本假設,然後才能夠針對模型做出其他解釋或是結 論。否則不符合基本假設的模型是非常可能得到錯誤的結論、並受到他人質疑模 型的正確性的!以下同樣使用R 軟體示範三種基本假設之檢定:

(9)

【R 程式】

【分析結果】

1. Shapiro-Wilk 檢定中,p-value=0.3727>0.05。即迴歸模型之殘差服從常態 分配。

2. Non-constant Variance 檢定中,p-value=0.083208>0.05。即迴歸模型之殘 差具有變異數同質性。 3. Durbin-Watson 檢定中,p-value=0.1867>0.05。即迴歸模型之殘差之間互 相獨立。 迴歸分析方法廣泛應用在許多不同領域中,本期 eNews 介紹了如何判斷模 型是否存在共線性問題的方法,以及應用圖形和假設檢定來診斷迴歸模型究竟 是否符合其基本假設。提醒大家在使用迴歸分析於各種資料時,不要疏忽了診 斷和調整模型的重要性,畢竟首先要有了正確的模型,我們才能夠真正進一步 了解資料間所隱含的重要關係!

參考文獻

相關文件

4.1 多因子變異數分析 多因子變異數分析 多因子變異數分析 多因子變異數分析與線性迴歸 與線性迴歸 與線性迴歸 與線性迴歸 4.1.1 統計軟體 統計軟體 統計軟體 統計軟體 SPSS 簡介 簡介

在軟體的使用方面,使用 Simulink 來進行。Simulink 是一種分析與模擬動態

針對 WPAN 802.15.3 系統之適應性柵狀碼調變/解調,我們以此 DSP/FPGA 硬體實現與模擬測試平台進行效能模擬、以及硬體電路設計、實現與測試,其測 試平台如圖 5.1、圖

圖 2-13 顯示本天線反射損耗 Return Loss 的實際測量與模擬圖,使用安捷倫公司 E5071B 網路分析儀來測量。因為模擬時並無加入 SMA

樹、與隨機森林等三種機器學習的分析方法,比較探討模型之預測效果,並獲得以隨機森林

則巢式 Logit 模型可簡化為多項 Logit 模型。在分析時,巢式 Logit 模型及 多項 Logit 模型皆可以分析多方案指標之聯合選擇,唯巢式 Logit

本研究藉由分類和迴歸樹(Classification and Regression Tree, C&amp;RT)進 行變數間之類別合併以及決定連續型變數之切割點。C&amp;RT 的全名是「分類 和迴歸樹」

本研究以 CCR 模式的投入導向模式進行差額變數分析 ,針 對相對無效率之