與向前選取法相反,開始時將所有變項都選入模型內,接著第一步驟將最沒 有區別能力的變項刪除,再依序將沒有區別能力的變項一一去除。
表 4.2 向後選取法結果
No (Intercept) x1 x2 x3 x4 x5 x6 x7 x8 x9 rsq adj rss Cp BIC 1 1 1 0 0 0 0 0 0 0 0 0.0901 0.0804 40.2510 167.1931 0.0651 2 1 0 1 1 0 0 0 0 0 0 0.4545 0.4427 24.1319 65.3956 -44.4841 3 1 0 1 1 0 0 1 0 0 0 0.5412 0.5263 20.2939 42.6810 -56.5483 4 1 0 1 1 1 0 1 0 0 0 0.5862 0.5680 18.3058 31.8784 -61.8820 5 1 0 1 1 1 1 1 0 0 0 0.6397 0.6196 15.9403 18.6463 -70.6007 6 1 1 1 1 1 1 1 0 0 0 0.6717 0.6496 14.5213 11.5086 -74.9870 7 1 1 1 1 1 1 1 0 0 1 0.6928 0.6683 13.5907 7.5164 -76.7805 8 1 1 1 1 1 1 1 0 1 1 0.6960 0.6680 13.4483 8.5993 -73.2275
由上表,依據選取方法
1. 從調整 找出最大值為 0.6683 (模型編號 7) 2. 最接近 Cp 值得為 8.5993(模型編號 8) 3. 最小的 BIC 值為 (模型編號 7)
因此我們在模型 7 與模型 8 之間繼續挑選最佳模型,由調整 和 BIC 值我們更
傾向於模型 7,且 與 Cp 值之間的差值,兩組模型相差不大,所以向後選取
法的最佳模型為模型編號 7,解釋變數包括 。
三、逐步替換法(All-Possible Selection):
結合「向前選取法」與「向後選取法」而成,開始時以向前選取法選入一個 預測變數;而後每當選入一個新的預測變數時,就利用向後選取法,看看在模式
中已存在的預測變數有無偏 F 值小於 的變數。如果有,則偏 F 值最小的預測
變數就會被排除在模型之外,接著再進行向前選取;如果沒有,則繼續向前選取,
重複輪流使用向前、向後選取的步驟,直到沒有預測變數可以再被選進來,也沒 有預測變數應該被剔除掉時即停止。
表 4.3 逐步替換法結果
No (Intercept) x1 x2 x3 x4 x5 x6 x7 x8 x9 rsq adj rss Cp BIC 1 1 1 0 0 0 0 0 0 0 0 0.0901 0.0804 40.2510 167.1931 0.0651 2 1 0 1 1 0 0 0 0 0 0 0.4545 0.4427 24.1319 65.3956 -44.4841 3 1 0 1 1 0 0 1 0 0 0 0.5412 0.5263 20.2939 42.6810 -56.5483 4 1 0 1 1 1 0 1 0 0 0 0.5862 0.5680 18.3058 31.8785 -61.8820 5 1 0 1 1 1 1 1 0 0 0 0.6397 0.6196 15.9403 18.6463 -70.6007 6 1 1 1 1 1 1 1 0 0 0 0.6717 0.6496 14.5213 11.5086 -74.9870 7 1 1 1 1 1 1 1 0 0 1 0.6928 0.6683 13.5907 7.5164 -76.7805 8 1 1 1 1 1 1 1 0 1 1 0.6960 0.6680 13.4483 8.5993 -73.2275
由上表,依據選取方法
1. 從調整 找出最大值為 0.6683 (模型編號 7) 2. 最接近 Cp 值得為 8.5993(模型編號 8) 3. 最小的 BIC 值為 (模型編號 7)
因此我們在模型 7 與模型 8 之間繼續挑選最佳模型,由調整 和 BIC 值我們更
傾向於模型 7,且 與 Cp 值之間的差值,兩組模型相差不大,所以向後選取
法的最佳模型為模型編號 7,解釋變數包括 。
四、選取變數
表 4.4 各選取法統整表 選取出的變數
模型 BIC
向前選取法 -76.7805
向後選取法 -76.7805
逐次替換法 -76.7805
分析三種選取法後,選出調整 找出最大值、Cp 值最接近、BIC 值最小的最佳
模型,為第七組模型,變數分別為 。
第伍章 選取後新複回歸模型 一、複回歸模型
利用前一章三種選取法選出的變數有 (出生人數)、 (外籍勞工人數)、 (消
費者物價基本指數)、 (景氣同時指標綜合指數)、 (外銷訂單)、 (歇業家
數)、 (所得稅),其模型為:
二、模型適合度
經整理我們得到適合度檢定表,如下
表 5.1 選取後新適合度檢定表
來源 df 平方和 均方 F 值 Pr(>F) Model 7 30.64697 4.378138 28.35119 < 2.2e-16
Error 88 13.58942 0.1544252 SST 95 44.23638
假設檢定:
檢定統計量
由 ,我們得出拒絕虛無假設 ,表示解釋變數與反應變數有
線性關係。
三、模型解釋力
表 5.2 選取後新模型解釋力 解釋力
標準化殘差值 0.393 調整 R 平方 0.6683 自由度 88 F 統計量 28.35119 判定係數 R 平方 0.6928 P 值 < 2.2e-16
模型的 為 0.6928,而經過調整的 為 0.6683,減輕因樣本估計所帶來的 膨 脹效果。表示解釋變數的變異可以被新模型所解釋的比例有 66.83%。下一步我 們將進行殘差檢定,判斷此模型是否合理及可靠。
第陸章 殘差分析
在模型的基本假設之中,殘差富含了重要的信息。利用殘差的特性來檢測模型假 設的合理性及數據的可靠性。
而再建立迴歸分析前,須先檢查資料是否符合迴歸分析的基本統計假設;倘若資 料沒有符合迴歸分析的基本統計假設,則會造成統計推論偏誤的發生。
迴歸分析基本假設檢定分別有:
常態性
均齊性
獨立性
利用上述假設檢定來檢驗模型假設是否合理及可靠。
一、常態性
表 6.1 常態性檢定表 常態性檢定 W 統計量 0.9885
P 值 0.5788
圖 6.1 Q-Q Plot
基本假設
:殘差服從常態分配AA
:殘差不服從常態分配
檢定統計量 P-Value檢定
因此不拒絕H0,顯示資料服從常態分配
且由 Q-Q Plot 中(圖 1)中,看出殘差和常態分位數的分布,散落在 45 度的 直線上。所以由此推斷殘差也具有常態性。
二、均齊性
表 6.2 均齊性檢定表 均齊性檢定
卡方值 5.132734
自由值 1
P 值 0.02347872
圖 6.2 殘差圖
假設
:殘差變異數有均齊性恩
:殘差變異數沒有均齊性 P-Value 檢定
所以拒絕 ,表示資料顯示殘差變異數並不符合均齊性
但由殘差圖(圖 6.2)中,可發現殘差均勻分布在-1.0~0.5 之間,故我們可以 推論殘差具有均齊性。
三、獨立性
表 6.3 獨立性檢定表 獨立性檢定
D-W 統計量 0.9926741
P 值 0
基本假設
:殘差之間互相獨立恩
:殘差之間互相不獨立
獨立性的 P-Value 等於 0 時表示獨立性假定被違反。
由於上述的均齊性及獨立性皆不符合基本統計假設,因此需重新轉換模型。
第柒章 轉換模型後的殘差分析
由於殘差分析的均齊性及獨立性沒有服從假設,因此我們將模型做轉換。
我們通常對 Y 的轉換有兩種方法,一種是對 Y 取倒數另一種是對 Y 取對數 log,
而我們這兩種方法都執行,然後比較兩種的調整 來選擇使用哪一種轉換,如下:
表 7.1 兩種轉換解釋力比較 兩種轉換解釋力比較 Y 轉換 轉換後 轉換後調整
0.686 0.661 0.6902 0.6656
由上表(表 7.1),我們可得知轉換後的 及轉換後調整 皆是 比較大,所以
我們選用對 Y 取對數 log 來做轉換,得到我們轉換後的模型,如下:
經轉換模型後我們再檢定一次殘差分析,檢查是否符合殘差檢定。
一、常態性
表 7.2 轉換後常態性檢定表 常態性檢定
W 統計量 0.9867 P 值 0.4489
圖 7.1 轉換後 Q-Q Plot 基本假設
:殘差服從常態分配─
:殘差不服從常態分配 檢定統計量
P-Value檢定
因此不拒絕 ,顯示資料服從常態分配。
且由 Q-Q Plot 中(圖 7.1),看出殘差和常態分位數的分布,散落在 45 度的 直線上。所以由此推斷殘差也具有常態性。
二、均齊性
表 7.3 轉換後均齊性檢定 均齊性檢定
卡方值 3.609447
自由值 1
P 值 0.05745221
圖 7.2 轉換後殘差圖 基本假設
:殘差變異數有均齊性恩
:殘差變異數沒有均齊性 P-Value 檢定
所以不拒絕 ,表示資料顯示殘差變異數有均齊性。
且由殘差圖中(圖 7.2),可發現殘差均勻分布在-0.2~0.1 之間,故我們可以 推論殘差具有均齊性。
三、獨立性
表 7.4 轉換後獨立性檢定 獨立性檢定
D-W 統計量 1.005478
P 值 0
基本假設
:殘差之間互相獨立恩
:殘差之間互相不獨立
獨立性的 p-value →獨立性假定被違反。
當獨立性假設被違反時,則表示殘差值彼此俱有時間性的關聯。
由於我們所擁有的資料與時間有相關性,以及知識技術的局限性,我們無法將獨 立性假設的 p-value 值調整至 0.05 以上。但排除獨立性假設的問題,我們所做 的迴歸分析過程皆符合本課程的上課內容,藉由上課所學的專業知識,我們利用 對 Y 的轉換在進行模型擬合的過程縮小了不可觀測的誤差和預測變量的相關 性,所以,此新模型即為我們能力範圍內所可以完成的最佳模型。
第捌章 轉換後新複回歸模型 一、複回歸模型
利用第四章選出的變數有 (出生人數)、 (外籍勞工人數)、 (消費者物價基
本指數)、 (景氣同時指標綜合指數)、 (外銷訂單)、 (歇業家數)、 (所得 稅),經過殘差分析後發現模型需要轉換,經轉換後又再次執行殘差分析,得到 最後模型為:
二、模型適合度
經過我們整理得到適合度檢定表,如下:
表 8.1 轉換後新適合度檢定表
來源 df 平方和 均方 F 值 Pr(>F) Model 7 30.53195 4.361707 28.00775 < 2.2e-16
Error 88 13.70443 0.1557322 SST 95 44.23638
假設檢定:
檢定統計量
由 ,我們得出拒絕虛無假設 ,表示解釋變數與反應變數有
線性關係。
三、模型解釋力
表 8.2 轉換後新模型解釋力 解釋力
標準化殘差值 0.08237 調整 R 平方 0.6656 自由度 88 F 統計量 28.00775 判定係數 R 平方 0.6902 P 值 < 2.2e-16
全模型的 為 0.6902,而經過校正的 為 0.6656,減輕因樣本估計所帶來的 膨 脹效果。表示解釋變數的變異可以被新模型所解釋的比例有 66.56%。因此我們 最後模型的解釋力為 66.56%。
四、參數估計
模型轉換後,再次判斷被選取到的變數對 Y(失業率)是否有線性相關。
表 8.3 轉換後參數估計表 參數估計表
變數 標籤 參數估計值 標準誤差 t 值 Pr(>|t|) 截距 截距 -1.435 0.4968 -2.888 0.00487
出生人數(千) -0.01395 0.004128 -3.380 0.00108 外籍勞工人數(千) -0.002903 0.0005177 -5.607 2.34e-07 消費者物價基本指數 0.04939 0.006308 7.829 1.03e-12 景氣同時指標綜合指數(點) -0.01109 0.001893 -5.859 7.92e-07 外銷訂單(千) 0.05567 0.01219 4.568 1.59e-05 歇業家數(千) -0.04189 0.007366 -5.688 1.66e-07 所得稅(百萬) -3.046e-07 1.229e-07 -2.479 0.01509
(1) 想要判斷 (出生人數)和 (失業率)之間是否存在線性相關,首先我們先 假設其他變數為固定的情况下
統計基本假設
在虛無假設之下的拒絕域為:P-value <α=0.05
檢定如下:因為 P-value=0.000934<α=0.05 所以拒絕虛無假設 ,表
示我們有充分的證據顯示 。因此, (出生人數)是一個顯著的解釋
變數和 (失業率)存在線性相關。
(2) 想要判斷 (外籍勞工人數)和 (失業率)之間是否存在線性相關,首先我 們先假設其他變數為固定的情况下
統計基本假設
在虛無假設之下的拒絕域為:P-value <α=0.05
檢定如下:因為 P-value=2.62e-07<α=0.05 所以拒絕虛無假設 ,表
示我們有充分的證據顯示 。因此, (外籍勞工人數)是一個顯著的
解釋變數和 (失業率)存在線性相關。
(3) 想要判斷 (消費者物價基本指數)和 (失業率)之間是否存在線性相 關,首先我們先假設其他變數為固定的情况下
統計基本假設
在虛無假設之下的拒絕域為:P-value <α=0.05
檢定如下:因為 P-value=
4.74e-12<α=0.05 所以拒絕虛無假設
,表示我們有充分的證據顯示 。因此, (消費者物價基本
指數)是一個顯著的解釋變數和 (失業率)存在線性相關。
(4) 想要判斷 (景氣同時指標綜合指數)和 (失業率)之間是否存在線性相 關,首先我們先假設其他變數為固定的情况下
統計基本假設
在虛無假設之下的拒絕域為:P-value <α=0.05
檢定如下:因為 P-value=2.28e-07<α=0.05 所以拒絕虛無假設 ,表
示我們有充分的證據顯示 。因此, (景氣同時指標綜合指數)是一
個顯著的解釋變數和 (失業率)存在線性相關
(5) 想要判斷 (外銷訂單)和 (失業率)之間是否存在線性相關,首先我們先 假設其他變數為固定的情况下
統計基本假設
在虛無假設之下的拒絕域為:P-value <α=0.05
檢定如下:因為 P-value=0.006181<α=0.05 所以拒絕虛無假設 ,表
示我們有充分的證據顯示 。因此, (外銷訂單)是一個顯著的解釋
變數和 (失業率)存在線性相關
(6) 想要判斷 (歇業家數)和 (失業率)之間是否存在線性相關,首先我們先 假設其他變數為固定的情况下
統計基本假設
在虛無假設之下的拒絕域為:P-value <α=0.05
檢定如下:因為 P-value=3.18e-07<α=0.05 所以拒絕虛無假設 ,表
示我們有充分的證據顯示 。因此, (歇業家數)是一個顯著的解釋 變數和 (失業率)存在線性相關
(7) 想要判斷 (所得稅)和 (失業率)之間是否存在線性相關,首先我們先假 設其他變數為固定的情况下
統計基本假設
在虛無假設之下的拒絕域為:P-value <α=0.05
檢定如下:因為 P-value=0.015107<α=0.05 所以拒絕虛無假設 ,表
示我們有充分的證據顯示 。因此, (所得稅)是一個顯著的解釋變
數和 (失業率)存在線性相關 五、共線性
最後我們想解釋變數間是否有嚴重的共線性問題 表 8.4 共線性
標籤 VIF
出生人數 1.258136 外籍勞工人數 7.587294 消費者物價基本指數 5.531432 景氣同時指標綜合指數 5.453839 外銷訂單 3.806348 歇業家數 1.273499 所得稅 1.029317 平均 3.705695
判斷共線性的標準: 表示可能有共線性問題
判斷共線性的標準: 表示可能有共線性問題