第三章 研究方法與步驟
5. 標準化殘差
n
e (3.4)
5. 標準化殘差
S
RStudenti ei (3.5)
其中,ei yi -yˆi表示第i個實際值與預測值之殘差值,; S 為資 料中剔除第i筆資料後的標準差。
當 RStudenti 2時,表示第i筆資料可能為離群值(陳可杰等譯,2011)。
25
第三節 研究步驟
根據第一節的研究架構與第二節的相關定理與公式,本節將詳細敘述本預測 模型的進行步驟,如圖 3.2 所示。
圖 3.2 研究步驟流程圖 歷史數列資料
檢定離群值
將數據資料分群
建立上、下界預測線 運用 GM(1,1) 對分群資料做預測
計算灰色預測區間
建立特定信賴水準下的 灰色預測區間 將非等距資料 轉換為等距資料
26
27
28
29
30
第四章 研究方法與步驟
本章將第三章所建立之預測模型針對一個實際案例,計算其預測結果並加以 分析,首先本章將使用「台灣高鐵乘客數」的數值資料解釋本論文的研究步驟與 預測結果,再與先前學者所提出的模式做預測誤差之比較。
第一節 研究架構
本節將套用本研究所發展出的灰色預測模式,詳細說明此實際案例的預測過 程與運算步驟。
步驟一:相關資料蒐集
此案例取自於 Chen (2014)的研究,資料為台灣高鐵 2009 年 08 月至 2010 年 05 月的旅客人數(表 4.1),本研究將使用發展的灰色預測模型以預測 2010 年 06 月的旅客人數。
表 4.1 台灣高鐵旅客人數 項次 日期 旅客人數(人次)
1 2009/08 2,716,287 2 2009/09 2,440,872 3 2009/10 2,839,086 4 2009/11 2,814,651 5 2009/12 2,978,076 6 2010/01 2,870,737 7 2010/02 3,047,303 8 2010/03 2,938,307 9 2010/04 3,090,380 10 2010/05 3,212,410
31
32
同理可以計算 2009 年 09 月至 2010 年 05 月的殘差值與標準化殘 差,其結果整理如下表 4.2 所示:
表 4.2 2009 年 08 月至 2010 年 05 月的殘差值與標準化殘差
項次 日期 旅客人數 旅客人數預測值 殘差值 標準化殘差值
1 2009/08 2,716,287 2,619,400 96,886 0.88
2 2009/09 2,440,872 2,680,603 - 239,731 - 2.17
3 2009/10 2,839,086 2,741,805 97,281 0.88
4 2009/11 2,814,651 2,803,007 11,644 0.11
5 2009/12 2,978,076 2,864,210 113,866 1.03
6 2010/01 2,870,737 2,925,412 - 54,675 - 0.49
7 2010/02 3,047,303 2,986,614 60,689 0.55
8 2010/03 2,938,307 3,047,817 -109,510 - 0.99
9 2010/04 3,090,380 3,109,019 -18,639 - 0.17
10 2010/05 3,212,410 3,170,221 42,189 0.38
33
在表 4.2 中第二筆資料 2009 年 09 月標準化殘差值的絕對值為 2.17,由於
2
RStudenti 因此頇將此筆資料(2009 年 09 月)予以剔除,故剔除離群值後的資 料如下表 4.3 所示:
表 4.3 剔除離群值後的資料
項次 日期 旅客人數
1 2009/08 2,716,287
3 2009/10 2,839,086
4 2009/11 2,814,651
5 2009/12 2,978,076
6 2010/01 2,870,737
7 2010/02 3,047,303
8 2010/03 2,938,307
9 2010/04 3,090,380
10 2010/05 3,212,410
步驟三:將資料分成兩群 其運算過程如下:
1. 將時間數列資料定義為
, , ,
B0 2716287 2839086 3212410
34
2. 依據時間數列B 0 建立線性迴歸線LB 0 :
iB t . . t
L 0 269067247 5091522
3. 以LB 0 為分界線,將B 0 分為上、下兩群數列,如下圖 4.1 所示。
上數列BU 0
2839086,2978076,3047303,3212410
; 下數列BL 0
2716287,2814651,2870737,2938307,3090380
圖 4.1 資料分上、下群
步驟四:使非等距資料變等距
將非等距資料轉變成等距資料,這裡透過開平方根處理,開平方根後得 上數列為
0
2839086, 2978076, 3047303, 3212410
1685,1726,1746,1792
AU
同理,開平方根後得下數列為
1648167827162871694171428146511758
2870737 2938307 30903800
, , , ,
, ,
, ,
AL
其結果如下表 4.4 所示。
2,400,000 2,500,000 2,600,000 2,700,000 2,800,000 2,900,000 3,000,000 3,100,000 3,200,000 3,300,000
旅 客 人 數( 人 次)
日期
旅客人數(人次)
— 線性迴歸線
35
表 4.4 非等距數據變等距數據
項次 日期 旅客人數(人次) 開平方根旅客人數(人次) 1 2009/08 2,716,287 1,648
3 2009/10 2,839,086 1,685 4 2009/11 2,814,651 1,678 5 2009/12 2,978,076 1,726 6 2010/01 2,870,737 1,694 7 2010/02 3,047,303 1,746 8 2010/03 2,938,307 1,714 9 2010/04 3,090,380 1,758 10 2010/05 3,212,410 1,792
步驟五:利用 GM(1,1)對分群資料做預測
將兩群資料分別使用 GM(1,1)作預測,其預測方法敘述如下:
1. 將轉換後的上數列AU 0 進行1-AGO(累加生成)
1
1685,3411,5156,6949
AU
2. 對AU 1 進行均值生成。令
1
2
1 1 1
1 k A k A k
ZU U U
k , ,
ZU1 170517361769
3. 對參數列QˆU
PU,QU
,利用參數法求得發展係數P 與灰色控制U 變數Q 。 U0189 0.
-PU
1774 QU
36
4. 還原求出ˆ 0
A 的上界預測值 U
i , ,
AˆU0 172217541788
同理可求出的下界預測值
1672169817241750
ˆ 0 i , , ,
AL
步驟六:建立最佳的上、下界預測線
由於i0且i為整數,因此i的最小值為1,基於此限制將求得的AˆU(0)與
(0)
AˆL 自第二項後擷取形成另外兩個新數列。因在步驟五進行開平分根處理,
因此需將預測結果平方,故最佳上預測線R 如下: U
2965284 ,3076516,3196944
RU
同理可求得平方後的最佳下預測線
, , ,
RL 2795584288320429721763062500
再運用線性迴歸線法(公式 3.6),分別針對R 與U R 兩數列建立最佳上界L 線LRU 與下界預測線
LRL,如下圖 4.2 所示。
37 3501403.3 2
3210539.0 (11)
26442.21
LAU
4 2645804.3 51
2770,835.
(11)
2009/11
2010/01
2010/04, 3,196,944
2009/10
2009/12
2010/02 2010/03
2,600,000
2009/07 2009/08 2009/10 2009/12 2010/01 2010/03 2010/05 R
38
3501403.3 ˆy
2770835.5 yˆ
39
表 4.5 信賴水準區間
項次 日期 實際值 百分之 99 信賴水準 百分之 95 信賴水準
11 2010/06 2,983,161
2793314, 3495579
2793850, 3377184
百分之 90 信賴水準 百分之 80 信賴水準
2793982,3340271
2794080 ,3308435
由上表可知百分之 99 信賴水準、百分之 95 信賴水準、百分之 90 信賴水準 與百分之 80 信賴水準,其實際值皆有落在範圍內。
40
第二節 評估預測準確度
本節將以 2009 年 03 月至 2011 年 08 月資料,以 10 筆數據為一組共分為 20 組,其中,第一節所提出的範例為第六組資料為解釋本研究灰色預測方法,並不 具有足夠的代表性。為評估本研究之預測方法之準確度,並與先前學者的預測模 式比較,因此,本節將透過幾個表格進行各預測方法的比較與分析。
為了與其他學者可以相互比較,在此將本研究方法預測結果與其他學者所提 出之預測方法的預測結果整理如下(表 4.6)。
表 4.6 實際值與各方法預測值
組
別 日期 實際值 GM(1,1)
Liu and Lin-GPBI
(2006)
Liu and Lin-GWI
(2006)
Huang and Lin
(2011)
Chen (2014)
本研究
1 2010/01 2,870,737 2,901,844 2,999,036 2,707,281 3,111,015 2,913,314 2,911,412 2 2010/02 3,047,303 2,922,983 3,016,584 2,707,281 3,017,124 2,929,582 2,868,101
3 2010/03 2,938,307 3,055,666 3,108,589 2,741,895 3,230,229 2,988,193 2,985,453 4 2010/04 3,090,380 3,010,054 3,166,623 2,741,895 3,222,072 3,122,321 3,173,557 5 2010/05 3,212,410 3,156,636 3,099,514 2,765,626 3,131,937 3,147,881 3,066,912
6 2010/06 2,983,161 3,271,802 3,164,416 2,826,641 3,196,354 3,232,388 3,162,178
7 2010/07 3,160,655 3,149,296 3,184,789 2,826,641 3,248,826 3,159,206 3,194,824 8 2010/08 3,188,488 3,190,628 3,162,537 3,013,531 3,191,835 3,133,414 3,133,775 9 2010/09 2,865,777 3,209,852 3,168,189 3,013,531 3,234,425 3,141,826 3,217,993 10 2010/10 3,114,371 3,100,562 3,074,787 3,039,094 3,092,766 3,065,773 3,266,863
11 2010/11 3,114,886 3,082,905 2,966,542 3,039,094 2,925,544 3,014,503 3,203,241 12 2010/12 3,353,121 3,098,367 3,099,949 3,039,094 2,843,712 2,977,491 3,223,456 13 2011/01 3,154,725 3,182,348 3,242,374 3,109,449 3,092,552 3,246,226 3,280,196
41
14 2011/02 3,439,685 3,188,230 3,285,171 3,109,449 3,405,751 3,306,861 3,524,595 15 2011/03 3,258,311 3,359,009 3,463,089 3,152,731 3,611,250 3,400,233 3,387,491
16 2011/04 3,476,554 3,351,421 3,542,978 3,152,731 3,723,252 3,424,384 3,382,303 17 2011/05 3,318,438 3,478,745 3,524,579 3,171,166 3,666,675 3,406,058 3,429,509 18 2011/06 3,380,395 3,508,820 3,479,228 3,171,166 3,419,498 3,442,211 3,442,007 19 2011/07 3,691,078 3,460,342 3,392,073 3,171,166 3,419,498 3,491,011 3,450,889
20 2011/08 3,500,945 3,590,311 3,603,462 3,402,725 3,715,719 3,581,054 3,504,008 此表格中除了 GM(1,1)與 Huang and Lin (2011)的預測值為單點值,其餘學
者所提出之方法皆為區間預測,其預測結果為上預測值與下預測值之平均。
為了比較本研究方法與其他學者所提出之研究方法,將以實際值與預測值所 計算出的誤差進行比較與分析,其結果整理如下表。
表 4.7 各方法預測誤差之比較
組
別 日期 GM(1,1)
Liu and Lin-GPBI (2006)
Liu and Lin-GWBI
(2006)
Huang and Lin
(2011)
Chen (2014)
本研究 方法
1 2010/01 1.08 % 4.47 % 5.69 % 8.37% 4.69 % 1.42%
2 2010/02 4.08 % 1.01 % 11.16 % 0.99% 3.86 % 5.88%
3 2010/03 3.99 % 5.80 % 6.68 % 9.94% 0.59 % 1.60%
4 2010/04 2.60 % 2.47 % 11.28 % 4.26% 1.03 % 2.69%
5 2010/05 1.74 % 3.51 % 13.91 % 2.51% 2.01 % 4.33%
6 2010/06 9.68 % 6.08 % 5.25 % 7.15% 8.35 % 6.00%
7 2010/07 0.36 % 0.76 % 10.57 % 2.79% 0.05 % 1.08%
8 2010/08 0.07 % 0.81 % 5.49 % 0.10% 1.73 % 1.72%
9 2010/09 12.01 % 10.55 % 5.16 % 12.86% 9.63 % 12.29%
42
10 2010/10 0.44 % 1.27 % 2.42 % 0.69% 1.56 % 4.90%
11 2010/11 1.03 % 4.76 % 2.43 % 6.08% 3.22 % 2.84%
12 2010/12 7.60 % 7.55 % 9.37 % 15.19% 11.20 % 3.87%
13 2011/01 0.88 % 2.78 % 1.44 % 1.97% 2.90 % 3.98%
14 2011/02 7.31 % 4.49 % 9.60 % 0.99% 3.86 % 2.47%
15 2011/03 3.09 % 6.28 % 3.24 % 10.83% 4.36 % 3.96%
16 2011/04 3.60 % 1.91 % 9.31 % 7.10% 1.50 % 2.71%
17 2011/05 4.83 % 6.21 % 4.44 % 10.49% 2.64 % 3.35%
18 2011/06 3.80 % 2.92 % 6.19 % 1.16% 2.28 % 1.82%
19 2011/07 6.25 % 8.10 % 14.09 % 7.36% 5.42 % 6.51%
20 2011/08 2.55 % 2.93 % 2.81 % 6.13% 2.29 % 0.09%
平 均 M A P E
- 3.85 % 4.23 % 7.03 % 5.85% 3.53 % 3.68%
由誤差百分比(MAPE)公式可知每一組資料第 11 筆數據的 MAPE,其結果如 表 4.7 所示,其計算公式如下:
% A
-F A
MAPE n t
t t t 100
1
其中,A 為第t筆的實際值,t=1,2,…,n;t Ft為第t筆的預測值,t=1,2,…,n。
43
以本研究方法第六組第 11 筆數據為例:
% - %
MAPE 100 6.00
2983161 3162178
2983161
再計算平均 %
n A -F A MAPE
t n
t t t
1 100
,其結果如表 4.7 所示,由此表可
知道與先前學者所提出的模式依據平均的 MAPE 由上表依序排列可以得知 Chen (2014) >本研究方法>GM(1,1)>Liu and Lin-GPBI (2006)>Huang and Lin (2011)
>Liu and Lin-GWBI (2006),依據排序結果發現本研究針對第 11 筆資料的預測結 果較其他方法結果只有較 Chen (2014)差一點。
先前研究大多只有比較實際值與預測值的誤差,並無分析實際值是否有落於 預測區間範圍中,在此整理出本研究方法與其他學者預測方法實際值是否有落於 預測區間範圍如下表 4.8。
表 4.8 實際值落在各方法預測值區間之狀況與百分比
組別 日期 實際值
Liu and
Lin-GPBI
(2006)
Liu and
Lin-GWBI
(2006)
Chen (2014)
本研究方法
1 2010/01 2,870,737 [2974473,3023599] [2436486,2978076] [2841315,2985313] [2837177,2985648]
2 2010/02 3,047,303 [2945949,3087219] [2436486,2978076] [2916330,2942834] [2830869,2905333]
3 2010/03 2,938,307 [3060378,3156800] [2436486,3047303] [2945383,3031003] [2940827,3030080]
4 2010/04 3,090,380 [3165227,3168019] [2436486,3047303] [3068109,3176534] [3039811,3169081]
5 2010/05 3,212,410 [3000417,3198612] [2440872,3090380] [3143725,3152036] [2942163,3094690]
6 2010/06 2,983,161 [3000417,3328416] [2440872,3212410] [3201954,3262822] [2668537,3448519]
7 2010/07 3,160,655 [3047613,3321965] [2440872,3212410] [3011941,3306471] [3018790,3293210]
8 2010/08 3,188,488 [3044722,3280352] [2814651,3212410] [3034113,3232714] [3034299,3233251]
44
由表可知,每組的實際值是否有落在預測區間的範圍間,本研究方法共有 11 組資料之實際值有界於預測區間內,其百分比計算公式如下:
%
%
n % D
55 20 100
11 100
值區間百比 實際值落在各方法預測
其中, D 為實際值落在預測值區間範圍內的筆數, n 為總資料數。
由各方法實際值落在預測值區間百分比可知Liu and Lin-GWBI (2006) >本 研究方法>Chen (2014) >Liu and Lin-GPBI (2006),依據排序結果發現本研究 實際值落在預測值區間百分比結果較其他方法有不錯的結果,只有較Liu and
9 2010/09 2,865,777 [3044722,3291657] [2814651,3212410] [3056285,3227367] [3175716,3518951]
10 2010/10 3,114,371 [2857916,3291657] [2865777,3212410] [2881140,3250406] [3126732,3293738]
11 2010/11 3,114,886 [2857916,3075167] [2865777,3212410] [2869163,3159843] [3129173,3230946]
12 2010/12 3,353,121 [2761956,3075838] [2865777,3212410] [2857186,3097796] [3151583,3247966]
13 2011/01 3,154,725 [2761956,3432518] [2865777,3353121] [3167264,3325189] [3181927,3325320]
14 2011/02 3,439,685 [3180757,3432518] [2865777,3353121] [3269215,3344506] [3189553,3426821]
15 2011/03 3,258,311 [3341367,3584811] [2865777,3439685] [3332890,3467577] [3336932,3467163]
16 2011/04 3,476,554 [3501145,3584811] [2865777,3439685] [3334889,3513879] [3337144,3514854]
17 2011/05 3,318,438 [3501145,3548014] [2865777,3476554] [3290556,3521561] [3289695,3522845]
18 2011/06 3,380,395 [3410442,3548014] [2865777,3476554] [3338275,3546148] [3337520,3546493]
19 2011/07 3,691,078 [3373703,3410442] [2865777,3476554] [3405095,3576928] [3405216,3577351]
20 2011/08 3,500,945 [3410442,3796481] [3114371,3691078] [3443160,3718948] [3443296,3717592]
實際值落在
各方法預測值
區間百分比
- -
30% 65 % 50% 55%
45
Lin-GWBI (2006)差一點。
本研究當中有提出信心水準,為了比較在不同百分比中的預測值分別為何,
在此以百分之 99、百分之 95、百分之 90 與百分之 80 等 4 個信心水準,其預測 結果如下表 4.9 所示。
表4.9 實際值落在本研究方法之信心水準的狀況與其百分比
組別 日期 實際值 百分之 99 百分之 95 百分之 90 百分之 80 1 2010/01 2,870,737 [2227483,3125435] [2397134,3014245] [2450026,2979579] [2495645, 2949681]
2 2010/02 3,047,303 [2168849,3058926] [2371444,2905654] [2434607,2903359] [2489085, 2901380]
3 2010/03 2,938,307 [2340254,3133845 ] [2508001,3052484] [2560300,3027118] [2605407, 3005240]
4 2010/04 3,090,380 [2576153,3262956] [2732480,3106629] [2744732,3057891] [2745986, 3015855]
5 2010/05 3,212,410 [2711542,3041257] [2781685,3039717] [2803554,3039339] [2822416, 3039056]
6 2010/06 2,983,161 [2793314,3495579] [2793850,3377184] [2793982,3340271] [2794080, 3308435]
7 2010/07 3,160,655 [2652159 ,3151169] [2765741,3118310] [2801153, 3117753] [2831695, 3117337]
8 2010/08 3,188,488 [2904828,3290436] [2929508,3213884] [2929887,3186915] [2930170, 3161830]
9 2010/09 2,865,777 [2333288, 3473961] [2586346,3387794] [2665242,3360929] [2733289, 3337759]
10 2010/10 3,114,371 [2921892, 3473961] [2927197,3387794] [2928502,3360929] [2929478, 3337759]
11 2010/11 3,114,886 [2868589, 3315217] [2871481,3300379] [2872192,3295752] [2872724, 3291762]
12 2010/12 3,353,121 [2960412,3315217] [2965366,3300379] [2966585,3295752] [2967496, 3291762]
13 2011/01 3,154,725 [2960412,3649330] [2965366,3521724] [2966585,3481940] [2967496, 3447627]
14 2011/02 3,439,685 [2668284,3386848] [2803519,3383377] [2845682,3382523] [2882046, 3381885]
15 2011/03 3,258,311 [2858354,3864871] [2864019,3698544] [2865413,3639948] [2866455,3585446]
16 2011/04 3,476,554 [3027051,3864871] [3048788,3698544] [3048918,3639948] [3049015,3585446]
17 2011/05 3,318,438 [3037917, 3997092] [3048788,3806674] [3048918,3739590] [3049015, 3677193]
46
18 2011/06 3,380,395 [2991236, 3426049] [3070970,3424358] [3099060,3423941] [3125188,3423630]
19 2011/07 3,691,078 [2836504, 3672637] [2960694,3671220] [3004446,3670871] [3045141,3670610]
20 2011/08 3,500,945 [2541578, 3972615] [2825672,3688521] [2925757,3622191] [3018849,3621479]
預測值 信心水準 區間百分比
- - 75 % 70 % 60 % 60 %
由上表可得知,每組資料在不同的信心水準中是否有落在所預測的區間內,
例如百分之 99 的信心水準中第 1、2、3、4、6、8、9、10、11、13、15、16、
17、18 組與第 20 組,共 15 組有落在信心水準中,其百分比計算公式如下:
%
%
n % D
75 20 100
15 100
值區間百比 實際值落在各方法預測
由此可知區間值之信賴水準越高,落入區間的實際值越多,相對區間值 之信賴水準越低,落入區間的實際值越少。
47
將上敘所提出的表 4.7、表 4.8 與表 4.9 整理如下表 4.10 並分析其結果。
表 4.10 整合結果
GM(1,1)
Liu and Lin-GWBI
(2006)
Liu and Lin-GPBI
(2006)
Huang and Lin
(2011)
Chen (2014)
本研究
平均 MAPE 3.85 % 4.23 % 7.03 % 5.85% 3.53 % 3.58%
實際值 落入區間
百分比
- 60% 30 % - 45% 55%
由上表可知針對每組資料第 11 筆之預測值平均 MAPE 與預測值區間百分比 其結果若以平均 MAPE 以 Chen (2014) 為較佳,以預測值區間百分比則為本研究 為較佳, Liu and Lin-GWBI (2006)與 Liu and Lin-GPBI (2006)接略為較差,因 GM(1,1)非區間預測故暫不列入比較之間。由表 4.10 可知,若針對每組資料第 11 筆之預測值平均 MAPE 較準確者其預測值區間百分比也不一定會較為準確,
反之預測值區間百分比較準確者其預測值平均 MAPE 比不一定會較為準確。但 根據 Lewis (1982)所提出的 MAPE 預測能力分析(如表 4.11)可得知本模式預測結 果如下:
表 4.11 MAPE 預測能力分析(Lewis, 1982)
MAPE 10% 10%~20% 20%~50% 50%
預測能力 極好 佳 可 不理想
n % A -F A MAPE
t n
t t t
1 100
其中,A 為第 t 筆的實際值,t=1,2,…,n;t Ft為第 t 筆的預測值,
48
t=1,2,…,n。
由上式可知本模式的平均的 MAPE 為 4.35%,在 MAPE 預測能力分析(表 4.11) 中可得知本模式的預測雖然較其他學者略差一點,但其預測能力仍是極好的。
49