標準化殘差

第三章研究方法與步驟

5. 標準化殘差

e (3.4)

5. 標準化殘差

RStudent_i  eⁱ (3.5)

其中，e_i  y_i -yˆ_i表示第i個實際值與預測值之殘差值，； S 為資料中剔除第i筆資料後的標準差。

當 RStudent_i 2時，表示第ⁱ筆資料可能為離群值(陳可杰等譯，2011)。

第三節研究步驟

根據第一節的研究架構與第二節的相關定理與公式，本節將詳細敘述本預測模型的進行步驟，如圖 3.2 所示。

圖 3.2 研究步驟流程圖歷史數列資料

檢定離群值

將數據資料分群

建立上、下界預測線運用 GM(1,1) 對分群資料做預測

計算灰色預測區間

建立特定信賴水準下的灰色預測區間將非等距資料轉換為等距資料

第四章研究方法與步驟

本章將第三章所建立之預測模型針對一個實際案例，計算其預測結果並加以分析，首先本章將使用「台灣高鐵乘客數」的數值資料解釋本論文的研究步驟與預測結果，再與先前學者所提出的模式做預測誤差之比較。

第一節研究架構

本節將套用本研究所發展出的灰色預測模式，詳細說明此實際案例的預測過程與運算步驟。

步驟一：相關資料蒐集

此案例取自於 Chen (2014)的研究，資料為台灣高鐵 2009 年 08 月至 2010 年 05 月的旅客人數(表 4.1)，本研究將使用發展的灰色預測模型以預測 2010 年 06 月的旅客人數。

表 4.1 台灣高鐵旅客人數項次日期旅客人數(人次)

1 2009/08 2,716,287 2 2009/09 2,440,872 3 2009/10 2,839,086 4 2009/11 2,814,651 5 2009/12 2,978,076 6 2010/01 2,870,737 7 2010/02 3,047,303 8 2010/03 2,938,307 9 2010/04 3,090,380 10 2010/05 3,212,410

同理可以計算 2009 年 09 月至 2010 年 05 月的殘差值與標準化殘差，其結果整理如下表 4.2 所示：

表 4.2 2009 年 08 月至 2010 年 05 月的殘差值與標準化殘差

項次日期旅客人數旅客人數預測值殘差值標準化殘差值

1 2009/08 2,716,287 2,619,400 96,886 0.88

2 2009/09 2,440,872 2,680,603 - 239,731 - 2.17

3 2009/10 2,839,086 2,741,805 97,281 0.88

4 2009/11 2,814,651 2,803,007 11,644 0.11

5 2009/12 2,978,076 2,864,210 113,866 1.03

6 2010/01 2,870,737 2,925,412 - 54,675 - 0.49

7 2010/02 3,047,303 2,986,614 60,689 0.55

8 2010/03 2,938,307 3,047,817 -109,510 - 0.99

9 2010/04 3,090,380 3,109,019 -18,639 - 0.17

10 2010/05 3,212,410 3,170,221 42,189 0.38

在表 4.2 中第二筆資料 2009 年 09 月標準化殘差值的絕對值為 2.17，由於

2

RStudenti 因此頇將此筆資料(2009 年 09 月)予以剔除，故剔除離群值後的資料如下表 4.3 所示：

表 4.3 剔除離群值後的資料

項次日期旅客人數

1 2009/08 2,716,287

3 2009/10 2,839,086

4 2009/11 2,814,651

5 2009/12 2,978,076

6 2010/01 2,870,737

7 2010/02 3,047,303

8 2010/03 2,938,307

9 2010/04 3,090,380

10 2010/05 3,212,410

步驟三：將資料分成兩群其運算過程如下：

1. 將時間數列資料定義為

 



^, ^, ^,



B⁰  2716287 2839086  3212410

2. 依據時間數列B^{ }⁰ 建立線性迴歸線LB 0 ：

 

B t . . t

L 0  269067247 5091522

3. 以LB 0 為分界線，將B^{ }⁰ 分為上、下兩群數列，如下圖 4.1 所示。

上數列B_U^{ }⁰ 



2839086,2978076,3047303,3212410



；下數列^BL^{ }⁰ 



2716287^,2814651^,2870737^,2938307^,3090380



圖 4.1 資料分上、下群

步驟四：使非等距資料變等距

將非等距資料轉變成等距資料，這裡透過開平方根處理，開平方根後得上數列為

 ⁰



^2839086^, ^2978076^, ^3047303^, ^3212410

 ^

¹⁶⁸⁵^,¹⁷²⁶^,¹⁷⁴⁶^,¹⁷⁹²

^

A_U  

同理，開平方根後得下數列為

 



¹⁶⁴⁸¹⁶⁷⁸^2716287¹⁶⁹⁴¹⁷¹⁴^2814651¹⁷⁵⁸



^2870737 ^2938307 ^3090380

, , , ,

, ,

A_L



其結果如下表 4.4 所示。

2,400,000 2,500,000 2,600,000 2,700,000 2,800,000 2,900,000 3,000,000 3,100,000 3,200,000 3,300,000

旅客人數( 人次)

日期

旅客人數(人次)

— 線性迴歸線

表 4.4 非等距數據變等距數據

項次日期旅客人數(人次) 開平方根旅客人數(人次) 1 2009/08 2,716,287 1,648

3 2009/10 2,839,086 1,685 4 2009/11 2,814,651 1,678 5 2009/12 2,978,076 1,726 6 2010/01 2,870,737 1,694 7 2010/02 3,047,303 1,746 8 2010/03 2,938,307 1,714 9 2010/04 3,090,380 1,758 10 2010/05 3,212,410 1,792

步驟五：利用 GM(1,1)對分群資料做預測

將兩群資料分別使用 GM(1,1)作預測，其預測方法敘述如下：

1. 將轉換後的上數列A_U^{ }⁰ 進行1-AGO(累加生成)

 ¹



1685,3411,5156,6949



A_U 

2. 對A_U^{ }¹ 進行均值生成。令 ^{ }

 

^{ }

 

^{ }





1 ₁ ₁

1 k  A k  A k

Z_U _U _U

 

  

k , ,



Z_U¹  170517361769

3. 對參數列^Q^ˆ_U ^



^P_U^，^Q_U



，利用參數法求得發展係數P 與灰色控制_U 變數Q 。 _U

0189 0.

-P_U 

1774 QU

4. 還原求出ˆ^{ }⁰

A 的上界預測值 U

 

  

i , ,



Aˆ_U⁰  172217541788

同理可求出的下界預測值

 

  

1672169817241750



ˆ ⁰ i , , ,

A_L 

步驟六：建立最佳的上、下界預測線

由於i0且i為整數，因此i的最小值為1，基於此限制將求得的Aˆ_U⁽⁰⁾與

(0)

AˆL 自第二項後擷取形成另外兩個新數列。因在步驟五進行開平分根處理，

因此需將預測結果平方，故最佳上預測線R 如下： _U



2965284 ,3076516,3196944



R_U 

同理可求得平方後的最佳下預測線



, , ,



R_L  2795584288320429721763062500

再運用線性迴歸線法(公式 3.6)，分別針對R 與_U R 兩數列建立最佳上界_L 線LRU 與下界預測線

L_RL，如下圖 4.2 所示。

37 3501403.3 2

3210539.0 (11)

26442.21

LAU    

4 2645804.3 51

2770,835.

(11)

2009/11

2010/01

2010/04, 3,196,944

2009/10

2009/12

2010/02 2010/03

2,600,000

2009/07 2009/08 2009/10 2009/12 2010/01 2010/03 2010/05 R

3501403.3 ˆy

2770835.5 yˆ

表 4.5 信賴水準區間

項次日期實際值百分之 99 信賴水準百分之 95 信賴水準

11 2010/06 2,983,161



2793314, 3495579

 

2793850, 3377184



百分之 90 信賴水準百分之 80 信賴水準



2793982,3340271

 

2794080 ,3308435



由上表可知百分之 99 信賴水準、百分之 95 信賴水準、百分之 90 信賴水準與百分之 80 信賴水準，其實際值皆有落在範圍內。

第二節評估預測準確度

本節將以 2009 年 03 月至 2011 年 08 月資料，以 10 筆數據為一組共分為 20 組，其中，第一節所提出的範例為第六組資料為解釋本研究灰色預測方法，並不具有足夠的代表性。為評估本研究之預測方法之準確度，並與先前學者的預測模式比較，因此，本節將透過幾個表格進行各預測方法的比較與分析。

為了與其他學者可以相互比較，在此將本研究方法預測結果與其他學者所提出之預測方法的預測結果整理如下(表 4.6)。

表 4.6 實際值與各方法預測值

組

別日期實際值 GM(1，1)

Liu and Lin-GPBI

(2006)

Liu and Lin-GWI

(2006)

Huang and Lin

(2011)

Chen (2014)

本研究

1 2010/01 ^2,870,737 ^2,901,844 ^2,999,036 ^2,707,281 ^3,111,015 ^2,913,314 ^2,911,412 2 2010/02 3,047,303 2,922,983 3,016,584 2,707,281 3,017,124 2,929,582 2,868,101

3 2010/03 ^2,938,307 ^3,055,666 ^3,108,589 ^2,741,895 ^3,230,229 ^2,988,193 ^2,985,453 4 2010/04 ^3,090,380 ^3,010,054 ^3,166,623 ^2,741,895 ^3,222,072 ^3,122,321 ^3,173,557 5 2010/05 3,212,410 3,156,636 3,099,514 2,765,626 3,131,937 3,147,881 3,066,912

6 2010/06 2,983,161 3,271,802 3,164,416 2,826,641 3,196,354 3,232,388 3,162,178

7 2010/07 ^3,160,655 ^3,149,296 ^3,184,789 ^2,826,641 ^3,248,826 ^3,159,206 ^3,194,824 8 2010/08 ^3,188,488 ^3,190,628 ^3,162,537 ^3,013,531 ^3,191,835 ^3,133,414 ^3,133,775 9 2010/09 ^2,865,777 ^3,209,852 ^3,168,189 ^3,013,531 ^3,234,425 ^3,141,826 ^3,217,993 10 2010/10 3,114,371 3,100,562 3,074,787 3,039,094 3,092,766 3,065,773 3,266,863

11 2010/11 ^3,114,886 ^3,082,905 ^2,966,542 ^3,039,094 ^2,925,544 ^3,014,503 ^3,203,241 12 2010/12 ^3,353,121 ^3,098,367 ^3,099,949 ^3,039,094 ^2,843,712 ^2,977,491 ^3,223,456 13 2011/01 ^3,154,725 ^3,182,348 ^3,242,374 ^3,109,449 ^3,092,552 ^3,246,226 ^3,280,196

14 2011/02 ^3,439,685 ^3,188,230 ^3,285,171 ^3,109,449 ^3,405,751 ^3,306,861 ^3,524,595 15 2011/03 3,258,311 3,359,009 3,463,089 3,152,731 3,611,250 3,400,233 3,387,491

16 2011/04 ^3,476,554 ^3,351,421 ^3,542,978 ^3,152,731 ^3,723,252 ^3,424,384 ^3,382,303 17 2011/05 ^3,318,438 ^3,478,745 ^3,524,579 ^3,171,166 ^3,666,675 ^3,406,058 ^3,429,509 18 2011/06 ^3,380,395 ^3,508,820 ^3,479,228 ^3,171,166 ^3,419,498 ^3,442,211 ^3,442,007 19 2011/07 3,691,078 3,460,342 3,392,073 3,171,166 3,419,498 3,491,011 3,450,889

20 2011/08 ^3,500,945 ^3,590,311 ^3,603,462 ^3,402,725 ^3,715,719 ^3,581,054 ^3,504,008 此表格中除了 GM(1，1)與 Huang and Lin (2011)的預測值為單點值，其餘學

者所提出之方法皆為區間預測，其預測結果為上預測值與下預測值之平均。

為了比較本研究方法與其他學者所提出之研究方法，將以實際值與預測值所計算出的誤差進行比較與分析，其結果整理如下表。

表 4.7 各方法預測誤差之比較

組

別日期 GM(1，1)

Liu and Lin-GPBI (2006)

Liu and Lin-GWBI

(2006)

Huang and Lin

(2011)

Chen (2014)

本研究方法

1 2010/01 1.08 % 4.47 % 5.69 % 8.37% 4.69 % 1.42%

2 2010/02 4.08 % 1.01 % 11.16 % 0.99% 3.86 % 5.88%

3 2010/03 3.99 % 5.80 % 6.68 % 9.94% 0.59 % 1.60%

4 2010/04 2.60 % 2.47 % 11.28 % 4.26% 1.03 % 2.69%

5 2010/05 1.74 % 3.51 % 13.91 % 2.51% 2.01 % 4.33%

6 2010/06 9.68 % 6.08 % 5.25 % 7.15% 8.35 % 6.00%

7 2010/07 0.36 % 0.76 % 10.57 % 2.79% 0.05 % 1.08%

8 2010/08 0.07 % 0.81 % 5.49 % 0.10% 1.73 % 1.72%

9 2010/09 12.01 % 10.55 % 5.16 % 12.86% 9.63 % 12.29%

10 2010/10 0.44 % 1.27 % 2.42 % 0.69% 1.56 % 4.90%

11 2010/11 1.03 % 4.76 % 2.43 % 6.08% 3.22 % 2.84%

12 2010/12 7.60 % 7.55 % 9.37 % 15.19% 11.20 % 3.87%

13 2011/01 0.88 % 2.78 % 1.44 % 1.97% 2.90 % 3.98%

14 2011/02 7.31 % 4.49 % 9.60 % 0.99% 3.86 % 2.47%

15 2011/03 3.09 % 6.28 % 3.24 % 10.83% 4.36 % 3.96%

16 2011/04 3.60 % 1.91 % 9.31 % 7.10% 1.50 % 2.71%

17 2011/05 4.83 % 6.21 % 4.44 % 10.49% 2.64 % 3.35%

18 2011/06 3.80 % 2.92 % 6.19 % 1.16% 2.28 % 1.82%

19 2011/07 6.25 % 8.10 % 14.09 % 7.36% 5.42 % 6.51%

20 2011/08 2.55 % 2.93 % 2.81 % 6.13% 2.29 % 0.09%

平均 M A P E

- 3.85 % 4.23 % 7.03 % 5.85% 3.53 % 3.68%

由誤差百分比(MAPE)公式可知每一組資料第 11 筆數據的 MAPE，其結果如表 4.7 所示，其計算公式如下：

% A

-F A

MAPE ⁿ _t

t t t 100

 

 

其中，A 為第t筆的實際值，t=1,2,…,n；_t F_t為第t筆的預測值，t=1,2,…,n。

以本研究方法第六組第 11 筆數據為例：

% - %

MAPE 100 6.00

2983161 3162178

2983161  



再計算平均 %

n A -F A MAPE

t n

t t t

1 100

 ^ ，其結果如表 4.7 所示，由此表可

知道與先前學者所提出的模式依據平均的 MAPE 由上表依序排列可以得知 Chen (2014) ＞本研究方法＞GM(1,1)＞Liu and Lin-GPBI (2006)＞Huang and Lin (2011)

＞Liu and Lin-GWBI (2006)，依據排序結果發現本研究針對第 11 筆資料的預測結果較其他方法結果只有較 Chen (2014)差一點。

先前研究大多只有比較實際值與預測值的誤差，並無分析實際值是否有落於預測區間範圍中，在此整理出本研究方法與其他學者預測方法實際值是否有落於預測區間範圍如下表 4.8。

表 4.8 實際值落在各方法預測值區間之狀況與百分比

組別日期實際值

Liu and

Lin-GPBI

(2006)

Liu and

Lin-GWBI

(2006)

Chen (2014)

本研究方法

1 2010/01 2,870,737 [2974473,3023599] [2436486,2978076] [2841315,2985313] [2837177,2985648]

2 2010/02 3,047,303 [2945949,3087219] [2436486,2978076] [2916330,2942834] [2830869,2905333]

3 2010/03 2,938,307 [3060378,3156800] [2436486,3047303] [2945383,3031003] [2940827,3030080]

4 2010/04 3,090,380 [3165227,3168019] [2436486,3047303] [3068109,3176534] [3039811,3169081]

5 2010/05 3,212,410 [3000417,3198612] [2440872,3090380] [3143725,3152036] [2942163,3094690]

6 2010/06 2,983,161 [3000417,3328416] [2440872,3212410] [3201954,3262822] [2668537,3448519]

7 2010/07 3,160,655 [3047613,3321965] [2440872,3212410] [3011941,3306471] [3018790,3293210]

8 2010/08 3,188,488 [3044722,3280352] [2814651,3212410] [3034113,3232714] [3034299,3233251]

由表可知，每組的實際值是否有落在預測區間的範圍間，本研究方法共有 11 組資料之實際值有界於預測區間內，其百分比計算公式如下：

n % D

55 20 100

11 100









 值區間百比實際值落在各方法預測

其中， D 為實際值落在預測值區間範圍內的筆數， n 為總資料數。

由各方法實際值落在預測值區間百分比可知Liu and Lin-GWBI (2006) ＞本研究方法＞Chen (2014) ＞Liu and Lin-GPBI (2006)，依據排序結果發現本研究實際值落在預測值區間百分比結果較其他方法有不錯的結果，只有較Liu and

9 2010/09 2,865,777 [3044722,3291657] [2814651,3212410] [3056285,3227367] [3175716,3518951]

10 2010/10 3,114,371 [2857916,3291657] [2865777,3212410] [2881140,3250406] [3126732,3293738]

11 2010/11 3,114,886 [2857916,3075167] [2865777,3212410] [2869163,3159843] [3129173,3230946]

12 2010/12 3,353,121 [2761956,3075838] [2865777,3212410] [2857186,3097796] [3151583,3247966]

13 2011/01 3,154,725 [2761956,3432518] [2865777,3353121] [3167264,3325189] [3181927,3325320]

14 2011/02 3,439,685 [3180757,3432518] [2865777,3353121] [3269215,3344506] [3189553,3426821]

15 2011/03 3,258,311 [3341367,3584811] [2865777,3439685] [3332890,3467577] [3336932,3467163]

16 2011/04 3,476,554 [3501145,3584811] [2865777,3439685] [3334889,3513879] [3337144,3514854]

17 2011/05 3,318,438 [3501145,3548014] [2865777,3476554] [3290556,3521561] [3289695,3522845]

18 2011/06 3,380,395 [3410442,3548014] [2865777,3476554] [3338275,3546148] [3337520,3546493]

19 2011/07 3,691,078 [3373703,3410442] [2865777,3476554] [3405095,3576928] [3405216,3577351]

20 2011/08 3,500,945 [3410442,3796481] [3114371,3691078] [3443160,3718948] [3443296,3717592]

實際值落在

各方法預測值

區間百分比

- -

30% 65 % 50% 55%

Lin-GWBI (2006)差一點。

本研究當中有提出信心水準，為了比較在不同百分比中的預測值分別為何，

在此以百分之 99、百分之 95、百分之 90 與百分之 80 等 4 個信心水準，其預測結果如下表 4.9 所示。

表4.9 實際值落在本研究方法之信心水準的狀況與其百分比

組別日期實際值百分之 99 百分之 95 百分之 90 百分之 80 1 2010/01 2,870,737 [2227483,3125435] [2397134,3014245] [2450026,2979579] [2495645, 2949681]

2 2010/02 3,047,303 [2168849,3058926] [2371444,2905654] [2434607,2903359] [2489085, 2901380]

3 2010/03 ^2,938,307 [2340254,3133845 ] [2508001,3052484] [2560300,3027118] [2605407, 3005240]

4 2010/04 ^3,090,380 [2576153,3262956] [2732480,3106629] [2744732,3057891] [2745986, 3015855]

5 2010/05 ^3,212,410 [2711542,3041257] [2781685,3039717] [2803554,3039339] [2822416, 3039056]

6 2010/06 2,983,161 [2793314,3495579] [2793850,3377184] [2793982,3340271] [2794080, 3308435]

7 2010/07 ^3,160,655 [2652159 ,3151169] [2765741,3118310] [2801153, 3117753] [2831695, 3117337]

8 2010/08 ^3,188,488 [2904828,3290436] [2929508,3213884] [2929887,3186915] [2930170, 3161830]

9 2010/09 2,865,777 [2333288, 3473961] [2586346,3387794] [2665242,3360929] [2733289, 3337759]

10 2010/10 ^3,114,371 [2921892, 3473961] [2927197,3387794] [2928502,3360929] [2929478, 3337759]

11 2010/11 ^3,114,886 [2868589, 3315217] [2871481,3300379] [2872192,3295752] [2872724, 3291762]

12 2010/12 ^3,353,121 [2960412,3315217] [2965366,3300379] [2966585,3295752] [2967496, 3291762]

13 2011/01 3,154,725 [2960412,3649330] [2965366,3521724] [2966585,3481940] [2967496, 3447627]

14 2011/02 3,439,685 [2668284,3386848] [2803519,3383377] [2845682,3382523] [2882046, 3381885]

15 2011/03 ^3,258,311 [2858354,3864871] [2864019,3698544] [2865413,3639948] [2866455,3585446]

16 2011/04 _3,476,554 [3027051,3864871] [3048788,3698544] [3048918,3639948] [3049015,3585446]

17 2011/05 _3,318,438 [3037917, 3997092] [3048788,3806674] [3048918,3739590] [3049015, 3677193]

18 2011/06 _3,380,395 [2991236, 3426049] [3070970,3424358] [3099060,3423941] [3125188,3423630]

19 2011/07 _3,691,078 [2836504, 3672637] [2960694,3671220] [3004446,3670871] [3045141,3670610]

20 2011/08 _3,500,945 [2541578, 3972615] [2825672,3688521] [2925757,3622191] [3018849,3621479]

預測值信心水準區間百分比

- - 75 % 70 % 60 % 60 %

由上表可得知，每組資料在不同的信心水準中是否有落在所預測的區間內，

例如百分之 99 的信心水準中第 1、2、3、4、6、8、9、10、11、13、15、16、

17、18 組與第 20 組，共 15 組有落在信心水準中，其百分比計算公式如下：

n % D

75 20 100

15 100









 值區間百比實際值落在各方法預測

由此可知區間值之信賴水準越高，落入區間的實際值越多，相對區間值之信賴水準越低，落入區間的實際值越少。

將上敘所提出的表 4.7、表 4.8 與表 4.9 整理如下表 4.10 並分析其結果。

表 4.10 整合結果

GM(1，1)

Liu and Lin-GWBI

(2006)

Liu and Lin-GPBI

(2006)

Huang and Lin

(2011)

Chen (2014)

本研究

平均 MAPE 3.85 % 4.23 % 7.03 % 5.85% 3.53 % 3.58%

實際值落入區間

百分比

- 60% 30 % - 45% 55%

由上表可知針對每組資料第 11 筆之預測值平均 MAPE 與預測值區間百分比其結果若以平均 MAPE 以 Chen (2014) 為較佳，以預測值區間百分比則為本研究為較佳， Liu and Lin-GWBI (2006)與 Liu and Lin-GPBI (2006)接略為較差，因 GM(1，1)非區間預測故暫不列入比較之間。由表 4.10 可知，若針對每組資料第 11 筆之預測值平均 MAPE 較準確者其預測值區間百分比也不一定會較為準確，

反之預測值區間百分比較準確者其預測值平均 MAPE 比不一定會較為準確。但根據 Lewis (1982)所提出的 MAPE 預測能力分析(如表 4.11)可得知本模式預測結果如下：

表 4.11 MAPE 預測能力分析(Lewis, 1982)

MAPE 10% 10%~20% 20%~50% 50%

預測能力極好佳可不理想

n % A -F A MAPE

t n

t t t

1 100

 ^

其中，A 為第 t 筆的實際值，t=1,2,…,n；_t F_t為第 t 筆的預測值，

t=1,2,…,n。

由上式可知本模式的平均的 MAPE 為 4.35%，在 MAPE 預測能力分析(表 4.11) 中可得知本模式的預測雖然較其他學者略差一點，但其預測能力仍是極好的。

在文檔中 I-Shou University Institutional Repository:Item 987654321/18556 (頁 31-56)

第三章 研究方法與步驟

5. 標準化殘差

第四章 研究方法與步驟





 











 



 









 

 





  







  



  













 





 



第三章研究方法與步驟

第四章研究方法與步驟

 ^

^