第二章 文獻回顧
第二節 時間序列分析簡介
一、 滯後(Lag)
令一組時間序列資列為Xt, t = 1,2, … . , T,全部有t期,Xt+1即為滯後1期,lag = 1將原來的時間序列往後挪1期,從滯後的下1期開始算。表示式為:
L
ix
t= x
t−i(1)
二、定態(Stationary)令一組時間序列資列為Xt, t = 1,2, … . , T,在t期中任意取k期 與s期,其,k ≠ s滿足以下特性者稱為定態:
(a)、該時間序列的平均數不會隨著時間的改變而改變,即平均數為一個固定 常數:
E(x
t) = E(x
t−k), ∀t, k (2)
(b)、該時間序列的變異數數值必須為有限(finite),即上下波動範圍必須有限。(c)、該時間序列的自我共變數與時間的推移無關:
Cov(x
t, x
S) = Cov(x
t−k, x
s−k), ∀t, k, s (3)
如果滿足以上條件,且再任意選擇期數組合後,聯合機率分配部會隨著時間改變而改變,如(x1, x2)和(x3, x4)聯合機率分配一樣,則稱為嚴格定態 (Strict stationary),若不滿則以上(a)、(b)、(c)三點,則稱為非定態(Non-stationary)。
三、白噪音(White noise)
令εt為時間序列Xt, t = 1,2, … . , T的誤差,若滿足以下性質則稱之:
E(ε
t) = 0, ∀t (4) E(ε
t2) = σ
2, ∀t
E(ε
tε
t−k) = 0, ∀t, k
白噪音代表著時間序列的隨機及獨立性。四、自我相關函數(ACF)與偏自我相關函數(PACF)
‧
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(a)、ACF
五、定態過程(stationary process)
一組時間序列Xt, t = 1,2, … . , T對於所有 t 都滿足
移動平均模型為取過去
q
期的隨機誤差項,並給予不同的權重,效果是(1 − ∑ Φ
iL
i因此在模型的選擇上看平均絕對誤差(Mean Absolute Error,簡稱MAE),平均絕對 百分比誤差(Mean Absolute Percentage Error,簡稱MAPE)以及RMSE,在誤差差距不 大的情況下以最簡單的模型為主,複雜的模型不但計算困難而且也沒有效率。 稱為 SARIMA,其中 Asamoah-Boaheng(2014)介紹 SARIMA 模型之外,也介紹了許 多實用的時間序列分析方法,該文獻的資料是來自非洲迦納阿善提地區的氣溫資
找出所有可能的 SARIMA 模型後選擇 AIC 與 BIC 最小者。結論是藉由 SARIMA 可以解決之前 ARIMA 模型上的不足,研究目的比較單純,只有利用建立好的模 型預測西元 2014 年阿善提地區的氣溫,沒有再進行進一步檢查預測可能產生的 誤差值。
對於有季節性的風速資料,使用 SARIMA 模型較為適當,然而相較於非洲地 區的氣溫因為處於熱帶地區,四季變化較穩定在攝氏 30 度左右,且少有離群值,
東吉島地區的風速資料變化較為劇烈,因此該文獻所建立模型較為簡單,且建模 後後殘差的 ACF 圖非常理想。和非洲迦納的最大的不同是,台灣每年夏、秋兩 季平均會有 2 到 3 個颱風侵襲,資料上會產生極大的極值,所以除了配適 SARIMA 模型之外,還需要搭配迴歸模型,為颱風設立一個解釋變數,以減小殘差的離群 值。
Nor, Rahaini and Siti (2016)的文獻中雖然沒有向上一篇文獻使用SARIMA模型,
但是將迴歸模型及ARIMA混合,該文獻所使用的資料是馬來西亞新山的負荷曲 線以及氣溫資料,建模以解釋負荷曲線為目的,氣溫資料為迴歸模型中的解釋變 數。比較了ARIMA模型有混合迴歸模型及單純ARIMA模型,結果顯示有混合迴歸 模型的預測誤差明顯比原來的ARIMA來得小,因此推薦我們使用混合迴歸模型 的ARIMA模型。
從以上的文獻得知,在解釋一個較複雜的時間序列資料時單純使用 ARIMA 模型是不夠的,不光是預測誤差較大,就連殘差的自我相關性可能也無法有效消 除。將 ARIMA 延伸成為 SARIMA 模型適合應用在有季節性的時間序列資料,將 ARIMA 混合迴歸模型則精進模型的解釋及預測能力。有鑑於此,本研究結合以 上 Asamoah-Boaheng 提到 SARIMA 模型及 Nor, Rahaini and Siti 提到 ARIMA 混合 迴歸模型的特點,使用 SARIMA 模型混合迴歸模型來配適東吉島地區的風速資 料。
第四節 Box-Cox 轉換與參數估計
由於風速資料大多呈現右偏分布而不是常態分配,本研究希望將其轉換成常 態分配以提升模型的解釋能力,將解釋變數轉換成常態分配最常見的方法就是 Box-Cox 轉換,藉由指數將原來不是常態分配的資料轉換成常態分配。
然而在估計參數的過程中有一個問題,就是解釋變數需先轉換成常態分配後 再帶入模型中估計模型參數,Box-Cox 轉換與 ARIMA 模型均需要進行參數估計,
Box-Cox 估計的參數一旦變動 ARIMA 模型的參數就必須跟著變動,如此一來若 模型配適的值可能再經過一次 Box-Cox 轉換之後,其參數跟原本風速資料的參數 不一樣,又影響到了 ARIMA 模型的參數,若最後 Box-Cox 轉換的參數無法固定,
那麼 ARIMA 模型的參數也就跟著無法決定,因此本研究想找出一種可以同時估 計 Box-Cox 轉換參數及 ARIMA 模型參數的方法。
Ansley and Wrobleski (1977)介紹了一套公式推導,該論文提到在時間序列資 料有季節性時適合使用 Box-Cox 轉換,如此亦能提升配適出來模型的預測能力,
要同時估計 Box-Cox 轉換的參數與 SARIMA 的參數並不容易,必須找出一個共
‧
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
通的點,該論文假設某些 Box-Cox 轉換的參數符合 SARIMA 過程,如此可以將 Box-Cox 轉換的參數納入 SARIMA 的過程的一個參數,之後將聯合密度函數取對 數,利用最大概似估計法將所有的參數估計出來,而將 Box-Cox 轉換的參數納入 SARIMA 的過程的一個參數後,模型的密度函數與最大概似估計法的式子也跟著 改變了。
除了上述的假設某些 Box-Cox 轉換的參數符合 SARIMA 過程而將其納入 SARIMA 模的參數之外,亦可以使用貝氏後驗機率來進行估計以及生成,Chen 和 Lee (1997)根據 SARIMA 模型的殘差為白噪音以及固定某些觀察值的條件下,可 以得出一個結合 Box-Cox 轉換的參數及 SARIMA 模型的參數的概似函數,然後 推導各個參數的條件機率分布之後使用吉布斯抽樣(Gibbs sampling),直到所有欲 估計的參數收斂,由於參數抽樣的先驗函數是前一次抽樣出來的,最後收斂的參 數可能會有高度自我相關,因此要檢查抽樣過程的自我相關,並且要令抽樣過程 超過沒有自我相關的期數後收斂才是最後抽樣出來的參數。
不論是將 Box-Cox 轉換的參數納入 SARIMA 的過程的一個參數或是吉布斯 抽樣都能同時估計出 Box-Cox 轉換的參數以及 SARIMA 的參數,然而由於整套 流程較為複雜,所以較為耗時,且在某些資料中吉布斯採樣可能會發散,所以本 研究欲找出一套更為簡單且精確的估計方法。
第五節 BATS 模型與 TBATS 模型
兩套模型結合 Box-Cox 轉換,ARMA 模型以及指數平滑法,其中 Box-Cox 轉 換的功能即是將原本不是常態分配或非線性的原始資料進行轉換,和指數平滑法 一樣的地方是分解原本的時間序列資料的季節性及趨勢性並且估計參數,而指數 平滑法式子中的誤差項屬於 ARMA 過程,時間序列資料的自我相關來建模。除 了結合許多時間序列方法優點之外,亦能夠處理多個季節循環的問題,然而 BATS 模型在遇上非定態季節性資料時其解釋力與預測能力常不盡理想,而且估計出來 的參數值有可能較大,因此 TBATS 模型在 BATS 模型進行改良,引進傅立葉級 數來解釋非定態季節性。
對於 Box-Cox 轉換的參數以及 ARMA 參數同時估計的模型,近代學者研發 出一套 BATS 模型及 TBATS 模型,除了包含 Box-Cox 轉換的參數及 ARMA 參數 之外,亦有指數平滑參數,趨勢性參數等,適合用於複雜的季節性時間序列。
Iram, Tripti and Ashraf(2018)將模型應用在實務資料中,提及如果一個時間序 列的季節性並非單一個季節循環時,指數平滑模型、SARIMA模型並不適用,因 為這些模型一次只能解釋一個季節循環。該文獻利用的印度用油量資料,每日一 筆,從西元2014年4月到2017年1月,其季節性不只每周循環一次,每個月,每一 年亦有季節的循環。TBATS模型和BATS模型不同點在於TBATS模型適合使用在 一個時間序列模型的季節性並非定態時,估計季節性參數的方式BATS模型使用 一般線性參數估計而TBATS模型則使用到傅立葉級數來估計,且季節參數還多出 一個諧波參數。該文獻欲比較BATS模型及TBATS模型哪一個更適合預測未來24 天用油量,兩者跟實際資料比較計算出MAPE及RMSE。結果BATS模型在預測未
‧
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
來數值與實際的資料有較明顯的差距,而且估計的參數較複雜,相較之下TBATS 模型則較為理想,因此實務中複雜的季節性資料用TBATS配適模型較為合適。
BATS 與 TBATS 模型有著許多時間序列模型的特點,特別是 TBATS 模型又 對 BATS 模型進了改良,在同時估計 Box-Cox 轉換的參數及 ARIMA 參數上,相 較於之前改良概似函數和吉布斯採樣,該模型更為全面且精準。對於較為複雜的 時間序列資料,BATS 模型及 TBATS 模型補足了 ARIMA 模型在數值分布上非線 性、非常態,以及一次只能解釋一個季節循環的問題,且該模型能在 R 軟體中的 forecast 套件中使用,比起吉布斯採樣法亦更不需花費較大的時間成本,因此本 研究以 BATS 模型及 TBATS 模型當作估計 Box-Cox 轉換的參數及 arma 參數的模 型。然而該模型的缺點是比起 ARIMA 模型能夠自由的混合迴歸模型,該模型無 法再加入其他解釋變數。
本研究的風速資料雖然不像上述印度用油量資料那樣有許多循環週期,但是 該模型可以修正風速的分布非常態分配,且每年的風速變化也不一樣,可能某些 年有點趨勢性需要有趨勢性的參數來解釋,這是 ARIMA 模型裡面無法解釋的,
本研究也想知道該模型是否能像上述論文一樣在模型的解釋及預測能力上具有 理想的表現。
第六節 文獻總結
從上述的文獻中可以知道機率模型是用在解釋及預測長期的風速的氣候型 態,時間序列模型則適合預測短期的未來風速的走向,但是在複雜且較不穩定的 情況下機率模型的預測能力是否較時間序列模型來的理想是本研究想知道的一 個問題。而經過 Box-Cox 轉換以及結合指數平滑法的 BATS 模型及 TBATS 模型 在模型好壞、解釋能力以及預測能力是否皆優於 ARIMA 模型也是本研究鄉知道 的一個問題。因此本研究選擇使用最大概似估計法的韋伯分配、ARIMA 模型、
從上述的文獻中可以知道機率模型是用在解釋及預測長期的風速的氣候型 態,時間序列模型則適合預測短期的未來風速的走向,但是在複雜且較不穩定的 情況下機率模型的預測能力是否較時間序列模型來的理想是本研究想知道的一 個問題。而經過 Box-Cox 轉換以及結合指數平滑法的 BATS 模型及 TBATS 模型 在模型好壞、解釋能力以及預測能力是否皆優於 ARIMA 模型也是本研究鄉知道 的一個問題。因此本研究選擇使用最大概似估計法的韋伯分配、ARIMA 模型、