• 沒有找到結果。

加權移動平均法 (Weight moving average, WMA)

第四章 實驗與結果

4.3 與其他時間序列預測以及迴歸預測介紹與比較

4.3.2 加權移動平均法 (Weight moving average, WMA)

加權移動平均法就是根據過去一段時間中各個不同時間點的數值對於實際

值的影響程度給予一個權重,不同時間點的權重總和會等於 1,利用此權重和過

38 4.3.3 多元線性迴歸預測 (Multiple linear regression, MLR)

多元線性迴歸預測泛指分析一個因變數與兩個或兩個以上的自變數之間的

4.3.4 多元適應性迴歸預測(Multivariate adaptive regression spline, MARS)

多元適應性迴歸法的主要精神為分而治之,也就是將整體的資料狀況切分為

更小的資料狀況,不斷重複此動作直到無法分割,接著再利用各個小資料的狀況

建立最適合的模型模型,如此一來就可以依據輸入的變數來判斷要使用哪個區段

39

的模型可以獲得最佳結果,而訓練資料則和 MLR 使用相同資料。

圖 21 大台北地區 12 月份到 2 月份 AIF 和其他迴歸預測方法比較預測結果圖

圖 22 大台北地區 3 月份到 5 月份 AIF 和其他迴歸預測方法比較預測結果圖

圖 23 大台北地區 6 月份到 8 月份 AIF 和其他迴歸預測方法比較預測結果圖

40

圖 24 大台北地區 9 月份到 11 月份 AIF 和其他迴歸預測方法比較預測結果圖 從大台北地區的預測結果(圖 21-圖 24)看來,較常被使用在時間序列預測的

WMA 以及 MLR 都有著穩定的表現,每個月份的誤差率都不會相差太多,但整

體而言 WMA 會優於沒有使用其他特徵參數的 MLR ,而天真預測法雖然在預

測短時數上有個不錯的表現,不過在預測長時數上的相對誤差非常高, MARS 對

於長時間預測結果的表現也是不太好,而且 MARS 的預測結果不太穩定,誤差

率的更動非常高。

圖 25 台中地區 12 月份到 2 月份 AIF 和其他迴歸預測方法比較預測結果圖

41

圖 26 台中地區 3 月份到 5 月份 AIF 和其他迴歸預測方法比較預測結果圖

圖 27 台中地區 6 月份到 8 月份 AIF 和其他迴歸預測方法比較預測結果圖

圖 28 台中地區 9 月份到 11 月份 AIF 和其他迴歸預測方法比較預測結果圖

從上述台中地區預測的實驗(圖 25-圖 28)可以發現,本研究所提出的適定性

迭代法、 WMA 以及 MLR 則是和大台北地區的預測表現有類似的趨勢,有著穩

定的表現,而且在正確率上不論大台北地區或是台中,我們所提出的適定性迭代

法相較於其他四種方法更是有著更好的預測結果, 而天真預測法對於長時間預

42

測會產生高誤差率的問題,但對預測未來一小時卻有著高正確率的這種情況我們

認為是因為空氣品質在一般狀況下變動幅度較小,所以才會導致此預測結果,

MARS 則是保持著不穩定的預測結果。

圖 29 台南地區 12 月份到 2 月份 AIF 和其他迴歸預測方法比較預測結果圖

圖 30 台南地區 3 月份到 5 月份 AIF 和其他迴歸預測方法比較預測結果圖

圖 31 台南地區 6 月份到 8 月份 AIF 和其他迴歸預測方法比較預測結果圖

43

圖 32 台南地區 9 月份到 11 月份 AIF 和其他迴歸預測方法比較預測結果圖 在台南冬季的部分各個預測法在短時數的預測上都保持著低誤差率的表現,

各個預測法也都有著很穩定的預測結果,但如果將其他季節的預測誤差率也納入

觀察的話會發現天真預測法以及 MARS 預測法在預測未來長時數的時候穩定度

會隨之下降,而這個狀況運用在預測夏季狀況時會更為明顯,從其他地區的夏季

地區實驗中也可以發現同樣的狀況,在前一章節中我們提出造成此原因可能是因

為午後雷陣雨的關係。另外還可以發現我們提出的 AIF 預測法也比各個預測方

法低了 5 個左右的百分點。

圖 33 高雄地區 12 月份到 2 月份 AIF 和其他迴歸預測方法比較預測結果圖

44

圖 34 高雄地區 3 月份到 5 月份 AIF 和其他迴歸預測方法比較預測結果圖

圖 35 高雄地區 6 月份到 8 月份 AIF 和其他迴歸預測方法比較預測結果圖

圖 36 高雄地區 9 月份到 11 月份 AIF 和其他迴歸預測方法比較預測結果圖

從上述對於四個季節以及四個地區的實驗發現,適定性迭代法在各個季節以

及各個地區表現都優於其他用於預測的線性迴歸方法,但仍然可以發現適定性迭

代法中特別的部分,像是和時間序列預測法一樣有著穩定的表現,但有比時間序

45

列法高的正確率,而適定性迭代法仍避免不了存在著一些缺點,像是因為只參考

純歷史資料,所以對於突如其來的空氣快速變化應對時間較慢,需要等待一段時

間獲得一些新的資料後才能改正模型降低誤差率。

4.4 類神經網路和機器學習類預測法正確率比較

上面章節中,我們已經將適定性迭代法和一些線性迴歸法以及時間序列法比

較過正確率,也證明我們的方法優於其他方法了,接下來就是和目前被廣泛使用

在預測問題的類神經網路以及機器學習進行比較,在這些章節中我們選用了三種

機器學習方法和本研究的適定性迭代式預測法進行正確率比較,三種方法都各自

在預測的領域上已有不錯的成果,我們想藉由這三種方法證明本研究提出的方法

是否可靠。

4.4.1 Xgboost 演算法

Xgboost 為此篇論文所提出[32],這是一種以傳統的 GBDT ( Gradient Boosting

Decision Tree )為基礎發展出的演算法,整體的特點有可以平行化處理,對於學習

速率非常快,還有再損失函數裡加入正規化方法降低誤差等等。目前已經大量應

用於分類問題之中,從前面參考文獻的章節中也可以發現已經有人應用於時間序

列的預測問題之中,但對於無法參考其他特徵值得純時間序列預測問題,它的正

確率還有待驗證,在模擬實驗中我們使用了 10000 組資料進行訓練,迭代次數為

46

2500 次,樹的深度為 15,子樣本全部採集,採用的歷史時間為 5 小時。

4.4.2 SVM 演算法

SVM 的特點就是計算的結果只由少數的輸入資料決定,原因是它小樣本的學

習方法,這個特點大大簡化了以往的分類和迴歸問題,在第二章節中可以得知已

經有研究將 SVM 用於預測時間序列問題之中,但類似研究中都輸入了很多特徵

參數,所以 SVM 對於純時間序列問題的正確率也有待驗證,在 SVM 的模擬實驗

中我們給予 10000 組的訓練資料訓練,採用的歷史時間一樣也為 5 小時。

4.4.3 Hybrid 預測法 (神經網路搭配 ARIMA 時間序列)

Hybrid 預測法是研究[22]中所使用的方法,主要是將時間序列資料帶入神經

網路模型中搭配著 ARIMA 時間序列預測法進行預測。雖然神經網路模型接受更

多的特徵輸入,但在研究中只給了時間序列資料就有很好的表現,在模擬實驗中,

我們分別給予歷史時間 700 小時訓練資料和歷史時間 5 小時進行訓練。

在這次模擬實驗中,我們使用了測站數量最多的台中地區,時間點則選擇了

1 月、4 月、7 月以及 10 月,之所以選擇這些月份的原因是因為這四個月份是各

個季節中間的月份,我們想要從這次模擬實驗中觀察適定性迭代法在各個季節中

有沒有優於機器學習方法。

47

圖 37 台中地區 1 月、4 月、7 月、10 月 AIF 與機器學習方法比較預測結果圖

整體的實驗結果如圖 37 所示,所有的模型輸入都只有純時間序列的資料,

可以發現到機器學習方法 (Xgboost、SVM) 的誤差率偏高,而導致誤差偏高的因

素我們在第二章相關文獻探討中討論過了,主要原因在於失去了其他特徵參數只

依靠時間序列進行預測以及將機器學習運用在迴歸問題後,太多分類結果導致正

確率無法提升。

但對於深度神經網路而言透過深度的特徵篩選,雖然只有時間序列的資料,

但依然可以有非常好的表現,可以從實驗結果發現 Hybrid 預測法在各個月份每

個小時的誤差率都優於適定性迭代法和另外兩個機器學習方法。

雖然神經深度網路可以預測出較高的正確率,但每一次建立預測模型時都會

和第二章節的參考文獻所提的相同,會耗費大量的時間建立模型,圖 38 是測站

數量對於建立模型時間的比較圖,橫軸為感測站數量,縱軸為建立預測模型所耗

費的時間(秒)。

48

圖 38 感測器數量和建立模型耗費時間關係圖

從圖 38 可以發現,Hybrid 預測法在建立模型時所耗費的時間和測站數量成

正比,大約是 6-7 秒處理一個測站,如果 Hybrid 想要實際應用於生活當中,可

能就必須要減少站點,或是利用邊緣計算、分群方法進行預測,但本研究中的適

定性預測法可以在 1 秒內完成對 100 個測站未來五小時的預測,可以在損失一點

點正確率的情況下,對所有測站完成預測,從計算時間的觀點來看,AIF 的可應

用性非常廣,能夠在短時間內對大量測站完成預測,因此在第五章節中,我們將

詳細說明我們如何將 AIF 實際應用於生活中,完成一個預測系統的比較網站。

0.01 0.1 1 10 100 1000

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97

AIF Hybrid Hybrid_5

49

第五章 應用系統架構

在本章節中會介紹到本研究的模型應用於實際生活中的系統架構,此系統的 功能有以下幾點:

1. 提供實際的未來預測狀況,將本研究實際應用在生活中

2. 提供和其他預測方法的比較功能

3. 將預測成果視覺化

整體的架構如圖 39 所示。一開始我們會讀入開放的原始資料後,在 AWS 上

執行一個資料預處理的程式,接著執行我們的預測模型,便能產出未來 1-5 小時

的預測值,之後將欲處理好的資料以及預測出的結果傳送到 GCP 上保存。

GCP 負責的任務有透過 MySQL 保存資料以及提供其他預測方法一個計算

的平台,除此之外我們的呈現網頁和預測結果比對以及資料視覺化也是透過 GCP

的平台,除此之外我們的呈現網頁和預測結果比對以及資料視覺化也是透過 GCP