基於時間序列、迴歸和正規化的快速預測PM2.5方法

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文指導教授：陳伶志博士. 基於時間序列、迴歸和正規化的快速預測 PM2.5 方法. A fast PM2.5 forecast approach based on time series data analysis, regression and regularization. 研究生：楊軒撰中華民國一〇七年七月.

(2) 摘要隨著城市化和全球化的不斷推進，空氣污染已經成為一個全球性的問題。儘管研究人員一直在試圖找到解決空氣污染的辦法，但空氣汙染中還是有許多問題無法解決，因此透過資料科學進行預測達到預防空氣污染變成了自我保護的重要關鍵。本研究透過了線性迴歸、正規化、時間序列以及布建在臺灣地區大量的 PM2.5 感測器預測未來五小時內的 PM2.5 數值，不同於其他多數預測方法參考了許多參數，我們只參考了 PM2.5 歷史資料這單一資料。透過上述的觀念我們設計了一項適定性迭代法 (Adaptive Iterative Forecast) 進行預測，能夠根據歷史資料的變化，快速預測出未來數小時 PM2.5 的數值。整體研究致力的方向為更快速地建立出準確的預測模型，經由各種比較分析在最後的實驗結果中我們證實已達到了上述成果。我們也將整體研究成果建置成一套預測系統廣泛應用於全臺各地，讓使用者能透過預測出的結果進行個人空氣品質的防護作用。. 關鍵字：PM2.5、空氣汙染、線性迴歸、正規化、時間序列、預測。. ii.

(3) Abstract Air pollution has become a global problem because of the continuous urbanization and globalization. Although, researchers have been trying to come up with solutions to tackle air pollution but still there are many loopholes that need be addressed to have an effective air pollution monitoring system. One way to tackle this problem by using - data science. In this research, we use linear regression and regularization, to forecast the PM2.5 values for the next five hours using PM2.5 data obtained from large scale PM2.5 sensors deployment in Taiwan. Our method is a data centric method and we use historical PM2.5 data to do the forecast. In our work , we designed an Adaptive Iterative Forecast (AIF) method for forecasting, AIF can rapidly forecast the PM2.5 based on the changes in historical data. The goal of the research is to develop efficient and accurate forecast models. Through various comparative analyses, we have proved that our model can achieve significant results. Based on the results, we have also built a forecasting system which is widely used throughout Taiwan. Such a system allows the users to stay aware of the air quality and plan their day to day life.. Keywords：PM2.5, Air Pollution, Linear Regression, Regularization, Time series, Forecast. iii.

(4) 致謝首先我要感謝我的指導教授-陳伶志教授，感謝他給予我進行這項研究時所需要的幫助以及指導，並在研究中讓我們自由發揮且不忘給予意見，使我們能夠在研究中學習到許多新知。感謝賀耀華教授、林均翰教授，不論是在團體會議或是私底下討論時都能夠針對我的問題提出許多明確的意見以及方向，讓我能夠發現許多不足的地方，使得論文更加完善。感謝我的家人，給予我自由的空間進行研究以及無經濟負擔的在學環境，因為學業常常很晚才回到家中，但父母從不會因為這樣責備我，讓我非常感激，在學期間有任何需要援助的時候，父母也是毫無考慮地給予我一切的援助，非常感謝父母的所有幫助，讓我完成碩士學業。感謝師大實驗室的各位，庭韶、琬琇、銘鴻、雅君、彥程、依昕、宗明、韻捷、瑞恩、威霖，謝謝你們的所有的幫助，不論是研究上的討論、改善或是生活上的閒談，都為我的碩士生活添加了許多的風采以及給予了非常多的幫助，感謝中研院實驗室的各位大哥大姊，姵瑀、昕紘、昱璋、浩皿、胡禎、有德、郁秀、謹瑋、東逸、泉恆、輔祥、立邦、沙奇、柏丞，謝謝你們給予的幫助以及不厭其煩的解答我的疑問，如果沒有各位的幫助，就沒有今天的研究成果了，謝謝各位。. iv.

(5) 目錄摘要........................................................................................................................................... ii Abstract .................................................................................................................................... iii 致謝...........................................................................................................................................iv 附圖目錄................................................................................................................................. vii 第一章. 介紹 ......................................................................................................... 1. 第二章. 相關文獻探討 ......................................................................................... 4. 2.1. 時間序列預測模型 (Time series model) ................................................ 4. 2.2. 線性迴歸 (Linear Regression) ................................................................ 6. 2.3. 機器學習 (Machine Learning) ................................................................ 8. 2.4. 神經網路 (Neural Network) ................................................................. 10. 第三章. 研究方法 ............................................................................................... 16. 3.1. 資料預處理 ............................................................................................ 17. 3.2. 預測模型 ................................................................................................ 19. 3.3. 預測方法 ................................................................................................ 24. 3.3.1. 重複式預測法 (Repeating forecast) ..................................................... 24. 3.3.2. 跳躍式預測法 (Jumping forecast) ........................................................ 25. 3.3.3. 迭代式預測法 (Iterating forecast) ........................................................ 25. 3.4. 固定性決定參數以及適定性決定參數 ................................................ 26. 3.4.1. 適定性決定參數 λ ................................................................................ 27. 3.4.2. 適定性決定參數 ℎ ................................................................................. 28. 第四章. 實驗與結果 ........................................................................................... 29. 4.1. 實驗資料 ................................................................................................ 29. 4.2. 固定性參數以及適定性參數比較結果 ................................................ 30 v.

(6) 4.3. 與其他時間序列預測以及迴歸預測介紹與比較 ................................ 37. 4.3.1. 天真預測法 (Naive method, NM) ........................................................ 37. 4.3.2. 加權移動平均法 (Weight moving average, WMA) ............................. 37. 4.3.3. 多元線性迴歸預測 (Multiple linear regression, MLR) ....................... 38. 4.3.4. 多元適應性迴歸預測(Multivariate adaptive regression spline, MARS) 38. 4.4. 類神經網路和機器學習類預測法正確率比較 .................................... 45. 4.4.1. Xgboost 演算法 .................................................................................... 45. 4.4.2. SVM 演算法 ......................................................................................... 46. 4.4.3. Hybrid 預測法 (神經網路搭配 ARIMA 時間序列) ........................... 46. 第五章. 應用系統架構 ....................................................................................... 49. 第六章. 結論與未來展望 ................................................................................... 53. 參考文獻.................................................................................................................................. 54. vi.

(7) 附圖目錄圖 1 研究方法流程圖.................................................................................................17 圖 2 參數 𝑋 的高低與相對誤差評估圖 ...................................................................19 圖 3 重複式預測法流程圖......................................................................................... 24 圖 4 迭代式預測法流程圖......................................................................................... 26 圖 5 大台北地區 11 月份到 2 月份預測相對誤差率比較圖 ....................................31 圖 6 大台北地區 3 月份到 5 月份預測相對誤差率比較圖......................................31 圖 7 大台北地區 6 月份到 8 月份預測相對誤差率比較圖......................................32 圖 8 大台北地區 9 月份到 11 月份預測相對誤差率比較圖 ....................................32 圖 9 台中地區 12 月份到 2 月份預測相對誤差率比較圖.......................................33 圖 10 台中地區 3 月份到 5 月份預測相對誤差率比較圖.......................................33 圖 11 台中地區 6 月份到 8 月份預測相對誤差率比較圖 .......................................33 圖 12 台中地區 9 月份到 11 月份預測相對誤差率比較圖 .....................................33 圖 13 台南地區 12 月份到 2 月份預測相對誤差率比較圖.....................................34 圖 14 台南地區 3 月份到 5 月份預測相對誤差率比較圖.......................................34 圖 15 台南地區 6 月份到 8 月份預測相對誤差率比較圖.......................................35 圖 16 台南地區 9 月份到 11 月份預測相對誤差率比較圖 .....................................35 圖 17 高雄地區 12 月份到 2 月份預測相對誤差率比較圖.....................................36 圖 18 高雄地區 3 月份到 5 月份預測相對誤差率比較圖.......................................36 圖 19 高雄地區 6 月份到 8 月份預測相對誤差率比較圖.......................................36 圖 20 高雄地區 9 月份到 11 月份預測相對誤差率比較圖 .....................................36 圖 21 大台北地區 12 月份到 2 月份 AIF 和其他迴歸預測方法比較預測結果圖 39 圖 22 大台北地區 3 月份到 5 月份 AIF 和其他迴歸預測方法比較預測結果圖 ..39 圖 23 大台北地區 6 月份到 8 月份 AIF 和其他迴歸預測方法比較預測結果圖 ..39 圖 24 大台北地區 9 月份到 11 月份 AIF 和其他迴歸預測方法比較預測結果圖 40 圖 25 台中地區 12 月份到 2 月份 AIF 和其他迴歸預測方法比較預測結果圖 ....40 圖 26 台中地區 3 月份到 5 月份 AIF 和其他迴歸預測方法比較預測結果圖 ......41 圖 27 台中地區 6 月份到 8 月份 AIF 和其他迴歸預測方法比較預測結果圖 ......41 圖 28 台中地區 9 月份到 11 月份 AIF 和其他迴歸預測方法比較預測結果圖 ....41 圖 29 台南地區 12 月份到 2 月份 AIF 和其他迴歸預測方法比較預測結果圖 ....42 圖 30 台南地區 3 月份到 5 月份 AIF 和其他迴歸預測方法比較預測結果圖 ......42 圖 31 台南地區 6 月份到 8 月份 AIF 和其他迴歸預測方法比較預測結果圖 ......42 圖 32 台南地區 9 月份到 11 月份 AIF 和其他迴歸預測方法比較預測結果圖 ....43 vii.

(8) 圖 33 高雄地區 12 月份到 2 月份 AIF 和其他迴歸預測方法比較預測結果圖 ....43 圖 34 高雄地區 3 月份到 5 月份 AIF 和其他迴歸預測方法比較預測結果圖 ......44 圖 35 高雄地區 6 月份到 8 月份 AIF 和其他迴歸預測方法比較預測結果圖 ......44 圖 36 高雄地區 9 月份到 11 月份 AIF 和其他迴歸預測方法比較預測結果圖 ....44 圖 37 台中地區 1 月、4 月、7 月、10 月 AIF 與機器學習方法比較預測結果圖47 圖 38 感測器數量和建立模型耗費時間關係圖....................................................... 48 圖 39 應用系統流程圖............................................................................................... 49 圖 40 預測方法中位數相對誤差率比較..................................................................50 圖 41 各個測站的預測數據圖...................................................................................51 圖 42 資料視覺化.......................................................................................................52 圖 43 AIF 與 Hrbrid 預測法 2018/03-2018/05 預測結果圖 ...................................52. viii.

(9) 第一章介紹近年來，空氣汙染在世界各地已經形成了嚴重的環境問題。例如臺灣自 2016 年 12 月開始實施空氣品質新指標後到 2017 年 2 月的期間，臺灣南部地區沒有一天的空氣品質有達到「良好」的情況，這些「不良好」的空氣造成了社會資源以及經濟上的損失也危害了人民健康，其實不只在臺灣，全球各地很多國家都正飽受空氣汙染所帶來的危害，而這些危害也引起了全球政府和多方的關注。空氣汙染中又以 PM2.5 最受注意，PM2.5 是確定空氣品質的重要參數，它是一種懸浮在空氣中的顆粒混合物 (懸浮微粒)，其直徑不大於 2.5 微米[1]，如今大多數的空氣品質指標如污染標準指標 (Pollutant Standards Index, PSI)或是空氣品質指標 (Air Quality Index, AQI)都有考慮到 PM2.5 的濃度，而 PM2.5 之所以如此受到重視的原因是因為 PM2.5 對於環境和健康所帶來的影響，目前已經有許多文獻和研究提出 PM2.5 和環境及健康有高度相關性的證明[2]，例如 PM2.5 對呼吸道的影響或是對於心肺功能的傷害目前都已經由醫學和科學證實，世界衛生組織也針對懸浮微粒是否有危害健康進行了研究[3]，世界各國也都已經制定了許多處理空氣汙染的相關政策(日本[4]、美國)與法案。而空氣污染的議題之所以會引起全球的關注與廣泛討論，最主要的原因在於空氣汙染對地球環境、人類健康和國家經濟上都已經形成非常大的威脅，根據美 1.

(10) 國國家海洋大氣管理局 (National Oceanic and Atmospheric Administration, NOAA) 的估計，美國每年因為空氣品質不好而導致非正常死亡的人數高達了 6 萬多人，在 2012 年中國的四大城市也因為空氣汙染的問題，估計導致了 8572 人非正常死亡，而同年光北京這個城市也因為空氣污染問題造成了 3.28 億美元的經濟損失[5]，由此可見空氣汙染對於國家政府的威脅，雖然很多人對於空氣污染這項議題提出了各項解決辦法，包括霧霾塔或是制定各種政策，但必須要面對的是至目前為止空氣污染還是沒有完善的解決辦法。不過面對空氣污染並不是完全束手無策的，目前還是有自我保護的手段，根據 NOAA 的估計，利用良好的預測方法可以幫助美國節省 90 億美元以及減少非正常死亡人口的數量[6]。也就是說透過良好的預測方法能夠有效降低上述 PM2.5 對世界所造成的危害。而且良好的預測方法除了美國外，對於全球飽受空氣污染所害的國家皆可適用。為此本研究針對了目前主流預測法的問題點進行改善，提出了一個新的即時預測方法來進行 PM2.5 的未來數值預測，而這項研究和預測方法有以下三點貢獻。 1.. 提出了一種快速準確的小範圍高精度預測方法並且建立一個能夠針對未來 1-5 小時進行 PM2.5 預測的預測系統。. 2.

(11) 2.. 我們將這項預測系統和其他的預測系統經過比較過後，證明了本研究能夠利用相對較少的時間對於較多的測站進行數值預測。. 3.. 本研究已經將此預測系統透過實際資料所預測的 PM2.5 數值進行誤差率的驗證並且已經將此預測系統實際應用在全台灣各地。目前以超過了 1000 個測站。在本篇論文的第二章，我們會詳述探討一些關於目前時下的預測方法，整理. 出這些方法對於空氣污染預測上的實質幫助，同時也會探討這些方法的問題面向。第三章將對於我們所提出的預測方法進行詳細的說明。第四章則會利用實驗結果驗證我們所提出的預測方法誤差率，以及使用我們所提出的方法和目前時下預測法進行一連串有關誤差率以及執行時間的比較。在第五章中，更會詳細說明我們使用了何種架構將本篇的預測方法應用於實際生活中使用。最後會對於本篇預測方法提出一些重要的總結。. 3.

(12) 第二章相關文獻探討在過去，空氣品質常使用氣象模擬以及化學污染物模擬排放搭配少量的監測站進行預測[25][26]，但由於統計排放污染物的資料不可靠，再加上有許多預設的複雜條件以及基礎理論不完善，導致預測的正確率以及精度都非常低。. 而和那些複雜的理論模型相比，利用空氣品質時間序列特性所進行的統計預測以及機器學習預測相對的簡單許多，所使用的參數也能夠透過實地測量得到，因此目前使用時間序列的預測方法也漸漸地成為了空氣品質主流的預測方法。所以在本章節中會先說明針對時間序列所做的預測模型的一些概念以及簡述時間序列預測模型在目前的預測研究中所佔的重要性，接著會說明目前存在的三種對於時間序列預測的主流方法，分別為線性迴歸預測、機器學習預測以及類神經網路預測。 2.1. 時間序列預測模型 (Time series model)[23][24] 基本上時間序列預測的本意側重於運用已知資料來預測未來，和其他預測模. 型不同的地方為時間序列預測模型不需要太多的額外資訊，可以僅使用歷史資料即可，但也可以加入其他額外資料增加模型預測的正確率。通常會獲得一段連續時間的測量資料，而且會將測量出的資料以均勻的時間間隔分開重建，通用的時間序列模型會如(1)所示： 4.

(13) 𝑦̂(𝑡 + 𝑇) = 𝑓(𝑦(𝑡), 𝑦(𝑡 − 𝑇), ⋯ , 𝑦(𝑡 − 𝑚𝑇)). (1). 𝑦̂(𝑡 + 𝑇) 為預測參數代表參考了已知資料後所獲得的結果，𝑡 為當下時間，𝑇 為時間間隔也就是所謂的採樣時間， 𝑓 代表時間序列方程式， 𝑦(𝑡) , 𝑦(𝑡 − 𝑇) , ⋯ , 𝑦(𝑡 − 𝑚𝑇) 是當前以及過去所測量出的資料參數，而當前以及測量出的資料量為 𝑚 + 1 個。目前時間序列預測模型也完成了許多領域上的預測，例如[7]當中利用了時間序列的預測模型搭配上資料探勘的技術，對於風力以及風速進行了短時間的預測，並將時間序列的預測模型搭配 K-nearest neighbors (KNN)技術一起使用，獲得更精準的預測結果。[8][9]也透過機器學習方法 Support Vector Machine (SVM) 搭配時間序列預測模型預測了難以預測的旅途時間和交通流量，在[8]裡面作者也提到了旅途時間的預測模型中採用了非常多的參數，包括車速、交通流量、天氣狀況，以及資料分析中的分群演算法⋯等等，但其中最重要的參數就是時間變化，如果建立出優秀的時間序列預測模型搭配上一些適合的演算法就能夠預測出準確的旅途時間，從上面所提到的參考文獻可以了解到，時間序列預測模型在預測中的重要性質和應用層面，而且也可以發現到時間序列模型有著可以搭配其他演算法的特性。. 5.

(14) 2.2. 線性迴歸 (Linear Regression) 線性迴歸應用於非常多的預測研究以及分析研究，分布的領域非常的廣泛，. 包含金融、氣象、工業、環境⋯等等。而其中金融因為有快速變動的特性，所以需要短時間就完成預測計算，因此金融預測在類神經網路和機器學習中被視為棘手的問題之一，而[10]的研究中作者就利用了線性迴歸快速計算的特性在手機中進行即時的股票價格預測，他透過多變量迴歸分析 (multi-variable linear regression, MLR) 搭配過去幾日的歷史股價資訊進行預測計算。. 在另一份研究[11]中，作者利用了歷史電量負載資訊、溫度、濕度、風速和常規事件活動等參數帶入多變量迴歸分析對電量負載進行預測，此研究的結論表示因為線性迴歸的特性，所以可以非常快速地計算出預測結果，也因為快速預測的特性所以可以將預測的頻率從以往的以天為單位改以每小時為單位，而且有突發狀況時也能在幾分鐘之內重新修正模型，上述這些特點都是類神經網路和機器學習難以達到的。. 在[13]這篇研究中，作者利用了時間序列預測以及線性迴歸模型對中國的城市交通事故進行預測，在結論中，作者表示利用時間序列和線性迴歸進行的預測在短期預測以及小範圍(城市)預測時可以得到不錯的預測結果，但當範圍擴大以及改為長期預測時，預測出的結果會和實際情況相差非常多。 6.

(15) 在空氣品質預測分析方面，利用純線性迴歸分析進行預測的研究非常稀少，主要原因是因為空氣品質的高複雜變化，以及影響空氣品質的因素非常眾多等等，因為上述的原因，[12]這篇研究使用了和上述研究同樣的多變量線性迴歸分析法對 AQI 進行預測，他們參考了二氧化氮、一氧化碳、臭氧、二氧化硫以及PM2.5 的時間序列變化建立出 AQI 濃度的關係式，和上面研究不同的地方在於此篇研究將多變量線性迴歸法搭配了一些梯度下降法，因此增加了一些計算時的時間複雜度，但也增加了一些正確率，即使如此，作者還是證明出了計算速度仍舊較非線性計算快速的結論。. 從上述所提到的研究可以發現出目前線性迴歸研究的幾個特點，像是會搭配其他方法以提升準確率，參考許多相關變因數，以及快速計算等特點，但上述研究都存在著一個共通問題就是關於正確率的部分，雖然能夠快速計算出結果，但對於正確率方面總是有點差強人意，這個問題在[14]中更加明顯，[14]的主要研究目的在於運用時間序列和線性模型進行未來溫度的預測，但最後的研究結果顯示出，運用此種方法只能預測出大致上的趨勢，對於實際值的驗證並不是如此的精準。. 7.

(16) 2.3. 機器學習 (Machine Learning) 近年來，機器學習吸引了非常多的學者關注，並且已經成功地運用在非常多. 的領域上，例如：圖像分類、自然語言處理、預測任務、運動建模等[27]，而在這一章節中，我們會主要介紹非深度類的機器學習預測法。在預測方面，部分的研究會將問題先轉換為分類問題，簡單一點的分類問題就會是二分法，例如：是或不是，會或不會這類。在[30][31]的研究中就使用了 Xgboost 機器學習演算法以及關聯式特徵選擇刪除不必要的特徵，來預測二分法問題。在空氣品質預測方面也可以發現類似上述的研究手法，[36]中作者就先將空氣品質透過數值分類為好空氣以及不好的空氣，再利用許多的參數歷史資料，例如：二氧化硫、二氧化氮、臭氧，以及交通狀況等等透過 SVM 進行預測。除了透過歷史資料來進行預測以外，也有人利用空氣汙染的因果關係進行預測， [32]研究中作者利用空汙隨著時間傳遞的這項特性搭配上貝葉式學習建立出了一套識別空氣汙染因果關係的模型，接著透過因果關係來進行空氣預測，但在此篇研究中也是將空氣汙染先進行分類，在對空氣汙染的類別進行預測。. 8.

(17) 透過上述幾篇研究可以發現，機器學習的研究多半搭配著大量的特徵參數進行，這些特徵參數的測量會耗費大量的時間以及金錢成本，但最明顯的缺點為預測結果為分類狀態，因為分類狀態的預測在我們看來是不夠貼切於人民生活的。於是也有研究針對了分類狀態的問題進行改善，例如[37]的研究中，他透過了分類回歸樹對過去一整年的空氣資料以及氣象資料建立預測 PM10 的預測模型，而此預測模型便可將預測結果用迴歸型態，也就是一般貼近於人民的數值型態顯示。在[35]的研究中也是將過去 250 天的歷史 PM10 和 PM2.5 資料以及氣象資料透過 SVR 進行預測，此篇研究的手法與上篇研究的手法類似，預測出的結果也同樣為迴歸型態，因此兩篇研究其實有著類似的缺點，那就是迴歸型態遠遠複雜過分類問題的預測，因此當機器學習要將預測結果轉變為迴歸型態時勢必會面臨到正確率下降的問題，而上述兩篇的研究成果都有著這樣的問題。而為了解決剛剛所提到正確率降低的問題，在研究[29]中作者則是利用了更多的參數進行彌補，研究提出了一套半監督式的學習方法，利用當下的空氣品質數據 (SO2 , NO2 , PM2.5, PM10)、氣象資料、交通流量、和人們的移動等等數據來預測未來的空氣品質，在研究中作者表示每一項特徵參數對於他們的預測模型都是非常有價值的，例如沒有輸入氣象資料的話，整體正確率會直接下降 5%，. 9.

(18) 有一些特徵參數是需要花費大量成本才能取得的，但為了正確率還是必須不惜成本的支出。雖然此篇研究在最後的實驗結果中證明出了他們能夠在非常短的時間內完成對於北京這個城市的未來空氣品質預測，但實際上此研究在北京部署的測站僅有 22 個，22 個測站對於北京這個大城市來說感測站比例其實還是稍嫌不足。透過上述研究可以發現，非深度的機器學習通常會將問題分類後再進行預測，如果直接使用到迴歸問題時就必須仰賴更多的特徵參數輸入來維持正確率，但這也在無形之中增加了更多的金錢成本，但如果放棄掉這些高成本的參數，整體的正確率會降低許多，在正確率及成本的抉擇上這是機器學習的一項難題 2.4. 神經網路 (Neural Network) 神經網路的基本主要可以分為三個層面，分別為輸入層 (Input Layer)、隱藏. 層 (Hidden Layer)、輸出層 (Output Layer)，其中隱藏層可以非常多層，實際上總共需要多少隱藏層才足夠，這方面沒有詳細的研究，通常越多隱藏層會讓非線性的效果越顯著，但同時也代表著計算複雜度越高所耗費的時間越多，而目前類神經網路已經廣泛地被使用在分類問題 (Classification problem) 和預測問題 (Prediction problem) 之中，也因為深度學習研究的突破，對於空氣品質預測的研究數量，更是比線性迴歸以及非深度的機器學習方法多出許多。. 10.

(19) 像是在研究[28]中，作者就提出了一種考慮時間相關性以及空間相關性的深度學習預測方法，這篇方法的特點在於除了考慮時間以外還考慮了空間相關性，作者表示非常多的方法只在乎時間序列的特徵篩選，卻忽略了測站和測站間的空間相關性，最後作者在這篇研究中歸納出了運用時空相關性進行預測的模型在正確率的表現上比只使用時間序列的模型優異，同時作者也認為因為深度學習的關係，必須花費較多的時間進行模型的訓練。在研究[15]中，研究人員在芬蘭首都 (Helsinki) 部署了25個能夠感測 NO、O3 、 PM10 和 PM2.5 的感測器，利用這些感測器獲得的資料並搭配著 NOAA 提供的每小時氣象資訊紀錄透過 Extreme Learning Machine (ELM) 進行預測，ELM 是一個簡單基本的神經網路，它的特點是不會受到極值的影響，此篇研究特別的地方還有一個，就是花費了很多心力在於特徵的篩選，此篇研究人員表示，根據感測器所處的位置不同，所要選擇的特徵也大不相同，例如有些感測器會需要濕度這項特徵但有些不用，有些感測器可能需要壓力和氣溫這些特徵，有些則不需要。從此篇研究中可以發現特徵的篩選對於神經網路的重要性。. 在研究[16]中作者先將整體訓練資料分為夏季和冬季進行分別訓練，因為作者表示從長期的觀察下來，實驗場地冬季的空氣污染會比夏季更為嚴重，所以將模型分開訓練，將空氣品質資料分開之後會再將過去兩天的空氣狀況、過去兩天 11.

(20) AQI 所包含的6個監測指標、過去一天的天氣狀況，以及附近城市過去一天的天氣狀況這些影響因素加入 BP 神經網路 (Back Propagation Neural Network) 中並搭配資料探勘的技術進行訓練和預測，並且將特徵進行影響分析，從而篩選出不重要的特徵，進而達到降低計算時間的目的，從此研究也可以發現特徵篩選對於神經網路預測的重要性。. 在研究[17]中作者參考了過去2年 PM10 的歷史資料以及時間序列、溫度、濕度、壓力、風速等氣象條件，透過 ANN 對未來兩週的 PM10 進行數值預測，也獲得了不錯的正確率，這項研究的特點是參考了非常多的歷史資料，因為作者希望從歷史資料搭配時間序列中找出 PM10 的循環關係，由這項研究可以了解，訓練用的資料數量對於神經網路的重要性。. 在[18]中，作者則是先利用前四天的各種氣象資料搭配 ANN 建立出一個專門預測未來三天的溫度，風速和風向，相對濕度，降雨量等氣象數據的模型，再利用此模型將歷史的 AQI 資料按照四個季節利用線性迴歸分析出有顯著關係的氣象參數，分析出參數後利用 ANN 分別為四個季節建立各自的 AQI 預測模型，然後再透過上述的預測氣象數據模型進行 AQI 值的預測，在這篇研究中他們利用了線性迴歸的分析以及考慮了氣象預報和氣象數據來增加模型預測的精準度以及減少預測的計算時間。 12.

(21) 在[19]中，研究作者先將他所能測量到影響 AQI 的因素一一進行卡方檢驗，透過卡方檢驗選出比較重要的影響因素，再將這些影響因素透過 BP 神經網路建立 AQI 的預測模型。. 透過上述幾個研究方法可以發現，大部分使用神經網路方法的預測，都會非常依賴輸入影響空氣因素的參數，而且幾乎都要利用一些統計方法進行特徵篩選以降低計算時間，為了降低計算時間，許多研究還會透過分群分類 (cluster、 classify) 來減少計算時間。. 例如在研究[20]中就是利用了改進的 K-means Clustering 方法對不同地區的 AQI 組成進行分群，也透過分群了解了該地區的 AQI 特徵，除了 K-means 外也有研究人員使用 wavelet 搭配 Clustering 對西安市的 PM2.5 進行分群並且試圖wavelet 來理解 PM2.5 的區域分佈特徵，研究最後透過 PM2.5 的區分結果將西安市13個測站分為3個群集[21]。. 在研究[22]中則是將上述所提到的技巧進行搭配提出了一個預測模型，此研究將時間序列預測方法 (Autoregressive Integrated Moving Average model, ARIMA) 搭配上 Autoregressive Neural Network 建立了一個只需要參考 PM2.5 歷史資料的預測模型，並且利用了 wavelet 分解將幾百個感測站透過歷史資料分出了幾個. 13.

(22) 群集，再將該群集的 PM2.5 感測資料帶入預測模型之中，獲得了很好的預測結果同時也降低了計算時間。綜觀上述關於神經網路的預測結果，可以發現上面提到的預測方法大多非常依賴輸入很多環境變因以及影響因素進入模型之中，最常見的環境變因就是交通流量、人為活動遷移、是否為休息日之類的，而影響因素則是測量到的氣象數據以及其他有可能影響空氣品質的化學物等等，但是有一些數據並不是非常容易取得，例如有些感測化學物的感測器非常昂貴，而且為了將模型能夠預測更長遠的未來狀況，很多研究會將氣象資訊加入預測模型中，這也變相的增加的模型的運算時間，但就算沒有利用環境變因以及影響因素來訓練類神經網路，利用單純時間序列的方法進行訓練也會需要非常大量的歷史資料以及訓練時間。. 第二項可以發現的特點就像上述所提到的許多研究都會花費很多心力在降低計算時間，因為為了讓預測結果更加準確，許多研究會增加神經網路的隱藏層或是輸入的影響因子數量，但這個舉動會增加非常多的計算時間，因此很多研究透過分群分類、檢驗輸入層的神經元等等的方法來降低計算時間，但即使如此，目前利用神經網路進行預測所要耗費的時間還是遠高於線性迴歸分析方法。. 14.

(23) 從上述相關文獻中我們可以發現，線性迴歸預測有著計算速度快，但正確率比較低的特性，而類神經網路對於預測雖然有著不錯的成果，但必須花費很多心力以及成本在特徵篩選和計算上。. 然而空氣品質預測必須和時間競賽，我們認為在一定的正確率基礎下快速預測並實際應用在生活中是空氣品質預測研究方面最大的貢獻與價值，為了能夠實際應用在生活之中，我們做短時間的預測，因為短時間的預測和長時間預測比較起來是比較貼近人民的生活的，也因為如此，所以研究中我們不參考氣象資訊，只參考 PM2.5 的時間序列資料進行預測以節省運算時間，並且加入了改進方法，讓整體預測達到保有快速計算的特性，同時也能夠補足線性迴歸中在預測正確率上表現不佳的缺點，整體預測模型的詳細內容會在第三章中詳細說明。. 15.

(24) 第三章研究方法在上述章節中我們提到，利用機器學習以及類神經網路的預測方法會耗費大量的時間在建立預測模型之中，而且為了降低誤差率，很多機器學習和類神經網路的模型會加入更多的參數進行訓練以降低誤差率，雖然在誤差率方面收到了很好的成效，但是在時間的成本上和特徵的選擇上卻付出了不小的代價，這個問題會導致一個狀況，假設模型的原意是想要預測出未來一小時的空氣品質狀況，但卻需要遠超過一小時建立預測模型，這樣就失去了預測模型真正的意義了，而且也難應用於實際生活當中。因此在本章節我們會根據 Tikhonov regularization[33]理論提出預測方法，而預測方法會透過不同的計算方式分別提出三種預測法，第一種方法為利用重複式計算的預測法，第二種方法為跳躍式的預測方法，第三種方法為透過迭代式計算的預測方法。這三個方法的核心主旨都是「利用空間關係和時間序列，快速預測未來短期的空品情況」，以及利用動態的參數規劃，實現精準且快速的預測。整體的研究方法流程圖可以參考圖 1. 16.

(25) 圖 1 研究方法流程圖. 3.1. 資料預處理一開始的資料來源會是每五分鐘所傳回的資料，傳回的資料內容會包括時間、. PM2.5、PM10、PM1 以及溫濕度和經緯度，依據這些資料內容我們會先做一些預先資料處理，之所以要進行預先資料處理是因為原始資料會有一些遺失狀況以及需要將原始資料處理成所需要的型態。. I.. 資料時間以及遺失值處理一開始會先將 PM2.5 的數值依據時間計算每小時的 PM2.5 平均值，如果有發. 生整個小時都沒有傳回資料的狀況時，我們會將那個小時的狀況稱做遺失值並且標記為 N/A 然後進行補值，若測站 D 在第 y 時間點有遺失值的狀況發生時，同時. 17.

(26) 有時間點 x , z，而且 x 一定為 y 之前的時間點 z 一定為 y 之後的時間點，那麼這時候就會依照下列內插法公式(2)進行補齊遺失值。 𝐷𝑥 + 𝐷𝑧 , 𝑖𝑓 𝑦 ≠ 0 𝐷𝑦 { 2 𝐷𝑥 , 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 II.. (2). 資料分區以及篩選將資料進行遺失值補齊之後我們會將資料的經緯度依照城市的行政區域進. 行分區，這樣做的目的是為了能夠依照城市地緣相進的關係分別建立預測模型，分區過後會回頭重新檢討補齊了多少的遺失值，因為如果有太多的資料是使用上述內插法補齊時，會造成資料變為線性結果，這樣會和實際的空氣品質狀況有出入，而且也會間接的影響到計算測站間關係程度的結果，所以為了避免此情況的發生，會先對每個測站的資料進行篩選，我們會先假定一個參數 𝑋，如果測站內插法補足的資料大於整體資料百分之 𝑋 的時候，就會將這個站點排除在這次預測之外，以避免上述情況發生。至於 𝑋 的選擇影響，我們對 𝑋 的大小和實際資料之間的差異做了一份相對誤差的評估。. 18.

(27) 1% 4% 7% 10% 13% 16% 19% 22% 25% 28% 31% 34% 37% 40% 43% 46% 49% 52% 55% 58% 61% 64% 67% 70% 73% 76% 79%. 1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0. 圖 2 參數 𝑋 的高低與相對誤差評估圖. 圖 2 中橫軸的數字代表選擇的篩選率，縱軸為相對誤差率，這一份圖所代表的意義為，當 𝑋 %選用多少時，會和實際資料有多少的誤差產生，可以從圖中發現，當 𝑋 %到達 10%時，相對誤差到達 5%，我們認為 5%是一個能接受的標準，在 𝑋 使用 10%時通過篩選的機器數量也能夠接受，因此在模擬實驗中我們會將 𝑋 %以 10%帶入。 3.2. 預測模型整體模型的概念環繞著一個簡單的理念，那就是當下時間的空氣品質和之前. 時間的空氣品質有著一定的關係，而且當下這個區域的空氣品質會影響著未來週遭的空氣品質，也就是說一個空間點當下的空氣品質好壞，是同時被時間和空間. 19.

(28) 影響著的，有這樣的推理是因為空氣品質的變化是隨著時間連續改變的，而且空氣品質會透過許多氣象因素影響周遭其他區域的空氣品質，所以預測模型的核心想法就是尋找出空氣連續變化以及感測站之間的關係程度，這個關係程度我們想利用歷史資料尋找出，並且可以使用矩陣進行表示以利於預測計算。一開始我們會先定義ℇ 為誤差， 𝑡 是當下時間，而 𝑁𝑡 是在 𝑡 時間下所有測站的 PM2.5 值，𝑁𝑡 會以向量進行表示，那麼我們可以用 𝑁𝑡+1 代表未來一小時的 PM2.5 數值，而按照上面的想法可以列出以下的公式(3) 𝑡. ℇ=. ∑ (𝑁𝑖 − 𝑀𝑡ℎ × 𝑁𝑖−1 ). (3). 𝑖=𝑡−ℎ+1. 其中𝑀𝑡ℎ 代表的是在 𝑡 這個時間點下參考了過去 ℎ 筆歷史資料而建立出的關係矩陣 𝑀， ℎ 代表著參考多少筆的歷史資料，假設 ℎ = 4 則就是參考了過去 4 小時的歷史資料，然後一般情況下我們會希望 ℇ 會接近 0 越好，代表預測的非常精準幾乎沒有誤差。了解上述核心想法後便發現到，整個問題會導向變成求出關係矩陣 𝑀 的解，也就是逆問題，直觀的看來，想要求得此類問題的解最簡單的方式會選擇最小平方法，最小平方法如(4)所示。 ‖𝐴 − 𝑥𝐵‖22 = 0. 20. (4).

(29) 其中 𝐴 代表一向量，𝑥 代表解，𝐵 代表另一個向量，但最小平方法有幾個狀況下無法使用 1.. 最小平方法如果用在資料本身有重大不確定性時產生出來的誤差會非常大，因此不太適用，需要考慮更多條件。(空氣品質隨時間的分布狀況就屬於不確定性資料). 2.. 最小平方法不能應用於非適定性問題。(上述公式主要是利用測量到的 PM2.5 值來尋找測站間的關係矩陣，因此屬於逆問題所以也屬於非適定性問題) 為了解決上述兩點的情況來求出關係矩陣 𝑀 的解，我們使用了正規化條件來. 進行處理，正規化的主要目的便是尋找和非適定性問題相似的適定性問題的解，而我們使用的正規化方法便是 Tikhonov 正規化法，Tikhonov 正規化法主要的核心想法如(5)所示。 ‖𝐴 − 𝑥𝐵‖22 + ‖𝜏𝑥‖22 = 0. (5). 其中 𝐴 和 𝐵 為一向量，𝑥 為 𝐴 和 𝐵 的解，τ 為 Tikhonov 𝑚𝑎𝑡𝑟𝑖𝑥 ， 𝜏 = 𝜆𝐼 ，𝜆 為一參數，目的類似於增加一個懲罰參數，讓前面數學式尋找到的最佳解且更符合實際。如果 𝜆 給定 0 那整體數學式便會變成最小平方法，因此可以透過對 𝜆 參數的調整，找尋出最適合的解。. 21.

(30) 接著便把 Tikhonov 正規化的核心想法帶入上述提到的預測關係式中，便可以得出(6)。 𝑡. ℇ=. 2. (6). 2. ℎ ℎ ∑ (‖𝑁𝑖 − 𝑀𝑡−1 × 𝑁𝑖−1 ‖2 ) + 𝜆 × ‖𝑀𝑡−1 ‖𝐹. 𝑖=𝑡−ℎ+1. 從上述數學式可以了解，我們可以獲得的資料為 𝑁𝑡、𝑁𝑡−1 ，而必須給定的參數有 𝜆 以及 ℎ，然後 ℇ 我們會希望非常小接近零，代表誤差非常小模型很準確，接下來便可透過一些數學手段尋找一個關係矩陣 𝑀 使得模型的誤差最小。首先將(6)完整表示如(7)所示 𝑡 𝑇. ℎ ℎ ∑ (𝑁𝑖 𝑇 × 𝑁𝑖 − 𝑁𝑖 𝑇 × 𝑀𝑡−1 × 𝑁𝑖 − 𝑁𝑖−1 𝑇 × 𝑀𝑡−1 × 𝑁𝑖 + 𝑁𝑖−1 𝑇 𝑖=𝑡−ℎ+1. (7) 𝑇. 𝑇. ℎ ℎ ℎ ℎ × 𝑀𝑡−1 × 𝑀𝑡−1 × 𝑁𝑖−1 ) + 𝜆 × 𝑇𝑟(𝑀𝑡−1 × 𝑀𝑡−1 )=0. 接著為了找出一個關係矩陣 M 會使得整體誤差最小，所以我們讓(7)對 M 進行微分尋找極值，但是在微分之前，我們必須先確認(7)為可微分的方程式，以及(7) 微分後的極值為最小值，簡而言之就是證明(7)為一個 convex function。而 convex function 的定義為在某個向量空間的區間上有個實質函數 𝑓 ，若再定義域區間中的任意兩點 𝑥 , 𝑦，以及 𝑡 ∈ [0,1]，符合(8)則表示 𝑓 為 convex function。 𝑓(𝑡𝑥 + (1 − 𝑡)𝑦) ≤ 𝑡𝑓(𝑥) + (1 − 𝑡)𝑓(𝑦). 22. (8).

(31) 而我們可以透過三角不等式 (Triangle inequality) 和絕對可擴展性 (Absolutely scalable )證明我們所提出的模型(6)屬於 convex function 。因此我們可以將方程式(7)進行微分後得到方程式(9)。 𝑡 ℎ ℎ ∑ (0 − 𝑁𝑖 × 𝑁𝑖−1 𝑇 − 𝑁𝑖−1 𝑇 × 𝑁𝑖 + 2𝑀𝑡−1 (𝑁𝑖−1 𝑇 × 𝑁𝑖−1 )) + 𝜆 × 2𝑀𝑡−1 𝑖=𝑡−ℎ+1. (9) =0 之後進行整理後以(10)表示 𝑡. (10). ℎ ℎ ∑ (−2𝑁𝑖 × 𝑁𝑖−1 𝑇 + 2𝑀𝑡−1 (𝑁𝑖−1 𝑇 × 𝑁𝑖−1 )) + 2𝜆𝑀𝑡−1 =0 𝑖=𝑡−ℎ+1 ℎ 然後使用(10)對𝑀𝑡−1 進行分類並消除係數後得出(11) 𝑡. 𝑡. ℎ 𝑀𝑡−1 × ( ∑ (𝑁𝑖−1 𝑇 × 𝑁𝑖−1 ) + 𝜆 × 𝐼) = 𝑖=𝑡−ℎ+1. (11). ∑ (𝑁𝑖 × 𝑁𝑖−1 𝑇 ) 𝑖=𝑡−ℎ+1. 將(11)乘上一個反置矩陣便可以得出關係矩陣𝑀的 close form solution (12) 𝑡. 𝑡. ℎ 𝑀𝑡−1 = ( ∑ (𝑁𝑖 × 𝑁𝑖−1 𝑇 )) × ( ∑ (𝑁𝑖−1 𝑇 × 𝑁𝑖−1 ) + 𝜆 × 𝐼) 𝑖=𝑡−ℎ+1. −1. (12). 𝑖=𝑡−ℎ+1. 透過上述利用一些數學技巧我們找尋到了關係矩陣 𝑀 的 closed form solution，以此為基礎便能利用這公式解提出預測方法。. 23.

(32) 3.3. 預測方法這個章節我們會利用上一章節所求出關係矩陣的解進而提出三種預測方法. 來滿足各種預測需求，而這三種方法分別為重複式預測法 (Repeating forecast)、跳躍式預測法 (Jumping forecast)、迭代式預測法 (Iterating forecast)，基礎上預測未來一小時的 PM2.5 數值三種方法是相同的，所以以下會一一詳述三種方法對於預測未來一小時以後 PM2.5 數值的概念差異。 3.3.1 重複式預測法 (Repeating forecast) 在擁有可以計算關係矩陣的公式之後我們便能很直觀的列出預測數學式，也就是當下的 PM2.5 數值搭配上關係矩陣之後就是未來一小時的 PM2.5 數值，而如果要預測出未來 𝑝 (𝑝 > 1) 小時時段的 PM2.5 數值時，重複式預測法會利用計算出的關係矩陣搭配原始資料進行反覆計算，會如下列數學式(13)以及圖 2 表示。 𝑝. ℎ 𝑁𝑡+𝑝 = (𝑀𝑡−1 ) × 𝑁𝑡. 圖 3 重複式預測法流程圖 24. (13).

(33) 3.3.2 跳躍式預測法 (Jumping forecast) 跳躍式預測法顧名思義是對於目前的時間點做跳躍式的預測，也就是不需要循序漸進的預測，能夠直接預測某個時間點，而為了能夠達成此結果，我們的做法便是將要預測的小時數( 1~ 𝑝 )透過歷史資料進行分別建模，也就是說不再單純依靠關係矩陣的更動來進行預測，直接建立模型，如果是預測未來一小時的模型那麼就參考間隔一小時的資料變化來進行建模，如果是預測未來兩小時的模型則透過參考間隔兩小時的歷史資料進行建模(假設當下時間是 10:00a.m，而我想要建立預測未來兩小時的模型，那麼就可以透過參考 10:00 和 8:00 的資料關係以及 9:00 和 7:00 的資料關係，以此類推下去進行建模)，想要獲得未來哪段時間的預測數值就使用哪種預測模型，整體作法會如(14)所表示，此時我們將關係矩陣 𝑀𝑡ℎ 表示為 𝑀𝑝 ℎ𝑡 來進行區分，而此關係矩陣的意義為在 𝑡 時間點中使用過去 ℎ 小時，用來預測未來 𝑝 小時的關係矩陣 𝑀 ，用來表明跳躍式預測法可以直接對某時間點進行預測的特色。 𝑁𝑡+𝑝 = 𝑀𝑝 ℎ𝑡−1 × 𝑁𝑡. (14). 3.3.3 迭代式預測法 (Iterating forecast) 迭代式預測法的核心想法是透過預測出的數值，不斷的迭代更新關係矩陣 M 的整體情況，每次預測出一個新的 PM2.5 數值便將新預測出的數值加入參考，重 25.

(34) 新計算關係矩陣 M，將新計算出的關係矩陣 M 用於更長時間的預測，直到預測出未來目標時間，所以整體的做法和數學式如下(15)以及圖 3 所表示。 ℎ 𝑁𝑡+𝑝 = 𝑀𝑡+𝑝−1 × 𝑁𝑡+𝑝−1. (15). 而將上述(14)帶入，則整體式子會變成下列數學式(16) ℎ ℎ 𝑁𝑡+𝑝 = 𝑀𝑡+𝑝−1 × 𝑀𝑡+𝑝−2 × ⋯ × 𝑀𝑡ℎ × 𝑁𝑡. (16). 圖 4 迭代式預測法流程圖 3.4. 固定性決定參數以及適定性決定參數從上述的預測模型中我們可以發現整體模型必須給定兩個參數，也就是 λ 以. 及 ℎ ，實際上整個模型的流程會以如何給定這兩個參數而大致分為兩種情況，第一種情況是，建立模型之前就給定好 λ 以及 ℎ 然後完成整個預測流程，過程中都不會進行變更， λ 以及 ℎ 的數值決定都是依照實驗經驗，這種情況就是固定性決定參數 (Fixed)，而另一種情況就是適定性決定參數 (Adaptive)，因為空氣品質實. 26.

(35) 際上是隨著時間序列在進行變化，而且並不是規則的時間變化，也就是說空氣品質並不會隨著固定時間進行改變，因此透過這個概念我們提出了適定性決定參數，讓參數隨著空氣品質進行改變，整體的適定性決定參數方法會先透過歷史資料決定 λ 以及 ℎ ，後面每完成一次預測或是獲得新的資料，就在對 λ 以及 ℎ 重新進行適定性更新，而更新的方法會在本章節詳細描述。 3.4.1 適定性決定參數 λ 在本章節的第二小章預測模型中我們已經說明了有關 λ 的功用了，所以選擇出一個優秀的 λ 數值，對於整體預測的正確率是很有幫助的，而適定性決定 λ 的方法如下。在每一次建立預測模型之前，我們會先利用當下的 PM2.5 資料和歷史的 PM2.5 資料以及一個極小值的 λ 和一個極大值的 λ 進行模擬預測，再透過實際資料計算誤差值，如此一來便能獲得兩個不同的誤差率，利用這兩個 λ 以及誤差率我們便可以透過二元搜尋法來尋找出最適合的 λ 解(也就是誤差率最低的解)，並將最適合的 λ 解帶入下一次的預測當中，這樣做的目的是可以確保目前運用的 λ 是歷史資料的最佳解，可以使用歷史最佳解對目前進行預測，而不是只是為了符合正規化限制而隨便帶入的參數，接著等待新的 PM2.5 資料，不斷的重複更新 λ 的動作。. 27.

(36) 3.4.2 適定性決定參數 ℎ ℎ 代表要參考多少小時的歷史資料，然而 ℎ 並不是參考越多越好，因為空氣品質是連續變化的，所以在有限時間序列的角度下，離當下時間點越遠的空氣品質資料其價值會較低，也就是說越接近當下時間點的資料越有價值。而整體的演算法概念如下，我們會利用現有資料分別使用 ℎ = 1~𝑘 做一次模擬預測，𝑘 為所設定的門檻值，基本上所使用的 𝑘 越大那麼誤差率會越高，原因是因為上述提到的越接近當下時間點的資料越有價值。之後將 𝑘 次模擬預測的結果分別計算誤差率，接著對 1~𝑘 一一進行檢驗，最後選擇誤差率最低的數字來當作下一次實際預測所使用的 ℎ，每一次進行預測前都亦是如此，如此一來便能確保使用誤差率較低的參數進行建立預測模型。. 28.

(37) 第四章實驗與結果從上一章節的研究方法中我們提出了三種預測方法以及兩種決定參數的方式，在這一章節中我們會利用真實資料的模擬實驗對這三種方法進行比較，再從中選出表現最佳的方法，利用表現較佳的方法和其他預測方法進行比較分析。 4.1. 實驗資料在實驗資料中，我們選用了在臺灣佈建了超過 3000 台 PM2.5 感測器的空氣. 盒子 (AirBox) 所提供的開放資料作為實驗資料的來源，並選擇了當中四個行政區的感測器進行預測，分別為大台北地區 (BigTaipei)、台中地區 (Taichung)、台南地區 (Tainan) 和高雄地區 (Kaohsiung)，之所以選擇這四個行政區域是因為這四個行政區部署的感測器數量較多，感測器的密度較足夠，在感測器數量方面可以參考表格 1，表格 1 中標題列為各個月份，時間點為 2016 年 11 月到 2017 年 10 月，表格中的數字為各個月份中用來進行預測的感測器數量。模擬資料方面我們使用四大行政區一整年度每小時的 PM2.5 平均值進行模擬實驗並計算平均相對誤差率，相對誤差其定義為 |實際數值 − 預測數值|/ 實際數值。. 29.

(38) 11. 12. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 台北. 98. 169. 152. 87. 88. 104. 121. 92. 91. 69. 70. 62. 台中. 119. 179. 122. 120. 129. 175. 201. 212. 183. 178. 205. 217. 台南. 119. 106. 111. 109. 126. 134. 127. 132. 116. 90. 112. 64. 高雄. 31. 168. 184. 178. 179. 174. 170. 54. 101. 154. 67. 143. 表格 1 各地區 2016/11-2017/10 感測器數量表 4.2. 固定性參數以及適定性參數比較結果整體的模擬實驗結果如圖 5-圖 20，我們先將前面第三章節中提到的三種預測. 方法以及兩種決定參數的方法各自進行比較，也就是說總共會有3 × 2 = 6種預測方法，而這六種預測方法分別是固定性重複預測法 (Fixed Repeating Forecast, FRF)、適定性重複預測法 (Adaptive Repeating Forecast, ARF)、固定性跳躍預測法 ( Fixed Jumping Forecast, FJF)、適定性跳躍預測法 (Adaptive Jumping Forecast, AJF)、固定性迭性預測法 (Fixed Iterating Forecast, FIF)以及適定性迭代預測法 (Adaptive Iterating Forecast, AIF)，之後按照季節以及地區分開比較，因為整體研究方法參考了時間特性以及空間特性，因此將這兩種特徵皆視為影響變因，所以我們將實驗分別依照時間以及空間的特性探討，時間的實驗選擇中我們選用了一整年的實驗資料，並依照季節進行分類，季節分別為冬季(12 月~2 月)、春季(3 月 ~5 月)、夏季(6 月~8 月)、秋季(9 月~11 月)[34]，實驗地區則為大台北地區、台中地區、台南地區以及高雄地區。. 30.

(39) 下列所有圖中的橫軸為預測小時數，縱軸皆為相對誤差，圖表中會有不同顏色形狀的線段，分別代表不同的預測方法，藍色線段表示固定性重複式預測法、紅色線段表示固定性跳躍式預測法、綠色線段表示固定性迭代式預測法、紫色線段表示適定性重複式預測法、淺藍色線段表示適定性跳躍式預測法、橘色線段為適定性迭代式預測法，每種線段各會有五個點，分別代表未來一小時到未來五小時的預測數值。. 圖 5 大台北地區 11 月份到 2 月份預測相對誤差率比較圖. 圖 6 大台北地區 3 月份到 5 月份預測相對誤差率比較圖. 31.

(40) 圖 7 大台北地區 6 月份到 8 月份預測相對誤差率比較圖. 圖 8 大台北地區 9 月份到 11 月份預測相對誤差率比較圖圖 5-圖 8 為大台北地區一整年度的六種方法預測誤差率比較，可以發現適定性迭代法不論在預測未來任何時數上，表現都優於其他五種方法，迭代法除了預測表現優秀以外，還有著優於其他方法的穩定性，而適定性跳躍法、固定性跳躍法、以及固定性重複法對於預測未來 4-5 小時皆有著不穩定的表現，尤其是重複法，另外從上述四張圖中還可以發現不論是何種預測法，適定性參數決定法都優於固定性參數決定法，在預測任何時間點上適定性預測法都會比固定性預測法優秀 3-5 個百分比。. 32.

(41) 圖 9 台中地區 12 月份到 2 月份預測相對誤差率比較圖. 圖 10 台中地區 3 月份到 5 月份預測相對誤差率比較圖. 圖 11 台中地區 6 月份到 8 月份預測相對誤差率比較圖. 圖 12 台中地區 9 月份到 11 月份預測相對誤差率比較圖 33.

(42) 圖 9-圖 12 為台中地區四個季節一整年度的 6 個方法誤差率比較圖，整體而言預測結果和大台北地區類似，適定性迭代法還是優於其他的預測方法，並且保持著對於預測長時數有著穩定的特點，各個方法在預測 7 月、8 月和 9 月的相對誤差明顯偏高也和大台北地區雷同，和大台北地區不太一樣的地方在於，重複法和跳躍法不穩定的結果變少了，而且整體結果可以發現，台中地區的整體預測誤差率是低於大台北地區的。. 圖 13 台南地區 12 月份到 2 月份預測相對誤差率比較圖. 圖 14 台南地區 3 月份到 5 月份預測相對誤差率比較圖. 34.

(43) 圖 15 台南地區 6 月份到 8 月份預測相對誤差率比較圖. 圖 16 台南地區 9 月份到 11 月份預測相對誤差率比較圖圖 13-圖 16 為台南地區一整年度的預測結果，台南地區的預測結果和台中以及大台北地區所表現出的一致，適定性迭代法在正確率的表現上還是比其他五種預測方法優秀，而且適定性迭代法在台南地區的預測表現上比台中地區與台北地區還要優秀，某些月份的誤差率甚至低於 10%，但其中對於 7、8、9 月的預測誤差率和台中以及大台北地區一樣偏高，這樣的結果可以顯示，在夏季中段到秋季開始存在著會導致預測法誤差率上升的原因，可能是因為午後雷陣雨影響或是其他因素導致。. 35.

(44) 圖 17 高雄地區 12 月份到 2 月份預測相對誤差率比較圖. 圖 18 高雄地區 3 月份到 5 月份預測相對誤差率比較圖. 圖 19 高雄地區 6 月份到 8 月份預測相對誤差率比較圖. 圖 20 高雄地區 9 月份到 11 月份預測相對誤差率比較圖 36.

(45) 透過上述高雄地區及前述各個地區的實驗結果可以發現，不論是不同地理區域或是不同的季節，使用適定性的參數決定法在預測準確率的表現上都會優於固定性的參數決定法，而且 3 種方法中又以迭代式預測法的表現最為優秀，6 種方法中以適定性迭代預測法 (AIF) 在預測誤差率上表現最為優異，因此接下來我們會利用此方法和目前主流的線性迴歸預測法進行比較。 4.3. 與其他時間序列預測以及迴歸預測介紹與比較從上述實驗結果中我們選擇了適定性迭代法作為代表，和其他預測方法進行. 比較，在這一小節中我們會介紹一些代表性的線性預測方法，並將這些方法對各地區整個年份的空氣品質資料進行模擬預測，將預測結果進行比較。 4.3.1 天真預測法 (Naive method, NM) 使用時間序列前一期的數值當作預測值，此方法非常直觀簡單，不會產生任何的計算成本，預測未來一小時會以𝐹(𝑡 + 1)表示，𝐴則代表實際值。此方法的數學模型(17)所示 𝐹(𝑡 + 1) = 𝐴(𝑡). (17). 4.3.2 加權移動平均法 (Weight moving average, WMA) 加權移動平均法就是根據過去一段時間中各個不同時間點的數值對於實際值的影響程度給予一個權重，不同時間點的權重總和會等於 1，利用此權重和過. 37.

(46) 去資料進行預測，則對未來 𝑡 + 1 時的預測值 𝐹𝑡+1 可以用(18)表示 𝑛. 𝐹𝑡+1 = ∑ 𝑊𝑖 𝐴𝑖. (18). 𝑖=1. 其中𝑊𝑡 代表 t 時間時的權重，𝐴𝑡 代表 t 時間時的實際值，在模擬實驗中我們使用了過去五小時的歷史資料進行加權預測，而加權的權重則是依照 WMA 的公式 (19)給予。 𝑊𝑖 =. 𝑛−𝑖 ∑𝑛𝑘=1 𝑘. (19). 4.3.3 多元線性迴歸預測 (Multiple linear regression, MLR) 多元線性迴歸預測泛指分析一個因變數與兩個或兩個以上的自變數之間的相關關係，然後建立出預測模型進行預測。此方法的模型如(20)所示 𝑛. 𝐹𝑡+1 = 𝑊0 + ∑ 𝑊𝑖 𝐴𝑖. (20). 𝑖=1. 通常𝑊0 為常數項，𝑊1 、𝑊2、⋯、𝑊𝑛 為迴歸係數，𝐴1 、𝐴2 、⋯、𝐴𝑛 為自變數，在實驗中我們使用了 1000 組訓練資料，每組訓練資料中包含了過去五小時的歷史資料當作自變數，以及當下的 PM2.5 資料當作變因數。 4.3.4 多元適應性迴歸預測(Multivariate adaptive regression spline, MARS) 多元適應性迴歸法的主要精神為分而治之，也就是將整體的資料狀況切分為更小的資料狀況，不斷重複此動作直到無法分割，接著再利用各個小資料的狀況建立最適合的模型模型，如此一來就可以依據輸入的變數來判斷要使用哪個區段. 38.

(47) 的模型可以獲得最佳結果，而訓練資料則和 MLR 使用相同資料。. 圖 21 大台北地區 12 月份到 2 月份 AIF 和其他迴歸預測方法比較預測結果圖. 圖 22 大台北地區 3 月份到 5 月份 AIF 和其他迴歸預測方法比較預測結果圖. 圖 23 大台北地區 6 月份到 8 月份 AIF 和其他迴歸預測方法比較預測結果圖. 39.

(48) 圖 24 大台北地區 9 月份到 11 月份 AIF 和其他迴歸預測方法比較預測結果圖從大台北地區的預測結果(圖 21-圖 24)看來，較常被使用在時間序列預測的 WMA 以及 MLR 都有著穩定的表現，每個月份的誤差率都不會相差太多，但整體而言 WMA 會優於沒有使用其他特徵參數的 MLR ，而天真預測法雖然在預測短時數上有個不錯的表現，不過在預測長時數上的相對誤差非常高， MARS 對於長時間預測結果的表現也是不太好，而且 MARS 的預測結果不太穩定，誤差率的更動非常高。. 圖 25 台中地區 12 月份到 2 月份 AIF 和其他迴歸預測方法比較預測結果圖. 40.

(49) 圖 26 台中地區 3 月份到 5 月份 AIF 和其他迴歸預測方法比較預測結果圖. 圖 27 台中地區 6 月份到 8 月份 AIF 和其他迴歸預測方法比較預測結果圖. 圖 28 台中地區 9 月份到 11 月份 AIF 和其他迴歸預測方法比較預測結果圖從上述台中地區預測的實驗(圖 25-圖 28)可以發現，本研究所提出的適定性迭代法、 WMA 以及 MLR 則是和大台北地區的預測表現有類似的趨勢，有著穩定的表現，而且在正確率上不論大台北地區或是台中，我們所提出的適定性迭代法相較於其他四種方法更是有著更好的預測結果，而天真預測法對於長時間預 41.

(50) 測會產生高誤差率的問題，但對預測未來一小時卻有著高正確率的這種情況我們認為是因為空氣品質在一般狀況下變動幅度較小，所以才會導致此預測結果， MARS 則是保持著不穩定的預測結果。. 圖 29 台南地區 12 月份到 2 月份 AIF 和其他迴歸預測方法比較預測結果圖. 圖 30 台南地區 3 月份到 5 月份 AIF 和其他迴歸預測方法比較預測結果圖. 圖 31 台南地區 6 月份到 8 月份 AIF 和其他迴歸預測方法比較預測結果圖. 42.

(51) 圖 32 台南地區 9 月份到 11 月份 AIF 和其他迴歸預測方法比較預測結果圖在台南冬季的部分各個預測法在短時數的預測上都保持著低誤差率的表現，各個預測法也都有著很穩定的預測結果，但如果將其他季節的預測誤差率也納入觀察的話會發現天真預測法以及 MARS 預測法在預測未來長時數的時候穩定度會隨之下降，而這個狀況運用在預測夏季狀況時會更為明顯，從其他地區的夏季地區實驗中也可以發現同樣的狀況，在前一章節中我們提出造成此原因可能是因為午後雷陣雨的關係。另外還可以發現我們提出的 AIF 預測法也比各個預測方法低了 5 個左右的百分點。. 圖 33 高雄地區 12 月份到 2 月份 AIF 和其他迴歸預測方法比較預測結果圖. 43.

(52) 圖 34 高雄地區 3 月份到 5 月份 AIF 和其他迴歸預測方法比較預測結果圖. 圖 35 高雄地區 6 月份到 8 月份 AIF 和其他迴歸預測方法比較預測結果圖. 圖 36 高雄地區 9 月份到 11 月份 AIF 和其他迴歸預測方法比較預測結果圖. 從上述對於四個季節以及四個地區的實驗發現，適定性迭代法在各個季節以及各個地區表現都優於其他用於預測的線性迴歸方法，但仍然可以發現適定性迭代法中特別的部分，像是和時間序列預測法一樣有著穩定的表現，但有比時間序 44.

(53) 列法高的正確率，而適定性迭代法仍避免不了存在著一些缺點，像是因為只參考純歷史資料，所以對於突如其來的空氣快速變化應對時間較慢，需要等待一段時間獲得一些新的資料後才能改正模型降低誤差率。 4.4. 類神經網路和機器學習類預測法正確率比較上面章節中，我們已經將適定性迭代法和一些線性迴歸法以及時間序列法比. 較過正確率，也證明我們的方法優於其他方法了，接下來就是和目前被廣泛使用在預測問題的類神經網路以及機器學習進行比較，在這些章節中我們選用了三種機器學習方法和本研究的適定性迭代式預測法進行正確率比較，三種方法都各自在預測的領域上已有不錯的成果，我們想藉由這三種方法證明本研究提出的方法是否可靠。 4.4.1 Xgboost 演算法 Xgboost 為此篇論文所提出[32]，這是一種以傳統的 GBDT ( Gradient Boosting Decision Tree )為基礎發展出的演算法，整體的特點有可以平行化處理，對於學習速率非常快，還有再損失函數裡加入正規化方法降低誤差等等。目前已經大量應用於分類問題之中，從前面參考文獻的章節中也可以發現已經有人應用於時間序列的預測問題之中，但對於無法參考其他特徵值得純時間序列預測問題，它的正確率還有待驗證，在模擬實驗中我們使用了 10000 組資料進行訓練，迭代次數為. 45.

(54) 2500 次，樹的深度為 15，子樣本全部採集，採用的歷史時間為 5 小時。 4.4.2 SVM 演算法 SVM 的特點就是計算的結果只由少數的輸入資料決定，原因是它小樣本的學習方法，這個特點大大簡化了以往的分類和迴歸問題，在第二章節中可以得知已經有研究將 SVM 用於預測時間序列問題之中，但類似研究中都輸入了很多特徵參數，所以 SVM 對於純時間序列問題的正確率也有待驗證，在 SVM 的模擬實驗中我們給予 10000 組的訓練資料訓練，採用的歷史時間一樣也為 5 小時。 4.4.3 Hybrid 預測法 (神經網路搭配 ARIMA 時間序列) Hybrid 預測法是研究[22]中所使用的方法，主要是將時間序列資料帶入神經網路模型中搭配著 ARIMA 時間序列預測法進行預測。雖然神經網路模型接受更多的特徵輸入，但在研究中只給了時間序列資料就有很好的表現，在模擬實驗中，我們分別給予歷史時間 700 小時訓練資料和歷史時間 5 小時進行訓練。在這次模擬實驗中，我們使用了測站數量最多的台中地區，時間點則選擇了 1 月、4 月、7 月以及 10 月，之所以選擇這些月份的原因是因為這四個月份是各個季節中間的月份，我們想要從這次模擬實驗中觀察適定性迭代法在各個季節中有沒有優於機器學習方法。. 46.

(55) 圖 37 台中地區 1 月、4 月、7 月、10 月 AIF 與機器學習方法比較預測結果圖. 整體的實驗結果如圖 37 所示，所有的模型輸入都只有純時間序列的資料，可以發現到機器學習方法 (Xgboost、SVM) 的誤差率偏高，而導致誤差偏高的因素我們在第二章相關文獻探討中討論過了，主要原因在於失去了其他特徵參數只依靠時間序列進行預測以及將機器學習運用在迴歸問題後，太多分類結果導致正確率無法提升。但對於深度神經網路而言透過深度的特徵篩選，雖然只有時間序列的資料，但依然可以有非常好的表現，可以從實驗結果發現 Hybrid 預測法在各個月份每個小時的誤差率都優於適定性迭代法和另外兩個機器學習方法。雖然神經深度網路可以預測出較高的正確率，但每一次建立預測模型時都會和第二章節的參考文獻所提的相同，會耗費大量的時間建立模型，圖 38 是測站數量對於建立模型時間的比較圖，橫軸為感測站數量，縱軸為建立預測模型所耗費的時間(秒)。. 47.

(56) AIF. Hybrid. Hybrid_5. 1000. 100. 10. 1. 0.1. 0.01 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97. 圖 38 感測器數量和建立模型耗費時間關係圖. 從圖 38 可以發現，Hybrid 預測法在建立模型時所耗費的時間和測站數量成正比，大約是 6-7 秒處理一個測站，如果 Hybrid 想要實際應用於生活當中，可能就必須要減少站點，或是利用邊緣計算、分群方法進行預測，但本研究中的適定性預測法可以在 1 秒內完成對 100 個測站未來五小時的預測，可以在損失一點點正確率的情況下，對所有測站完成預測，從計算時間的觀點來看，AIF 的可應用性非常廣，能夠在短時間內對大量測站完成預測，因此在第五章節中，我們將詳細說明我們如何將 AIF 實際應用於生活中，完成一個預測系統的比較網站。. 48.

(57) 第五章應用系統架構在本章節中會介紹到本研究的模型應用於實際生活中的系統架構，此系統的功能有以下幾點: 1.. 提供實際的未來預測狀況，將本研究實際應用在生活中. 2.. 提供和其他預測方法的比較功能. 3.. 將預測成果視覺化整體的架構如圖 39 所示。一開始我們會讀入開放的原始資料後，在 AWS 上. 執行一個資料預處理的程式，接著執行我們的預測模型，便能產出未來 1-5 小時的預測值，之後將欲處理好的資料以及預測出的結果傳送到 GCP 上保存。 GCP 負責的任務有透過 MySQL 保存資料以及提供其他預測方法一個計算的平台，除此之外我們的呈現網頁和預測結果比對以及資料視覺化也是透過 GCP 所呈現的，任何預測方法皆可以透過 GCP 上的計算平台以及我們所保存的預處理資料進行預測，如此一來便能達到各個預測使用同一組資料進行方法比較。. 圖 39 應用系統流程圖上面的部分介紹完了架構，接下來為實際應用部分，整個網頁系統大致上會 49.

(58) 分為三個部分，第一部分為綜觀方法比較部分，如圖 40 所示，這部分的主要功用為比較不同方法的誤差率，所以提供了不同方法用同樣資料預測後各小時的中位數相對誤差，以及相對誤差的 CDF 圖進行比較。. 圖 40 預測方法中位數相對誤差率比較. 第二部分的功能則是提供了各個站點的詳細預測數據，以及各個測站的各自預測相對誤差率，如圖 41 所示，可以從這一部分來觀察那些測站在預測上的表現好壞以及過去五小時至未來五小時各個方法所有測站的預測情況如何，圖中左半部分包含數值以及百分比數值的部分為過去 5 小時的預測數值以及和實際數值的相對誤差率，右半部分為目前數值以及對於未來 5 小時的預測數值，我們將預測結果的好壞分為三個等級，如果預測結果和實際誤差的相對誤差在 10%以內，. 50.

(59) 那麼我們會將結果用綠色表示，代表預測結果還不錯，如果再 10%~20%之間會用藍色表示，若是 20%以上則用紅色表示。. 圖 41 各個測站的預測數據圖. 最後一部分為視覺化，我們將各個測站的預測數值搭配經緯度在網站系統中做了資料視覺化，如圖 42 所示，我們將預測的數值分組，並使用不同顏色代表不同的群組，方便使用者直接利用顏色分辨預測的 PM2.5 高低，此外我們也將預測的時間序列結果建立成動態圖檔，可以從圖 42 左下方的時間控制圖示中進行控制，讓使用者更方便了解過去 5 小時到未來 5 小時 PM2.5 的濃度變化，而圖片中沒有顏色的範圍為目前沒有感測器可以預測的區域。. 51.

(60) 圖 42 資料視覺化最後一部分我們比較了系統上 AIF 和 Hybrid 預測法之間對於實際資料預測的表現，我們在 2017/03 月中將系統完整上線，但礙於 Hybrid 預測法的計算速度以及硬體上的資源，所以我們只讓 Hybrid 預測法對於 400 個測站進行預測，而 AIF 預測法則對 1000 多個站點進行預測。整體的結果在圖 43 顯示，可以發現實際結果與我們在模擬實驗中表現的差不多，Hybrid 預測法在預測誤差率上表現得比 AIF 優異許多，但因為計算速度的原因，所以預測測站點會少於 AIF。. 圖 43 AIF 與 Hrbrid 預測法 2018/03-2018/05 預測結果圖 52.

(61) 第六章結論與未來展望世界上許多地方都飽受著空氣汙染影響，為了保護自己，許多資料科學家透過資料科學方法研究出許多對於空氣汙染的預測模型，希望藉由這些預測結果能夠提前保護自己。但目前主流的研究方法因為時間成本以及資料收集成本等等的問題難以在實際生活中應用，而為了避免時間成本問題，有些研究方法會放大預測精度進行預測，但這樣又會衍生出預測結果不夠貼近人民生活環境的問題，因此在本研究中我們透過正規化的方法提出了一項小範圍且快速的預測方法-適定性迭代法，透過預測小精度以及快速的特性更貼近人民生活，我們也將預測模型對台灣 4 大地區一整年的資料和其他方法進行了模擬預測比較，雖然在正確率上的比較上不及使用深度學習、類神經網路的方法，但預測速度快出許多，而且正確率的表現比一般的迴歸方法以及時間序列預測法都還要好，最後也將此方法實際應用於生活中。但適定性迭代法還是有改善的空間，例如因為只參考時間序列的資料，因此只適用於預測短時數以及對於空氣品質突發變化的情況無法因應，未來希望能夠加入遙測感應圖、氣象因素、地形、生活型態等等較容易取得的變因進行模型的改善。 53.

(62) 參考文獻 [1] Zhang, Y. L., & Cao, F. (2015). Fine particulate matter (PM 2.5) in China at a city level. Scientific Reports, 5, 14884. [2] Atkinson, R. W., Ross Anderson, H., Sunyer, J., Ayres, J. O. N., BACCINI, M., VONK, J. M., ... & SCHWARTZ, J. (2001). Acute effects of particulate air pollution on respiratory admissions: results from APHEA 2 project. American journal of respiratory and critical care medicine, 164(10), 1860-1866. [3] World Health Organization (2013) Health effects of particulate matter [4] Wakamatsu, S., Morikawa, T., & Ito, A. (2013). Air pollution trends in Japan between 1970 and 2012 and impact of urban air pollution countermeasures. Asian Journal of Atmospheric Environment, 7(4), 177-190. [5] Pan, X., Li, G., & Gao, T. (2012). Dangerous breathing-PM2. 5: measuring the human health and economic impacts on China’s largest cities. Technical report, Greenpeace. [6] State of the science fact sheet air quality. http://www.noaa.gov/ factsheets/new, September 2009 [7] Kusiak, A., Zheng, H., & Song, Z. (2009). Short-term prediction of wind farm power: a data mining approach. IEEE Transactions on energy conversion, 24(1), 125-136. [8] Wu, C. H., Ho, J. M., & Lee, D. T. (2004). Travel-time prediction with support vector regression. IEEE transactions on intelligent transportation systems, 5(4), 276-281. [9] Ding, A., Zhao, X., & Jiao, L. (2002). Traffic flow time series prediction based on statistics learning theory. In Intelligent Transportation Systems, 2002. Proceedings. The IEEE 5th International Conference on (pp. 727-730). IEEE. [10] Izzah, A., Sari, Y. A., Widyastuti, R., & Cinderatama, T. A. (2017, November). Mobile app for stock prediction using Improved Multiple Linear Regression. In Sustainable Information Engineering and Technology (SIET), 2017 International Conference on (pp. 150-154). IEEE.. 54.