第二章 相關文獻探討
2.2 線性迴歸 (Linear Regression)
線性迴歸應用於非常多的預測研究以及分析研究,分布的領域非常的廣泛,
包含金融、氣象、工業、環境⋯等等。而其中金融因為有快速變動的特性,所以
需要短時間就完成預測計算,因此金融預測在類神經網路和機器學習中被視為棘
手的問題之一,而[10]的研究中作者就利用了線性迴歸快速計算的特性在手機中
進行即時的股票價格預測,他透過多變量迴歸分析 (multi-variable linear regression,
MLR) 搭配過去幾日的歷史股價資訊進行預測計算。
在另一份研究[11]中,作者利用了歷史電量負載資訊、溫度、濕度、風速和常
規事件活動等參數帶入多變量迴歸分析對電量負載進行預測,此研究的結論表示
因為線性迴歸的特性,所以可以非常快速地計算出預測結果,也因為快速預測的
特性所以可以將預測的頻率從以往的以天為單位改以每小時為單位,而且有突發
狀況時也能在幾分鐘之內重新修正模型,上述這些特點都是類神經網路和機器學
習難以達到的。
在[13]這篇研究中,作者利用了時間序列預測以及線性迴歸模型對中國的城
市交通事故進行預測,在結論中,作者表示利用時間序列和線性迴歸進行的預測
在短期預測以及小範圍(城市)預測時可以得到不錯的預測結果,但當範圍擴大以
及改為長期預測時,預測出的結果會和實際情況相差非常多。
7
在空氣品質預測分析方面,利用純線性迴歸分析進行預測的研究非常稀少,
主要原因是因為空氣品質的高複雜變化,以及影響空氣品質的因素非常眾多等等,
因為上述的原因,[12]這篇研究使用了和上述研究同樣的多變量線性迴歸分析法
對 AQI 進行預測,他們參考了二氧化氮、一氧化碳、臭氧、二氧化硫以及PM2.5
的時間序列變化建立出 AQI 濃度的關係式,和上面研究不同的地方在於此篇研
究將多變量線性迴歸法搭配了一些梯度下降法,因此增加了一些計算時的時間複
雜度,但也增加了一些正確率,即使如此,作者還是證明出了計算速度仍舊較非
線性計算快速的結論。
從上述所提到的研究可以發現出目前線性迴歸研究的幾個特點,像是會搭配
其他方法以提升準確率,參考許多相關變因數,以及快速計算等特點,但上述研
究都存在著一個共通問題就是關於正確率的部分,雖然能夠快速計算出結果,但
對於正確率方面總是有點差強人意,這個問題在[14]中更加明顯,[14]的主要研究
目的在於運用時間序列和線性模型進行未來溫度的預測,但最後的研究結果顯示
出,運用此種方法只能預測出大致上的趨勢,對於實際值的驗證並不是如此的精
準。
8
2.3 機器學習 (Machine Learning)
近年來,機器學習吸引了非常多的學者關注,並且已經成功地運用在非常多
的領域上,例如:圖像分類、自然語言處理、預測任務、運動建模等[27],而在
這一章節中,我們會主要介紹非深度類的機器學習預測法。
在預測方面,部分的研究會將問題先轉換為分類問題,簡單一點的分類問題
就會是二分法,例如:是或不是,會或不會這類。在[30][31]的研究中就使用了
Xgboost 機器學習演算法以及關聯式特徵選擇刪除不必要的特徵,來預測二分法
問題。
在空氣品質預測方面也可以發現類似上述的研究手法,[36]中作者就先將空
氣品質透過數值分類為好空氣以及不好的空氣,再利用許多的參數歷史資料,例
如: 二氧化硫、二氧化氮、臭氧,以及交通狀況等等透過 SVM 進行預測。
除了透過歷史資料來進行預測以外,也有人利用空氣汙染的因果關係進行預測,
[32]研究中作者利用空汙隨著時間傳遞的這項特性搭配上貝葉式學習建立出了一
套識別空氣汙染因果關係的模型,接著透過因果關係來進行空氣預測,但在此篇
研究中也是將空氣汙染先進行分類,在對空氣汙染的類別進行預測。
9
透過上述幾篇研究可以發現,機器學習的研究多半搭配著大量的特徵參數進
行,這些特徵參數的測量會耗費大量的時間以及金錢成本,但最明顯的缺點為預
測結果為分類狀態,因為分類狀態的預測在我們看來是不夠貼切於人民生活的。
於是也有研究針對了分類狀態的問題進行改善,例如[37]的研究中,他透過了分
類回歸樹對過去一整年的空氣資料以及氣象資料建立預測 PM10 的預測模型,而
此預測模型便可將預測結果用迴歸型態,也就是一般貼近於人民的數值型態顯
示。
在[35]的研究中也是將過去 250 天的歷史 PM10 和 PM2.5 資料以及氣象資料
透過 SVR 進行預測,此篇研究的手法與上篇研究的手法類似,預測出的結果也
同樣為迴歸型態,因此兩篇研究其實有著類似的缺點,那就是迴歸型態遠遠複雜
過分類問題的預測,因此當機器學習要將預測結果轉變為迴歸型態時勢必會面臨
到正確率下降的問題,而上述兩篇的研究成果都有著這樣的問題。
而為了解決剛剛所提到正確率降低的問題,在研究[29]中作者則是利用了更
多的參數進行彌補,研究提出了一套半監督式的學習方法,利用當下的空氣品質
數據 (SO2 , NO2 , PM2.5, PM10)、氣象資料、交通流量、和人們的移動等等數據
來預測未來的空氣品質,在研究中作者表示每一項特徵參數對於他們的預測模型
都是非常有價值的,例如沒有輸入氣象資料的話,整體正確率會直接下降 5%,
10
有一些特徵參數是需要花費大量成本才能取得的,但為了正確率還是必須不惜成
本的支出。雖然此篇研究在最後的實驗結果中證明出了他們能夠在非常短的時間
內完成對於北京這個城市的未來空氣品質預測,但實際上此研究在北京部署的測
站僅有 22 個,22 個測站對於北京這個大城市來說感測站比例其實還是稍嫌不足。
透過上述研究可以發現,非深度的機器學習通常會將問題分類後再進行預測,
如果直接使用到迴歸問題時就必須仰賴更多的特徵參數輸入來維持正確率,但這
也在無形之中增加了更多的金錢成本,但如果放棄掉這些高成本的參數,整體的
正確率會降低許多,在正確率及成本的抉擇上這是機器學習的一項難題
2.4 神經網路 (Neural Network)
神經網路的基本主要可以分為三個層面,分別為輸入層 (Input Layer)、隱藏
層 (Hidden Layer)、輸出層 (Output Layer),其中隱藏層可以非常多層,實際上總
共需要多少隱藏層才足夠,這方面沒有詳細的研究,通常越多隱藏層會讓非線性
的效果越顯著,但同時也代表著計算複雜度越高所耗費的時間越多,而目前類神
經 網 路 已 經 廣 泛 地 被 使 用 在 分 類 問 題 (Classification problem) 和 預 測 問 題
(Prediction problem) 之中,也因為深度學習研究的突破,對於空氣品質預測的研
究數量,更是比線性迴歸以及非深度的機器學習方法多出許多。
11
像是在研究[28]中,作者就提出了一種考慮時間相關性以及空間相關性的深度
學習預測方法,這篇方法的特點在於除了考慮時間以外還考慮了空間相關性,作
者表示非常多的方法只在乎時間序列的特徵篩選,卻忽略了測站和測站間的空間
相關性,最後作者在這篇研究中歸納出了運用時空相關性進行預測的模型在正確
率的表現上比只使用時間序列的模型優異,同時作者也認為因為深度學習的關係,
必須花費較多的時間進行模型的訓練。
在研究[15]中,研究人員在芬蘭首都 (Helsinki) 部署了25個能夠感測 NO、O3、
PM10 和 PM2.5 的感測器,利用這些感測器獲得的資料並搭配著 NOAA 提供
的每小時氣象資訊紀錄透過 Extreme Learning Machine (ELM) 進行預測,ELM
是一個簡單基本的神經網路,它的特點是不會受到極值的影響,此篇研究特別的
地方還有一個,就是花費了很多心力在於特徵的篩選,此篇研究人員表示,根據
感測器所處的位置不同,所要選擇的特徵也大不相同,例如有些感測器會需要濕
度這項特徵但有些不用,有些感測器可能需要壓力和氣溫這些特徵,有些則不需
要。從此篇研究中可以發現特徵的篩選對於神經網路的重要性。
在研究[16]中作者先將整體訓練資料分為夏季和冬季進行分別訓練,因為作
者表示從長期的觀察下來,實驗場地冬季的空氣污染會比夏季更為嚴重,所以將
模型分開訓練,將空氣品質資料分開之後會再將過去兩天的空氣狀況、過去兩天
12
AQI 所包含的6個監測指標、過去一天的天氣狀況,以及附近城市過去一天的天
氣狀況這些影響因素加入 BP 神經網路 (Back Propagation Neural Network) 中並
搭配資料探勘的技術進行訓練和預測,並且將特徵進行影響分析,從而篩選出不
重要的特徵,進而達到降低計算時間的目的,從此研究也可以發現特徵篩選對於
神經網路預測的重要性。
在研究[17]中作者參考了過去2年 PM10 的歷史資料以及時間序列、溫度、濕
度、壓力、風速等氣象條件,透過 ANN 對未來兩週的 PM10 進行數值預測,
也獲得了不錯的正確率,這項研究的特點是參考了非常多的歷史資料,因為作者
希望從歷史資料搭配時間序列中找出 PM10 的循環關係,由這項研究可以了解,
訓練用的資料數量對於神經網路的重要性。
在[18]中,作者則是先利用前四天的各種氣象資料搭配 ANN 建立出一個專
門預測未來三天的溫度,風速和風向,相對濕度,降雨量等氣象數據的模型,再
門預測未來三天的溫度,風速和風向,相對濕度,降雨量等氣象數據的模型,再