回歸模型

第 2 章資料描述與分析方法

3.4 回歸模型

圖 7 的 model 1 在篩選完感測器後，直接進行耗電量的預測，並以 WLR 以及 SVR 中，擬合程度最佳的結果當作基準線（baseline）。本研究之後使用的 model 2 至 model 4 表現皆需能夠超過此基準。

以感測器數據預測電力模型的方式如圖 16，感應器 24 小時前的數據，建立24 小時之後的電力模型。根據第一天的 24 小時資料預測的二天的某一時間，

換句話說，不論是預測第二天的哪個時間點，所使用的訓練特徵都是相同的。

資料集可表示為:

其中 i 表示不同的感應器的編號，e 代表電力消耗量的總和，t 代表不同的日子，資料集透過3.1.5 的交叉驗證方式可將資料集切割為：

a. 21 天的訓練資料，測試資料為 7 天的資料

b. 6/19-9/19 為訓練資料，測試資料為 9/19-12/17

使用加權回歸以及支持向量回歸演算法預測。使用這樣的方式可以避開計算整體資料最大最小值及不同時間點的平均值等等特徵，並達到較佳的效果。

特徵模型在這裡的目標是每個預測值都應接近實際值，因此誤差的計算方式採用Mean absolute percentage error(MAPE)：

M 100

( 3.10 )

圖 16 電力預測模型示意圖

在此模型的資料集a 與資料集 b 每一筆的特徵數量皆為前一天的 24 小時乘以所選的感測器數量共 17 個，總計特徵數量為 408 維，資料集 a 共 21 筆，資料集 b 則有 180 筆。由於資料集 a 的特徵數量遠遠大於資料筆數，因此較適合使用可以用公式解的 WLR 做迴歸分析，較不適合使用 SVR，但實際上我們也試跑了SVR 的結果用來觀察結果的差異。

實際結果請見圖 17。圖 17 為以加權回歸 (WLR) 每小時實際預測資料集

較差的原因我們認為是因為下午一點適逢用餐及午休時間，故變動較大。

圖 17 每個時間點的預測電量

前面有探討過資料為度與比數懸殊的資料不適合使用支持向量回歸

（SVR），實際上每小時實際預測資料集 a 的結果如圖 18 一樣，演算法無發學到好的結果。圖中 X 軸為天數，Y 軸為實際用電量。圖中黃線的部份是訓練

資料，後面紫色線是預測的結果、藍色是真正量測的值。

圖 18 每個時間點的預測電量

12 點的錯誤率可高達 70%。除此之外，黑色憲表示少掉 AHU 資訊的預測結果。

黑色線比起納入全部感測器的藍線，整體準確率略微提高。然而，根據領域專家及文獻表示，AHU 系統對電力的影響有高度相關，因此我們合理懷疑，這是由於資料不足產生的過擬合情形。

圖 19 不同類別因子對準確率的影響

最後是以加權線性回歸每小時實際預測資料集 b 的結果如圖 20，X 軸為不同的天數，Y 軸為總用電量，圖中的顏色線與之前解讀方式相同，黃線的部份是訓練資料、紫色線是預測值、藍色是真正量測的值。

圖 20 每個時間點的預測電量

由於圖 20 的 17 個感測器共 408 維以線性加權回歸( WSR )訓練的結果太差了，

因此我們嘗試降低特徵維度，將感測器限縮到電力（共三個紀錄值）和人數，

維度縮小成4*24，共 96 維，結果如圖 21：

圖 21 每個時間點的預測電量

相同維度（96 維）以支持向量回歸（SVR）訓練資料集 b 的結果為圖 22：

圖 22 每個時間點的預測電量

最後將上述兩種資料集與兩種演算法排列組合個別得到的最佳準確率及維度做一個整理

WLR SVR

集），17*24（ 408 ）維有提高。提高。

圖 24 資料集 b 以 SVR 訓練的準確率（由 MAPE 計算）

在文檔中以機器學習預測建築自動化控制系統之短期電力負載 (頁 40-50)

第 2 章 資料描述與分析方法

3.4 回歸模型

第 2 章資料描述與分析方法