智慧型電表管理系統之遺失值處理

全文

(1)國立臺灣師範大學資訊工程研究所. 智慧型電表管理系統之遺失值處理 Missing Data Handling for Meter Data Management Systems. 指導教授：. 研究生：鄭如岑. 陳伶志博士. 中華民國一○二年七月.

(2) 要. 摘. 近年來傳統電表汰舊換新，因此智慧型電表的普及造就相關技術的討論與發展，其中管理電表資料的儲存系統稱為「電表資訊管理系統」(Meter Data Management Systems, MDMS)，此一系統配合智慧型電表可以達到自動管理電力網路的目的，相對於傳統以人工抄表而言，更具效率且可避免人為的疏失來大幅提升電表值的正確及完整性。在用戶用電的過程中，智慧型電表會回報用電量給電表資訊管理系統，透過電纜或通訊網路傳送資料的過程中，會因為氣候因素、電磁波的環境干擾以及其他不可抗力之因素，造成電表值的錯誤，也影響了MDMS資料讀取儲存的異常。由於MDMS內的電表資料是做為用戶電費計價的標準，因此其資料對精準度的需求甚高，故儘管上述各種因素發生的機率不高，仍足以對MDMS造成相當程度的影響，基於上述原因，我積極研究如何修復電表遺失值，以補足因傳輸對MDMS正確性所造成的衝擊。本篇論文研究數種修復缺失值之演算法，並嚴格檢視多種方法的優缺點，並進行討論及探究，期望能找出一個最佳的解決方法。. 關鍵字：智慧型電表管理系統(Meter Data Management Systems, MDMS)、智慧型電表基礎架構(Advanced Metering Infrastructure, AMI). i.

(3) 目. 錄. 書名頁 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. i. 中文摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. i. 目錄 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ii. 表目錄 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. iv. 圖目錄 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. v. 一、緒論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 二、相關研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 三、研究方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 3.1. 問題定義. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 3.2. 回看法-N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 3.3. 三明治法-N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 3.4. 例外狀況處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10. 四、實驗評估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 11. 4.1. 資料集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 11. 4.2. 資料分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12. 4.3. 評估標準. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13. ii.

(4) 4.4. 實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 4.4.1. 單一遺失狀況 . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. 4.4.2. 連續遺失狀況 . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 五、討論分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 19. 5.1. 變數定義. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 19. 5.2. 數學模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 六、結論及未來展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 23. 參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 25. 附錄 A: 自回歸移動平均模型ARIMA . . . . . . . . . . . . . . . . . . . . . .. 29. 附錄 B: 變數定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31. 附錄 C: 數學方程式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 32. 附錄 D: 程式列表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. iii.

(5) 表. 目. 錄. 1. MDMS之貢獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 2. 文獻方法之分類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 3. 電表資料表欄位示意圖 . . . . . . . . . . . . . . . . . . . . . . . . .. 12. 4. 有效資料集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12. 5. MAPE評量指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14. iv.

(6) 圖. 目. 錄. 1. 電表之演進 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 2. 智慧型電表基礎架構 . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 3. 連續遺失狀況比例圖 . . . . . . . . . . . . . . . . . . . . . . . . . .. 13. 4. 單一錯誤回看法與ARIMA比較 . . . . . . . . . . . . . . . . . . . .. 15. 5. 單一錯誤三明治法與內插法比較 . . . . . . . . . . . . . . . . . . . .. 15. 6. 回看法-1 MAPE及適用率關係圖 . . . . . . . . . . . . . . . . . . .. 17. 7. 回看法-2 MAPE及適用率關係圖 . . . . . . . . . . . . . . . . . . .. 17. 8. 三明治法-1 MAPE及適用率關係圖 . . . . . . . . . . . . . . . . . .. 17. 9. 三明治法-2 MAPE及適用率關係圖 . . . . . . . . . . . . . . . . . .. 17. 10. 回看法-𝑁 連續遺失狀況之MAPE . . . . . . . . . . . . . . . . . . .. 18. 11. 三明治法-𝑁 連續遺失狀況之MAPE . . . . . . . . . . . . . . . . . .. 18. 12. 變數𝐶𝑗𝑖 與𝑀𝑗𝑖 之關係 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 13. 比較值獨一性對應 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. 14. 回看法與三明治法適用率走向圖 . . . . . . . . . . . . . . . . . . . .. 22. v.

(7) 第一章. 緒論. 時代隨著科技的日新月異，新技術及新產品也因應市場需求而佈斷的推陳出新，走向功能多樣化、產品穩定度高效能高品質的目標發展。首當其衝的家用電表設備也被賦予更精準的量測及多樣的自動化服務，因此智慧型電表的普及造就電力相關技術的討論與發展。然而在電表之演變如圖 1，其過程在這幾年發展迅速，在這短短的幾十年間，電費計價從以盞計價晉升至更公平的用電度數計價，甚至電表系統已有一個相當組織化的架構，我們稱這個架構為「智慧型電表基礎架構」(Advanced Metering Infrastructure, AMI)如圖 2，AMI囊括了用戶端的資訊記載 [7]、自動化的資料傳輸 [8]、各式的電腦監控設備，其中電力業者端需要一套系統該系統可管理來自各方的電表資料的儲存系統，該系統被稱為「電表資訊管理系統」(Meter Data Management Systems, MDMS)，此一系統配合智慧型電表可以達到自動管理電力網路的目的，相對於傳統以人工抄表而言，更具效率且可避免人為的疏失來大幅提升電表值的正確及完整性，因使AMI架構從過去的文獻整理大致可被分成三部分：. ∙ 智慧型電表設備：為用戶端之硬體設備，其功用可記錄用戶用電資訊。 ∙ 資料傳輸設備：聯繫用戶端及電力業者端之通訊系統。 ∙ 電表資料管理系統：提供完善的電表儲存資料庫系統及提供額外的功能及服務。. 第一部分為智慧型電表設備，我們將每個智慧型電表視為用戶，該硬體設備在此部分會以刻為週期記錄該用戶的用電量、用電資訊及其他狀況至設備的記憶體中，利於往後時價計費或是其他加值服務之用途。然而智慧型電表雖可詳細記. 1.

(8) 錄用戶之用電記錄，但這些完善的資料仍存在於用戶端，電力業者無法在遠距狀況下自動取得電表資料，因此接下來的第二個架構所負責的是資料傳輸。第二部分所負責的是利用數位的電纜線路使用TCP/IP之通訊協定或是其他協定其共同的目的為將電表資訊傳送至該電表區域的資料集合之接收端，接著每區域的電表資料接收端點將收集所負責的用戶電表，而區域的範圍可能會因通訊協定的不同而有所改變，可能為一棟華夏或是一整個里鄰社區，當這些區域之電表資料收集完畢後再將用戶群之電表資料一併傳送至最終端─MDMS。而我們稱這些個體的智慧型電表及各種可傳送電表資料之通訊協定傳送及區域接收端為自動讀表系統，其中AMR架構中的AMI系統是最基本但最不可或缺的部分。電表資料管理系統在AMI架構中是最上層的服務系統，MDMS扮演進階電表管理的角色，該系統收集各方AMR所回傳的電表資料進行多樣性的管理服務，美屬Itron公司所提供的智慧型電表文件 [1] 提到MDMS定義相當廣義，其最主要目的為能夠接收存取電表資料以及雙向溝通可及時透過家用電表或是智慧型手機給予使用者最新用電資訊，由於目前提供智慧型電表廠商甚多，所提供的服務不勝枚舉如表1，其中最常見的服務有客戶群分析的客戶管理、預測用戶未來用電趨勢的預測管理、提供網路介面便於用戶即時查看用電資訊的線上管理以及電表遺失值之校正的資料異常管理。然而資料異常之原因為智慧型電表透過電纜表 1: MDMS之貢獻. 電力業者. 電表使用者. 遠端自動讀表，節省人力成本. 即時監測管理用電狀況. 提供時價計費及動態配電功能. 分析用電行為達到節約能源功效. 或通訊網路傳送資料的過程中，會因為氣候因素、電磁波的環境干擾以及其他 2.

(9) 不可抗力之因素，造成電表值的錯誤，也影響了MDMS資料讀取儲存的異常。由於MDMS內的電表資料是做為用戶電費計價的標準，因此其資料對精準度的需求甚高，故儘管上述各種因素發生的機率不高，仍足以對MDMS造成相當程度的影響，基於上述原因，我們利用台灣地區既有智慧電佈建帄台的長期資料收集，運用電腦模擬技術分析位處於相同社經的電表以及相同時間的電表讀數的淺藏關聯性，並利用此關係設計一套有效的精準填補遺失值之演算法，並嚴格檢視多種方法的優缺點，並進行討論及探究，期望能找出一個最佳的解決方法。本論文第二章介紹電表資料遺失值彌補及預測之相關研究，第三章為遺失問題之定義以及本論文的研究方法，第四章描述電表資料來源、內容、儲存方式和遺失狀況特性，第五章為實驗結果分析及數據圖，第六章是針對目前所提出的方法所遇到的瓶頸及分析問題並使用模擬的方式達到最佳的實驗結果，最後一章探討各方法之優缺點及適用率之相關要點。. 圖 1: 電表之演進. 圖 2: 智慧型電表基礎架構. 3.

(10) 第二章. 相關研究. 在用戶用電的過程中，智慧型電表會回報用電量給資訊管理系統，透過電纜或通訊網路傳送資料的過程中，會因下列幾種原因造成電表值的錯誤，影響了MDMS資料讀取儲存的異常。. ∙ 氣候因素：溫度或濕度及其他氣候因素呈現極端的變異，造成電表資訊傳輸失敗。 ∙ 電磁波干擾：電子電力的作用，引起電磁干擾(Electromagnetic Interference, EMI)造成電表設備工作異常或系統延遲。 ∙ 不可抗力之因素. 由於MDMS內的電表資料是作為用戶時價計費之電費計價的標準甚至是MDMS服務所需的計算資料，因此資料對精確度的需求甚高，故儘管上述各種因素雖為偶發事件，仍足以對MDMS造成相當程度的影響，基於上述的原因，本研究積極研究如何修復電表遺失值，以補足因傳輸對MDMS正確性所造成的衝擊。本研究將整理出過去學者所提出的電表評估及遺失值彌補方法，其我們發現到，過去對於氣體瓦斯表或是水利系統表中也仍存在資料遺失之問題 [9]，其方法與智慧型電表之遺失問題有著高相似性的研究方法。 Box, Jenkin提出ARIMA Model [10] 可成功的套用在經濟學上的評估預測，因此Wang和Schulz使用現有的X-12-ARIMA模型 [11] ，和Taylor所提出的Triple seasonal ARMA [12] 進行未來用電量之預估，Civanlar 和Grainger [13] 所提出的電表預測方法是將透過客戶群的分類，再依據工業及商業，假日與工作日、季節變遷等變數使用迴歸分析，達到模擬用電量預測， Matheson等人及McDonald 4.

(11) 和Fan [14,15] 此兩篇研究除了使用舊有的電表資訊，並引入了天氣變化以及社會因素作為迴歸分析的變數，最終目的達到未來用電量之預測。 Matines-Alvarez等人 [16] 所提出的Pattern預測法是利用K-Means將客戶用電狀況進行分類處理，再針對各分類之用電及電費趨勢進行預測未來用電量及電費之情況，該研究使用西班牙 [4]、紐約 [5]及澳洲 [6]各國之電表資料庫與ARIMA [17]、ANN [18]、mixed model [19]、WNN [20]及多種方法進行比較。在水利方面， Quevedo等人 [9] 所提出的水利系統遺失處理演算法有兩層架構，第一層係利用ARIMA方法先將每日總用水量進行預估之運算，再透過第二層相關分析及LAMDA [21]進行短時間之用水百分比預測，進行短時間的用水量預估。根據上述過去學者的文獻研究方法，其電表預測及評估方式大致上可分成下列四大類別及表 2. ∙ 自回歸移動平均模型(Autoregressive integrated moving average, ARIMA)：其該模型建造係使用大量的電表數據進行回歸模擬的計算。 ∙ 迴歸分析(Regression)：該模型之建造所需資料為電表數據資料以及該電表之其他相關資訊，如：氣候、濕度、日期等。 ∙ 分群方法：其使用分群方法進行電表預估計算的文獻相當多種，使用方法如K-Means、LAMDA及SVM等分群方法。. 上述之方法對於預測電量之目的以配送電量用途為主，預測單位常以小時或半日作為單位，若套用在資料遺失以15分鐘為單位的資料預估恐會產生相當大的誤差。在水利系統中雖有精細10分鐘的預估，但該方法使用歷史的每日用水資料，無法及時獲取得資料遺失前幾分鐘之資料，而這些資料與遺失資料最為相關影響甚大，因此也不適用於電表資料遺失處理。而以上方法之所用資料需要相當 5.

(12) 龐大的歷史資料，短至一星期長至一整年，因此實驗所需的計算時間相當複雜，無法立即進行遺失值之修正，本研究將提出電表系統內遺失值彌補有效、高機能性之校正方法，並可在短時間獲得精確的校正值，達到高精準、高適用率和高效率之目標。表 2: 文獻方法之分類. 類別. 特性. 缺點. ARIMA. 針對電表紀錄做計算. 資料計算量大. Regression. 考慮濕度、溫度及日期資料. 資料種類需求繁多. LAMDA. 利用ARIMA及分群計算每日用電. 資料計算量大. Pattern Sequence. 利用分群法評估用電. 遺失前的紀錄資料被破壞. 目前台灣電力公司 [2]對於電表值遺失處理所採用的彌補措施是使用線性內插法 (Linear Interpolation) ，我們利用該方法及資料預測領域最常使用的ARIMA (利用X-12 ARIMA model [22] )作為評比演算法的對象。. 6.

(13) 第三章. 研究方法. 本研究係以實際之用戶電表資料作為調查及研究對象，內容為人工產生遺失資料之方式佐以本研究之彌補遺失演算設計。研究架構共分成三部分，第一部分為電表資料遺失問題定義，第二部分則為本研究針對電表遺失及不同的作業環境下所提出之演算法，最後為根據演算法所產生的例外狀況進行定義及應變處理。. 3.1. 問題定義. 實際資料來源為AMI架構下各用戶端之電表紀錄資料，其電表每15分鐘將會記錄用戶之用電紀錄，並透過網路傳輸系統將記錄回報至MDMS系統中。無法避免的資料遺失狀況一般來說可分為兩個狀況如下：. ∙ 單一遺失：電表紀錄遺失僅發生極短暫的單一筆資料遺失，其代表該電表之目前所有紀錄中僅有一筆資料發生遺失，並且該遺失資料之前/後記錄仍然為正常紀錄狀態。 ∙ 連續遺失：電表紀錄之遺失狀況為連續性之發生，通常該狀況可能為單純的傳輸錯誤造成的短暫遺失或是電表硬體設備受損及電力停止供電導致的連續性資料遺失 [23,24]。. 在本研究之資料集中每個電表紀錄都擁有唯一的代號，編號為 𝑖 之電表在時間 𝑡𝑘 所記錄的電表值稱為𝑀𝑡𝑖𝑘 ，其中 𝛿𝑡𝑖𝑘 為可辨識該電表紀錄值是否為遺失狀態，若為 1 則代表𝑀𝑡𝑖𝑘 為資料遺失狀態，須提供額外的電表校正，若為 0 則代表電表紀錄正常。因此本研究取得𝛿𝑡𝑖𝑘 為 0 之完整電表資料，透過人工隨機挑選之. 7.

(14) 方式，選擇資料集內的電表紀錄值作為遺失狀況之遺失值，其目的為模擬出與實際相符的單一遺失及連續遺失之狀況。. 3.2. 回看法 -N. 本研究提出的回看法係架構在「相同的行為模式，會有類似的用電量」概念上，該方法將使用遺失值之舊有的歷史用電紀錄作為遺失時用電模式並且在歷史資料集中找尋相同的用電行為，達到本方法校正遺失值之目的。由於本方法所設定的背景環境為用戶電表記載與MDMS系統同步，換句話說一旦遇到遺失狀況時，系統必須立即提供完善的修正服務，因此本方法實為線上即時服務。回看法−𝑁 的宗旨為在資料集中找出「過去相同的行為模式」，因此該方法定義了一項函數𝑓 (𝑖, 𝑡𝑢 , 𝑗, 𝑡𝑣 , 𝑛)如式子 3.1 ，該函數會在一段歷史資料中找尋與遺失前用電紀錄相同的電表編號及時間，即電表 𝑗 的過去 𝑡𝑣 筆紀錄與遺失值電表 𝑖 在遺失時間 𝑡𝑢 前的用電度數相同，意味著該筆用電紀錄之行為與遺失前狀況的行為相似，則該函式會回傳 1 ，若不同則傳回 0 。 ⎧ ⎪ ⎪ ⎪ ⎨1 : 𝑀𝑡𝑖𝑢+𝑘 = 𝑀𝑡𝑗𝑣+𝑘 , 𝑘 = 1, ..., 𝑛 𝑓 (𝑖, 𝑡𝑢 , 𝑗, 𝑡𝑣 , 𝑛) = ⎪ ⎪ ⎪ ⎩0 : Otherwise. 𝑅𝑡𝑖𝑘 = {𝑀𝑡𝑗𝑢 |∀𝑗∀𝑡𝑢 ∈ [𝑡𝑘 − 𝐿, 𝑡𝑘 ) : 𝑓 (𝑖, 𝑡𝑘 , 𝑗, 𝑡𝑢 , 𝑛) = 1}. (3.1). (3.2). 透過𝑓 (𝑖, 𝑡𝑢 , 𝑗, 𝑡𝑣 , 𝑛)函式在一段歷史紀錄中找尋相同的行為模式，而這段歷史紀錄範圍由遺失時段為起回溯至 𝐿 個記錄。如式子 3.2 這些擁有與遺失前相同用電行為的資料(記錄相同的時段點及電表編號)必須再做進一步的分析，選取該時段的電表紀錄值 𝑀𝑡𝑗𝑢 存放至集合 𝑅𝑡𝑖𝑘 中，並且在這集合中挑選出最佳的校正 8.

(15) 值。由於每個集合中的電表值都有淺藏的機率發生，因此本研究屏棄一般多數法，使用輪盤法則(roulette-wheel selection) [25] 機制，施作於 𝑅𝑡𝑖𝑘 集合，即可得 ˜ 𝑡𝑖 ，用以填補發生遺失狀況的 𝑀𝑡𝑖 。到校正值 𝑀 𝑘 𝑘. 3.3. 三明治法 -N. 三明治法−𝑁 之概念與回看法−𝑁 相似，其不同之處為該演算法係針對離線作業環境所設計的一套遺失值彌補演算法，因此在資料集方面，三明治法−𝑁 比回看法−𝑁 多了一項可參考遺失值後的非遺失電表紀錄之優勢，在這裡先定義遺失值後的第一筆非遺失紀錄為 𝑡𝑥 作為後續計算之用途。由於演算法仍架構在「相同的行為模式，會有類似的用電量」且行為模式除了遺失前記錄需比較外，必須考慮遺失後之非遺失用電紀錄，因此三明治法使用𝑔(𝑖, 𝑡𝑢 , 𝑗, 𝑡𝑣 , 𝑛)式子 3.3 函式用來比較行為模式的相似性。 ⎧ ⎪ ⎪ ⎪ ⎨1 : 𝑀𝑡𝑖𝑢+𝑘 = 𝑀𝑡𝑗𝑣+𝑘 , 𝑘 = ±1, ..., ±𝑛 𝑔(𝑖, 𝑡𝑢 , 𝑗, 𝑡𝑣 , 𝑛) = ⎪ ⎪ ⎪ ⎩0 : Otherwise. 𝑆𝑡𝑖𝑘 = {𝑀𝑡𝑗𝑢 |∀𝑗∀𝑡𝑢 ∈ [𝑡𝑘 − 𝐿, 𝑡𝑘 ) : 𝑔(𝑖, 𝑡𝑘 , 𝑗, 𝑡𝑢 , 𝑛) = 1}. (3.3). (3.4). 透過𝑔(𝑖, 𝑡𝑢 , 𝑗, 𝑡𝑣 , 𝑛)，該函式可在一段長為𝐿的歷史資料中找尋相同的行為模式，並且將與遺失值相對應的電表值存放至集合𝑆𝑡𝑖𝑘 中，其往後的分析動作 ˜ 𝑖 。由於三明治法−𝑁 為離線處理與回看法相同，使用輪盤法挑選其校正值𝑀 𝑡𝑥 作業，因此在處理的過程中有可能遺失狀況為連續性發生，因此使用遞回運 ˜ 𝑖 ，∀𝑡𝑘 = 𝑡𝑘+1 , ..., 𝑡𝑥 。算𝑀 𝑡𝑘. 9.

(16) 3.4. 例外狀況處理. 遺失狀況的發生需要取得遺失前/後的非遺失用電紀錄作為我們的行為並與過去歷史資料做比較，然而有些遺失狀況前的行為在過去從未發生，也就是說該用電行為是第一次發生，導致彌補演算法計算時無法取得相同的用電行為資訊，此種狀況稱為例外狀況。一旦演算法運算時遇到例外狀況，回看法−𝑁 的𝑅𝑡𝑖𝑘 及三明治−𝑁 法的𝑆𝑡𝑖𝑘 勢必為空集合，因此在集合內使用輪盤法將無法取得校正值，因此本研究所提出的應變策略依據不同方法提供較完善的彌補。. ∙ 回看法-𝑁 ˜ 𝑖 = 𝑀𝑖 𝑖𝑓 (𝑅𝑡𝑖𝑘 = ∅) 𝑀 𝑡𝑥 𝑡𝑘−1. (3.5). ∙ 三明治法-𝑁 𝑖𝑓 (𝑆𝑡𝑖𝑘. ˜ 𝑡𝑖 = = ∅) 𝑀 𝑥. 𝑀𝑡𝑖𝑦 + 𝑀𝑡𝑖𝑥 2. (3.6). 如式子 3.5、式子 3.6，𝑡𝑥 為遺失狀況前一筆非遺失紀錄之時間，相對的，遺失狀況後一筆非遺失紀錄時間為 𝑡𝑦 ，當回看法-𝑁 在演算法中遇到空集合狀況時，則本研究所提出的應變方法為使用最近相關性最高的前一筆非遺失資料。對於三明治法-𝑁 對於例外狀況之應變方法，該方法比回看法−𝑁 多了一項優勢為可取得遺失值後一筆非遺失資料 𝑡𝑥 ，因此三明治法−𝑁 將採用線性內插法作為例外狀況之彌補措施。. 10.

(17) 第四章. 實驗評估. 本章第一節至第二節將討論本研究之實驗資料集來源、儲存格式及資料記載流程，並且深入探究實際電表資料對於遺失值之隱含特性並加以分析討論，第三節將介紹評估比較方式以及評比對象之實作方式，最後一部分為實驗數據圖，本研究將分析數據圖內淺藏的特性並在後章節繼續深究討論。. 4.1. 資料集. 本研究之所有實驗所使用的資料數據來自於台灣經濟部能源局 [3] 所提供的智慧型電表資料。資料庫內共有593個電表佈建於台北及新竹兩處，其中電表資料之記錄時間從 2010年10月31日至2012年4月10日約一年半，其間包含電表實驗測試及家庭電表佈建初期，電表每刻15分鐘就有一筆資料透過AMR系統回傳至MDMS中儲存，提供後續服務之用途。電表資訊的基本儲存資料表主要有三個欄位，電表編號(MeterID)、時間戳記(Timestamp)及以度(killowatt)為單位的電表讀數如表3所示。由於我們所使用的電表紀錄的背景為台灣在智慧型電表市場仍為初期發展時期，佈建尚未健全，因此資料的收集記錄相當不完整。為了確保實驗的正確性及公平性，我們將取用較完整且無異常遺失的電表資料作為實驗對象，其中該資料為最原始尚未處理遺失值狀況之電表資料。其主要實驗的資料對象共有51個電表，佈建於台北市松山區光復北路上的社區型高樓住宅，紀錄時間從2011年6月至2011年9月共四個月如表4，該期間之資料雖無整月份長時間的異常遺失，卻仍存在資料遺失狀況，遺失的記錄零星分佈於實驗集內，因此本研究將會進一步分. 11.

(18) 析遺失狀況，以供後續實驗之用途。表 3: 電表資料表欄位示意圖. Meter ID. Timestamp. kilowatt. 10991005. 2011/06/01 02:00:00. 0.14. 10991005. 2011/06/01 02:15:00. 0.12. 10991005. 2011/06/01 02:30:00. 0.21. .. .. .. .. .. .. 表 4: 有效資料集. 資料集. 4.2. 資料來源. 台灣經濟部能源局. 時間範圍. 2011/06/01 - 2011/09/30. 涵蓋範圍. 台北. 電表數目. 51. 電表類型. 家庭用戶、商業用戶(高樓層大廈). 資料分析. 為了瞭解資料遺失的發生狀況，我們針對實驗集的資料進行遺失偵測及長度計算。此研究針對因異常氣候及其他因素造成的短暫資料遺失做彌補，因此去除12小時以上(b > 48)的連續遺失資料，該狀況可能為電表受損或是電力暫停輸 12.

(19) 送，並非此研究所要解決之問題。. 51個獨立的電表，紀錄時間長度為夏季6月至9九月，從597,312筆資料擷取出發生遺失狀況的資料做分析，我們發現到若扣除掉12小時以上連續遺失資料，如圖 3有79%的連續遺失資料都落在2小時內，約有21%連續遺失狀況至少2小時以上的連續性遺失，因此在實驗的設計，我們除了考慮單一遺失狀況之外，並且也將2小時內的連續性之遺失狀況也納入我們的實驗的範圍內。. 圖 3: 連續遺失狀況比例圖. 4.3. 評估標準. 利用均勻分布隨機數(uniform random)在實驗集中挑選出一筆非電表遺失之紀錄值作為遺失值，此一萬筆資料紀錄值的包含第一筆的後十筆資料必須為非零且非遺失值資料，作為單一遺失及連續遺失的評估對象，我們將上述動作施作一萬次，並使用本研究提出的方法進行遺失值彌補處理。由於我們所使用的資料集為實際用電數據，並且實驗中挑選非遺失值作為我們的彌補校正對象，因此我們可將此一萬次實驗資料評估後的結果與實際值進行誤差比較。評估準則方法眾 13.

(20) 多，本論文選擇較常見的平均絕對值誤差MAPE作為效益的準則，其計算方式如下: 10000 ∑︁. 𝑀 𝐴𝑃 𝐸 = (. 𝑘=1. ˜ 𝑖| |𝑀𝑖 − 𝑀 )/10000 𝑀𝑖. (4.1). 由於MAPE此法已將各誤差做正規標準化，並不會因數值的極大極小影響平均誤差，MAPE的評估標準度準則如下表研究評比對象選擇目前國內電力業表 5: MAPE評量指標. MAPE. 標準. MAPE< 10%. 卓越. 10%≤MAPE<20%. 良好. 20%≤MAPE<30%. 合理. 50%≤MAPE. 不準確. 者對於電表遺失所應對的線性內插法，該方法利用遺失前後之非遺失資料進行簡易的平均內插計算獲得遺失之校正值，而另一方面，本論文因應目前預測之議題，選擇電表預測領域常利用的ARIMA法，使用The Census Bureau所提供的一套The X-12-ARIMA Seasonal Adjustment Program [22] 套件並且使用(0, 1, 1) × (0, 1, 1)12 模組 [11] 實作於本研究之電表資料。. 4.4. 4.4.1. 實驗結果單一遺失狀況. 首先，第一個實驗項目為單一遺失之狀況處理，資料遺失僅在於一段時間 14.

(21) 圖 4: 單一錯誤回看法與ARIMA比較. 圖 5: 單一錯誤三明治法與內插法比較. 發生單一筆資料異常遺失，其前後資料紀錄仍為正常狀態，基於市場定位標準，評估分為兩組如圖 4 回看法−𝑁 與ARIMA比較，及圖 5 為三明治法−𝑁 及線性內插法之比較，其上兩組數據圖為MAPE及資料集追溯時間 𝐿 之關係呈現。回看法-𝑁 的MAPE最低可達到 0.1，另一方面，ARIMA方法不受資料集長度限制，在計算過程中，ARIMA需要取得前 7 日之資料加以計算取得模型，因此MAPE呈現水平直線，然而使用長資料的ARIMA方法MAPE卻只有 0.4。三明治法-𝑁 之MAPE呈現相當卓越的結果，其MAPE約在 0.05，另一方面，線性內插法之計算方式為使用前後兩非遺失值之平均，不受追溯長度之影響，因此也呈現水平直線，其MAPE約為 0.21，我們可發現到，本研究所提出的方法與傳統方法相較之下，回看法-𝑁 及三明治法-𝑁 具有高度的精準度。而資料追溯長度方面，我們可以看到當方法的𝑁 越大，其代表比對的限制越多，如三明治法-2 ，其行為比較係與遺失前後各兩比非遺失紀錄進行比對，因此當資料集越大，其MAPE之趨勢較無明顯的波動，然而對於比較數值較少的其他三種方法，在短時間之資料追溯時誤差率波動甚大，問題在於短時間之追溯之資料集紀錄數相當少量較無代表性，易主宰整個實驗之誤差。而在追溯中期時，. 15.

(22) 其MPAE隨追溯時間越長實驗精準度相對成長，原因為實驗中的資料集數量越來越大趨於穩定狀態，因此可相比的電表資料紀錄也越來越多。然而追溯時間在後期時，準確率呈現成反比之趨勢，其原因為資料集內蒐集的資料離遺失時間有段距離，而這些紀錄與電表遺失時相關性也隨之下降，一旦取得該電表值，因而導致遺失誤差升高。例外狀況在第 3.4 節已闡述說明，為了解例外狀況發生的情形，各方法之實驗數據分成兩組，第一組為單純使用回看法-𝑁 或三明治法-𝑁 之實驗結果，另一組為實驗中針對例外狀況已做處理之結果。經由實驗數據圖 6至圖 9 發現到，處理例外狀況之MAPE趨勢相當穩定，這是由於例外狀況之處理方式不受追溯長度影響，然而影響MAPE波動因子為單純使用本研究所提出的演算法所造就而成。單純使用本研究提出的演算法之精準度在三明治法-𝑁 中明顯優於例外狀況之處理，其中由定義可知，例外狀況與適用率為成反比之關係，因此適用率在追溯時間 𝐿 初期時相對較低但攀升相當快速，追溯時間越長適用率明顯上升，但根據圖 4 及圖 5 MAPE在初期時誤差高，到了中段時誤差低精準度較高，在後段時會因資料的相關性反而下降。. 4.4.2. 連續遺失狀況. 根據第 4.2 節之分析，資料遺失之發生有很大的機率會在連續的情況下產生，因此本研究另外進行十筆資料遺失之彌補校正，並觀察MAPE之情形。圖 10 及圖 11 為連續遺失之實驗數據圖，回看法-𝑁 在彌補連續遺失狀況下優於ARIMA方法，而不管是回看法-𝑁 或是ARIMA法都具有一種特徵，MAPE趨勢隨著連續遺失之個數而增加，其原因相當直觀，使用遺失前之用電行為評估遺失時段之用電度數，然而連續遺失越長，則評估所用的用電行為與後段的遺失值相. 16.

(23) 圖 6: 回看法-1 MAPE及適用率關係圖. 圖 7: 回看法-2 MAPE及適用率關係圖. 圖 8: 三明治法-1 MAPE及適用率關係圖圖 9: 三明治法-2 MAPE及適用率關係圖. 17.

(24) 關性越來越低導致誤差上升。三明治法-𝑁 與線性內插法之比較發現，本研究方法之精準度明顯優於內插法，而根據實驗結果圖之趨勢，我們發現到MAPE趨勢走向兩側低中間高的一個峰形狀，其原因為三明治法-𝑁 及線性內插法在實驗時將取用遺失前後之非遺失值做計算，在三明治法-𝑁 方面，其比較值會與連續遺失資料之前後遺失彌補較相關，因此MAPE之走向會呈現峰狀貌。. 圖 10: 回看法-𝑁 連續遺失狀況之MAPE. 圖 11: 三明治法-𝑁 連續遺失狀況之MAPE. 18.

(25) 第五章. 討論分析. 根據遺失狀況所應對的彌補校正措施之實驗結果可以發現到，本論文所提出的回看法-N 和三明治法-N 無論是在單一遺失值亦或連續遺失值的遺失狀況，所獲得的彌補校正值與實際值之精準度明顯大幅優於傳統的ARIMA和線性內插法，另一方面，如此高的精準度之演算法在本實驗環境下適用率並不高，其主要原因是受限於目前資料集內有效的電表數量相當少量，為了瞭解本研究方法未來若實際套用至社區或城市，電表數量需求增加至多少數量方可達到適用率的最佳理論值，因此在此將提出一套數學模型，該模型將使用既有的資料集之實際電表資料，匯整坐落於同社區之電表，加以分析電表用電分佈及比率，推演出一套流程，將模擬出電表數量與適用率之相互關係，並說明本研究方法所需的環境條件，提供更公正的計價準則。. 5.1. 變數定義. 我們利用第 3.1 節所定義的變數並另外定義電表分佈狀況的變數用以推演數學模型。m 為資料集內電表數量，資料集資料總數為𝑆(𝑚)，由於第 3.1 節提到每15分鐘將記錄一筆用電資訊，因此追溯L小時資料，則總數𝑆(𝑚) 可由𝑚 × 𝐿 × 4 獲得。接下來將利用已定義的𝑀𝑗𝑖 定義新的變數𝐶𝑗𝑖 ，𝐶𝑗𝑖 為𝑀𝑗𝑖 的比較值，如圖12 ，第 i 個電表的 j 時間之電表值視為遺失值𝑀𝑗𝑖 ，若使用回看 𝑖 𝑖 𝑖 法-1，則比較值𝐶𝑗𝑖 為𝑀𝑗−1 ，若使用三明治法-1，則比較值𝐶𝑗𝑖 為𝑀𝑗−1 及𝑀𝑗+1 。. 由於不同的𝑀𝑗𝑖 對應到的𝐶𝑗𝑖 之比較值可能會相同，意即𝑀𝑗𝑖 過去或未來之用電度數曾經也有使用過同度數的案例，因此為確保比較值的獨一性，我們. 19.

(26) 將𝐶𝑗𝑖 冗餘重複比較值進行刪除及計數整理如圖 13 ，因此原始的𝐶𝑗𝑖 資料可整理成𝑉𝑘 ，其特性為𝑉𝑖 ̸= 𝑉𝑗 則𝑖 ̸= 𝑗 ，並且𝑁 (𝑉𝑘 )表示𝑉𝑘 在實驗集內出現的次數。目前資料集內的電表數量為51電表(𝑚 = 51) 實驗資料總數可透過𝑆(𝑚) 計算. 圖 12: 變數𝐶𝑗𝑖 與𝑀𝑗𝑖 之關係. 圖 13: 比較值獨一性對應. 取得，並分析電表記錄𝑆(𝑚) 下發生之比率𝑃 (𝑉𝑘 ) 。換句話說，若增加a個電表，𝑆(𝑚 + 𝑎) 筆資料下，可根據𝑃 (𝑉𝑘 ) 得知𝑉𝑘 在𝑆(𝑚 + 𝑎)中可得到的期望數。. 5.2. 數學模型. 𝑉𝑘 之期望出現之數目攸關於整體實驗的適用率，我們透過增加電表數量來增加用電行為的重複率，其原因在於當用電行為重複性高，其代表可在資料集內比對到相同的行為，避免𝑅𝑡𝑖𝑘 或是𝑆𝑡𝑖𝑘 為空集合之情況。 20.

(27) 我們利用直覺的假設，電表數量增加則資料集總紀錄數目𝑆(𝑚 + 𝑎) 也相對增加，因此𝑉𝑘 期望出現數目依成正比關係成長，其中若是𝑉𝑘 之次數若仍為1時，則代表除了自己本身之外，無其他比較值𝐶𝑗𝑖 與自己相同，在此狀況下發生遺失問題時則無法在資料集找尋到相同的用電狀態，代表𝑅𝑡𝑖𝑘 或是𝑆𝑡𝑖𝑘 為空集合之情況，因此𝑉𝑘 之適用率Γ(𝑉𝑘 ) 為0，若𝑉𝑘 期望值為1以上，則代表資料集內除了本身以外仍存在𝑖 及𝑗 的𝐶𝑗𝑖 = 𝑉𝑘 ,代表遺失值前(或後)之用電狀態在資料集中已有紀錄並非第一次出現之行為，可得到彌補校正值，適用於本研究所提出的方法，因此𝑉𝑘 之適用率Γ(𝑉𝑘 ) 為1，以上描述可整理成下列算式： Γ(𝑉𝑘 ) = 𝑚𝑖𝑛(𝑆(𝑚 + 𝑎) × 𝑃 (𝑉𝑘 ) − 1, 1). (5.1). 所有𝑉𝑘 之總平均適用率計算如下： ∑︀ 𝐴=. − 1)Γ(𝑉𝑘 ) 𝑆(𝑚 + 1). 𝑘 (𝑁 (𝑉𝑘 ). (5.2). 由上述式子可得到一項線索，總平均適用率變化取決於各Γ(𝑉𝑘 ) 的變化程度，而Γ(𝑉𝑘 ) 可由目前的電表數量內計算出既有的用電紀錄比率𝑃 (𝑉𝑘 ) 快速取得。從先前的實驗結果圖 4 表示，當追溯時間越長使用的電表紀錄與遺失前狀況相關性低造成精準度下降，因此我們將不考慮增加資料集長度，傾向電表數量之發展，圖 14 為增加電表數量a 與適用率A的關係圖，很明顯的當電表的數量增加代表資料集數量越多，適用率也隨之增加，可避免掉資料集過度蒐集不相關資料之缺點。其中我們發現到，適用率在增加電表數目的初期成長相當迅速，由圖可推算出回看法-1增加至200個電表適用率可達到95%，三明治法-1電表增加至1750個可達到60%，其中三明治法在適用率達到60%時其上升速度轉為緩慢，這是由於該模型使用51個電表之資料建造而成，而該51個電表來自於家庭及商業用戶，因此電表分佈尚未處於穩定狀態，而根據該族群之適用率分析之迅速成長期僅能達 21.

(28) 圖 14: 回看法與三明治法適用率走向圖到60%，若當電表數目上升電表分佈趨於穩定時，則三明治法之適用率迅速成長期可望達到100%，因此若將本方法施作在都會區甚至是一般住宅區預期可達到相當好的適用率及準確度。. 22.

(29) 第六章. 結論及未來展望. 在本研究及實驗發現，根據不同的環境所設計的演算法有效改善遺失值校正的精準度。在三明治法下，對於使用在電費計價的帳單具有高度的精準度要求，因此在彌補電表遺失值演算法所使用前後的電表資料作為演算法內的成長參數，其評估結果比傳統電業使用的線性內插法具有更高的精準度，讓使用者更可信服電表帳單的真實性。而在回看法所使用的資料來源都來自電表遺失值的歷史資料，與同為預測常用方法ARIMA相比回看法之精準度明顯優於傳統的ARIMA方法，因此可作為線上即時偵測電表遺失值，此外更能預測未來地區用戶使用的總電量，並提供給電力配送單位給予更精確的配置，有效降低電力在輸送的過程中經過阻抗設備轉成熱能的損耗電力，對於目前台灣電力損耗率是在世界帄均之上的一大問題來說，配電管理更是需要關注的議題之一。因此本研究對於學術界及實務上都有相當的貢獻。本論文另外針對適用率與電表數之關係進行分析及模擬，透過實驗集之電表分佈計算推演出一套數學模型，該數學模型可模擬電表數目及適用率之關聯度。電表數目的增加下適用率在初期擁有極快速的成長，且至少200個電表就可使回看法-1在遺失值彌補適用率達到100%，因此本研究所提出的方法相當適合套用在實際的社區或城市內。因此本研究之完整貢獻如下：. ∙ 學術層面 – 針對不同的需求環境提供不同的解決方法。 – 針對單一遺失及連續遺失狀況進行分析及效能評估。 – 高精準度、適用率機能性高、高效率之方法，改善傳統所使用的ARIMA、線性內插法之缺點。 23.

(30) ∙ 實務層面 – 對於使用者來說，未來之時價計費更有保障以及用電行為之分析更為明確，用電行為檢討改變，達到節約能源之功效。 – 對於電力業者，可精準提供動態配電,用已提高用電效率減少電力之浪費。. 對於未來之展望，將本研究所提出的研究方法實際操作於電表高度密集佈建之城市，改善資料集分佈之穩定性，其中資料集之穩定性並可透過電表資料分群之計算，區別出商業和家庭用戶，甚至是將用戶做進一步分群，使電表用電族群之分佈更為相近，期望達到高精準度及高適用率。. 24.

(31) 參考文獻 [1] Itron. https://www.itron.com/, 2013. [2] Taiwan Power Company, http://www.taipower.com.tw/, 2013. [3] Bureau. of. Energy,. Ministy. of. Economic. Affairs,. Taiwan,. http://www.moeaboe.gov.tw/, 2013. [4] Spanish Electricity Price Market Operator, http://www.omel.es/, 2013. [5] New York Independent System Operator, http://www.nyiso.com/, 2013. [6] Australian Energy Market Operator, http://www.nemmco.com.au/, 2013. [7] T. Khalifa, K. Naik and A. Nayak, A Survey of Communication Protocols for Automatic Meter Reading Applications. Communications Surveys & Tutorials, IEEE, 2011, Vol. 13(2), pp. 168-182. [8] T. Sauter and M. Lobashov, End-to-End Communication Architecture for Smart Grids. IEEE Transactions on Industrial Electronics, 2011, Vol. 58(4), pp. 1218-1228. [9] J. Quevedoa, V. Puiga, G. Cembranoa, J. Blancha, J. Aguilarb, D. Saportac, G. Benitod, M. Hedod and A. Molinad, Validation and Reconstruction of Flow Meter Data in the Barcelona Water Distribution Network. Control Engineering Practice, 2010, Vol. 18(6), pp. 640-651. [10] G. E. P. Box, G. M. Jenkins, G. C. Reinsel, Time Series Analysis: Forecasting and Control. 4(ed.), Wiley.com, 2013.. 25.

(32) [11] H. Wang and N. N. Schulz, Using AMR Data for Load Estimation for Distribution System Analysis. Electric Power Systems Research, 2006, Vol. 76(5), pp. 336-342. [12] J. W. Taylor, Triple Seasonal Methods for Short-Term Electricity Demand Forecasting, European Journal of Operational Research, 2010, Vol. 204(1), pp. 139-152. [13] S. Civanlar and J. J. Grainger, Forecasting Distribution Feeder Loads: Modeling and Application to VOLT/VAR Control. International Conference on Probabilistic Methods Applied to Power Systems, 2004, pp. 118-122. [14] D. Matheson, C. Jing, and F. Monforte, Meter Data Management for the Electricity Market. International Conference on Probabilistic Methods Applied to Power Systems, 2004, pp. 118-122. [15] J. Y. Fan and J. D. McDonald, A Real-Time Implementation of Short-Term Load Forecasting for Distribution Power System, IEEE Transactions on Power Systems, 1994, Vol. 9(2), pp. 988-994. ´ [16] F. Mart´ınez-Alvarez, A. Troncoso, J. C. Riquelme, and J. S. Aguilar-Ruiz, Energy Time Series Forecasting Based on Pattern Sequence Similarity. IEEE Transactions on Knowledge and Data Engineering, 2011, Vol. 23(8), pp. 12301243. [17] A. J. Conejo, M. A. Plazas, R. Espinola, and A.B. Molina, Day-Ahead Electricity Price Forecasting Using the Wavelet Transform and ARIMA Models. IEEE Transactions on Power Systems, IEEE, 2005, Vol. 20(2), pp. 1035-1042.. 26.

(33) [18] J. P. S. Catalão, S. J. P. S. Mariano, V. M. F. Mendes, and L. A. F. M. Ferreira, Short-Term Electricity Prices Forecasting in a Competitive Market: A Neural Network Approach. Electric Power Systems Research, 2007, Vol. 77(10), pp. 1297-1304. [19] C. Garcia-Martos J. Rodriguez and M. J. Sánchez, Mixed Models for ShortRun Forecasting of Electricity Prices: Application for the Spanish Market. IEEE Transactions on Power Systems, 2007, Vol. 22(2), pp. 544-552. [20] A. T. Lora, J. M. R. Santos, A. G. Expósito, J. L. M. Ramos, and J. C. R. Santos, Electricity Market Price Forecasting Based on Weighted Nearest Neighbors Techniques. IEEE Transactions on Power Systems, 2007, Vol. 22(3), pp. 1294-1301. [21] E. Wu and M. Staroswiecki, Fault Detection, Supervision and Safety of Technical Processes. 1(ed.), Elsevier Science, 2004. [22] US Census Bureau,. X-12-ARIMA Reference Manual Version 0.2.10.. http://www.census.gov/srd/www/x12a/, 2013. [23] H. Tram, Technical and Operation Considerations in Using Smart Metering for Outage Management. Transmission and Distribution Conference and Exposition, 2008, T&D. IEEE/PES, pp. 1-3. [24] K. Sridharan and N. N. Schulz, Outage management through AMR systems using an intelligent data filter. IEEE Transactions on Power Delivery, 2001, Vol. 16(4), pp. 669-675.. 27.

(34) [25] D. E. Goldberg. Genetic algorithms in search, optimisation, and machine learning. Addison Wesley Longman, Inc., 1989.. 28.

(35) 附錄 A: 自回歸移動平均模型ARIMA 自我迴歸移動平均(Autoregressive Integrated Moving Average, ARIMA)在1970年由Box以及Jenkins所提出之預測模型，透過時間序列之迴歸計算，ARIMA可被描述為式子A.1： 𝑆 𝜑(𝐵)Φ(𝐵 𝑆 ) ▽𝑑 ▽𝐷 𝑆 𝑦(𝑡) = 𝜃(𝐵)Θ(𝐵 )𝑎(𝑡). (A.1). 其中𝑦(𝑡)為時間為𝑡下的資料，𝑎(𝑡)為隨機亂數，𝐵為落後運算子(backward shift operator)，因此在時間為𝑡 − 𝑚時之資料可由𝑦(𝑡 − 𝑚) = 𝐵 𝑚 𝑦(𝑡)計算而得，▽為落後差分運算子(backward difference operator)。𝜑(𝐵)為自我回歸迴歸運算子，其展開式為式子A.2，𝑠為時間序列支週期變數，因此Φ(𝐵 𝑠 )及Θ(𝐵 𝑠 )可被定義為式子A.3及式子A.4，上述之算式所建置出的模型稱為(𝑝, 𝑑, 𝑞) × (𝑃, 𝐷, 𝑄)𝑠 ，因此一個完整的ARIMA模型有三個主要計算：(1)自我迴歸(autoregressive process, AR)，(2)差分運算(integrated,I)，最(3)移動平均(moving average process, MA)，其更細節之模型計算請參閱 [10]之內容。 𝜑(𝐵) = 1 − 𝜑1 𝐵 − 𝜑2 𝐵 2 − ... − 𝜑𝑝 𝐵 𝑝. 𝑠. Φ(𝐵 𝑠 ) = 1 − Φ1𝑠 𝐵 𝐵 − Φ𝑝𝑠 𝐵 𝐵. 𝑠. 2. 𝑝𝑠. Θ(𝐵 𝑠 ) = 1 − Θ1𝑠 𝐵 𝐵 − Θ2𝑠 𝐵 𝐵 𝑠 − ... − Θ𝑄𝑠𝐵 𝑄𝑠. (A.2). (A.3). (A.4). 建造ARIMA之模型需要透過遞迴之方法求得最佳之變數，因此模型計算可被分為下列四階段： 29.

(36) ∙ 鑑定(Identification)：使用歷史資料在算式A.1設定常數𝑝, 𝑑, 𝑞, 𝑠, 𝑃, 𝐷, 𝑄。 ∙ 評估(Estimation)：使用已定義的𝑝, 𝑑, 𝑞, 𝑠, 𝑃, 𝐷, 𝑄在算式A.1求出𝜃𝑖 , 𝜑𝑖 , Φ𝑖 Θ𝑖 。 ∙ 檢定(Validation)：前兩個階段之計算已建置完整的ARIMA模型，其本階段為進行模型之適用性測試，若該模型之適用度不佳，則回到第一的階段重新定義變數𝑝, 𝑑, 𝑞, 𝑠, 𝑃, 𝐷, 𝑄。 ∙ 預測(Forecast)：經由以上三階段之遞迴計算可求得最佳模型，即可進行預測之計算。. 30.

(37) 附錄 B: 變數定義 𝑀𝑗𝑖 ：第 𝑖 個電表在時間 𝑗 的電表紀錄值 𝐶𝑗𝑖 ：第 𝑀𝑗𝑖 筆電表資料之比較值 𝑚 ：目前資料集內的電表數量 𝑎 ：欲增加的電表數量 𝑆(𝑚 + 𝑎) ：資料集內電表數量共 𝑚 + 𝑎 個情況下之電表紀錄數 𝑉𝑘 ：資料集內曾經出現過的 𝐶𝑗𝑖 之比較值 𝑁 (𝑉𝑘 ) ：𝑉𝑘 在資料集內出現的次數 𝑃 (𝑉𝑘 ) ：𝑉𝑘 在資料集內出現的比率 Γ𝑉𝑘 ：𝑉𝑘 之適用率. 31.

(38) 附錄 C: 數學方程式. 𝑓 (𝑖, 𝑡𝑢 , 𝑗, 𝑡𝑣 , 𝑛) =. ⎧ ⎪ ⎪ ⎪ ⎨1 : 𝑀𝑡𝑖𝑢+𝑘 = 𝑀𝑡𝑗𝑣+𝑘 , 𝑘 = 1, ..., 𝑛. (C.5). ⎪ ⎪ ⎪ ⎩0 : Otherwise. 𝑅𝑡𝑖𝑘 = {𝑀𝑡𝑗𝑢 |∀𝑗∀𝑡𝑢 ∈ [𝑡𝑘 − 𝐿, 𝑡𝑘 ) : 𝑓 (𝑖, 𝑡𝑘 , 𝑗, 𝑡𝑢 , 𝑛) = 1}. 𝑔(𝑖, 𝑡𝑢 , 𝑗, 𝑡𝑣 , 𝑛) =. ⎧ ⎪ ⎪ ⎪ ⎨1 : 𝑀𝑡𝑖𝑢+𝑘 = 𝑀𝑡𝑗𝑣+𝑘 , 𝑘 = ±1, ..., ±𝑛. (C.6). (C.7). ⎪ ⎪ ⎪ ⎩0 : Otherwise. 𝑆𝑡𝑖𝑘 = {𝑀𝑡𝑗𝑢 |∀𝑗∀𝑡𝑢 ∈ [𝑡𝑘 − 𝐿, 𝑡𝑘 ) : 𝑔(𝑖, 𝑡𝑘 , 𝑗, 𝑡𝑢 , 𝑛) = 1}. ˜ 𝑖 = 𝑀𝑖 𝑖𝑓 (𝑅𝑡𝑖𝑘 = ∅) 𝑀 𝑡𝑥 𝑡𝑘−1. ˜ 𝑡𝑖 = 𝑖𝑓 (𝑆𝑡𝑖𝑘 = ∅) 𝑀 𝑥. 10000 ∑︁. 𝑀 𝐴𝑃 𝐸 = (. 𝑘=1. 𝑀𝑡𝑖𝑦 + 𝑀𝑡𝑖𝑥 2. ˜ 𝑖| |𝑀𝑖 − 𝑀 )/10000 𝑀𝑖. Γ(𝑉𝑘 ) = 𝑚𝑖𝑛(𝑆(𝑚 + 𝑎) × 𝑃 (𝑉𝑘 ) − 1, 1) 32. (C.8). (C.9). (C.10). (C.11). (C.12).

(39) ∑︀ 𝐴=. − 1)Γ(𝑉𝑘 ) 𝑆(𝑚 + 1). 𝑘 (𝑁 (𝑉𝑘 ). 33. (C.13).

(40) 附錄 D: 程式列表 ∙ 變數名稱： – fetchTime：追溯時間𝐿 – missingID：遺失值電表編號 – missingTime：遺失值之記錄時間 ∙ 函數方法： – dataset：遺失值的前𝐿筆電表紀錄資料 – makeFilter：回看法為遺失值前𝑁 比紀錄之非遺失電表資料，三明治法為遺失值前及後𝑁 筆非遺失電表資料 – compare：函數makeFilter之擷取的電表資料與函數Dataset進行比對 – pickMissing：使用輪盤法則取得遺失校正值 – insert：線性內插法. 列表 D.1: 主要程式 1. i n t main ( i n t argc , c h a r ** argv ) {. 2. c h a r outputName [ 5 0 ] , missingTime [ i d ] , m i s s i n g I D [ i d ] ;. 3. s t r i n g f i l t e r [N] , time temp [ Max ] , c a n d i d a t e [ Max ] ;. 4. f l o a t c a n d i d a t e t i m e s [ Max ] ;. 5. i n t window=2, i =0, fetchTime ;. 6. d o u b l e randNum=0, p r e d i c t =0;. 7 8. f o r ( fetchTime =72; fetchTime <=72; fetchTime++){. 34.

(41) 9. f s e e k ( missingData , 0 L , SEEK SET) ;. 10. w h i l e ( f g e t s ( missingID , 2 5 , m i s s i n g D a t a ) ) {. 11. f g e t s ( missingTime , 2 5 , m i s s i n g D a t a ) ;. 12. // DataSet. 13. d a t a s e t ( missingTime , fetchTime , time temp ) ;. 14. // b e h a v i r. 15. m a k e F i l t e r ( f i l t e r , window , time temp , m i s s i n g I D ) ;. 16. //Compare. 17. f o r ( Burst =0; Burst <10; Burst++){. 18. compare ( time temp , fetchTime , missingID , f i l t e r , candidate , candidate times ) ; i f ( candidate [ 0 ] . length () ) {. 19 20. randNum=u n i ( ) ;. 21. pickMissing ( candidate , candidate times , randNum ) ;. 22. }. 23. else{. 24. i ++;. 25. i n s e r t ( missingTime , m i s s i n g I D ) ; }. 26 }. 27 }. 28 29. }. 30. i =0;. 31 }. 35.

(42)