第四章 AMI 用戶用電資料探勘分析
第六節 資料集群分析工具
在完成ETL 及 Python 資料預處理等步驟後,本研究使用 Matlab 撰寫分析程式,
將低壓AMI 用戶用電資料進行集群分析演示。
Matlab 為 MATrix LABoratory 的縮寫,字義為「矩陣實驗室」,為美國 The MathWorks 公司所推出的商業數學分析軟體。其提供整合了數值計算、資料分析、演 算法等項目的高階語言開發環境,可呼叫C、C++、Java、Python 等多種語言編寫而成 的程式碼,也可開發資料視覺化、使用者介面等功能,並可進一步延伸至商管分析建
Z = linkage(Y,'complete') 而使用之cluster 語法為:
T = cluster(Z,'cutoff',c) 或
T = cluster(Z,'maxclust',5)
其中Y 代表相異度矩陣,Z 代表以階層式聚集法產出的集群樹矩陣,c 為切割
第五章 AMI 用戶用電資料探勘分析演示
第一節 用電資料分析結果
針對NBS資料庫之用戶資料,經建構SQL Server資料庫進行彙整、處理後,可根據 用電區域、用電度數、開票年月、電表裝設日期、所屬饋線等不同欄位的靜態資料進 行篩選、分析。
圖五-1 以第三章第二節所描述之根據月平均用電量進行篩選的8,408戶低壓AMI用 戶,於2016年6月至9月之月均用電度數產生的分組圖表。
45
此分組係針對月均用電度數介於70~700 度的用戶,統計其月均用電度數並進行分 組。根據分組圖示,可發現以140 度至 365 度左右的區間占比較多。
除了以NBS 的靜態資料真接針對用戶進行統計,本研究另使用低壓 AMI 用戶之 動態資料作為主要分析。圖五-2 為使用 Matlab 進行的低壓 AMI 單一用戶用電資料集 群分析。
圖 5-2 低壓 AMI 單一用戶用電資料集群分析(使用 Matlab)
在程式的使用者介面,可根據輸入的指定群數,將單一用戶於四個月內的有效用 電資料分成數個群集。
上方欄位顯示了各群集,點擊各群集後,下方欄位將顯示群集中所包含的資料內 容。透過下方欄位中各資料的日期資訊,可了解此用戶在不同群集中的用電情形。
doi:10.6342/NTU201702936
另外,也可調整時段篩選,檢視不同時段的群集結果。
圖 5-3 低壓 AMI 單一用戶用電資料集群分析(時段篩選)
將原先凌晨0 點至晚上 24 點的全天時段,調整為中午 12 點至晚上 24 點的半天時 段後,該群集將根據相對應的時段進行篩選,重新顯示群集內資料內容。
47
使用Matlab 的 cophenet 函數,可用以衡量階層式分群產生之樹狀結構,是否能忠 實地反映出所觀測資料之相異度,因此可比較多組不同集群結果的表現,以找出候選 之集群數。以下使用與前述單一用戶相同之資料進行集群分析,並列出不同
maxclusters 群集數介於 3 至 9 之間,所對應之 cophenet 函數不同的輸出值:
Maxclusters = 3, cophenet = 0.9841
Maxclusters = 4, cophenet = 0.4177
Maxclusters = 5, cophenet = 0.2376
Maxclusters = 6, cophenet = -0.2789
doi:10.6342/NTU201702936
Maxclusters = 7, cophenet = -0.0898
Maxclusters = 8, cophenet = 0.1023
Maxclusters = 9, cophenet = -0.2212
49
由以上的結果,可發現當maxclusters 群集數在 3 的時候有最大的 cophenet 輸出 值,其次為群集數4。
然而,maxclusters 與 cophenet 輸出值,兩者並非呈正向或負向關係,而是視原始 資料的特性而有所改變,因此,進行不同資料的集群分析時,其產生之maxclusters 與 cophenet 輸出值的對應結果也會不盡相同。過少的群集數會使得部分的用電行為趨勢 被併入群集中而被覆蓋掉,過多的群集數則會使得用電行為趨勢較難以解釋。一般而 言,將maxclusters 群集數限制在 10 以下,並根據不同研究需求尋找較佳群集數目,能 夠提供較合適的集群分析結果。
以下將以第三章第二節提到的ZB52 饋線之目標用戶群為例,展示低壓 AMI 用戶 集群分析結果。
doi:10.6342/NTU201702936
51
圖中顯示了ZB52 饋線之目標用戶群,於 2016 年 6 月至 2016 年 9 月之低壓 AMI 用電資料集群分析。
群集共分為C1~C8 共 8 群,以不同顏色標示各群集的用電趨勢。
縱軸為AMI 電表 KW 值經過標準化處理後之值。
橫軸為時間,由每15 分鐘一筆組成 24 小時共 96 筆時點,以 6 小時為刻度單位。
資料以 “表號-日期” 作為資料點 ID 組成方式,用以辨識用電資料點代表的不同表 號或不同用電日期。有效資料筆數為4,743 筆。
圖中可發現多數群集皆有往兩側隆起的趨勢,顯示出目標用戶群之用電在晚上逐 漸形成尖峰,而在日間時段趨於緩和。圖中又以C3、C4 與 C5 三個群集具有較高尖 峰,下列將以此三個群集進行細部分析說明。
doi:10.6342/NTU201702936
53
在 C3 群集中的用戶有 18 戶,為位於台北市萬華區中華路二段上某區段之用戶 群,多為二樓以上住宅單位(包含一公司行號)。
群集中的用電資料日期分布,六月份有21 筆,七月份有 36 筆,八月份有 26 筆,
九月份有20 筆,共 103 筆,其中以星期六累積次數較多。
表 5-1 ZB52 饋線 群集 C3 週間累積次數
C3 群集的用電趨勢在凌晨三點至晚上六點之間呈現較少用電,但在晚上六點之後 用電開始急劇增加,在晚上十點半左右達到高峰,之後開始下降。
0 5 10 15 20 25 30
日 一 二 三 四 五 六
次數
doi:10.6342/NTU201702936
55
57
59
圖中顯示了ZB63 饋線之目標用戶群,於 2016 年 6 月至 2016 年 9 月之低壓 AMI 用電資料集群分析。
群集共分為C1~C7 共 7 群,以不同顏色標示各群集的用電趨勢。
縱軸為AMI 電表 KW 值經過標準化處理後之值。
橫軸為時間,由每15 分鐘一筆組成 24 小時共 96 筆時點,以 6 小時為刻度單位。
資料以 “表號-日期” 作為資料點 ID 組成方式,用以辨識用電資料點代表的不同表 號或不同用電日期。有效資料筆數為2,512 筆。
ZB63 饋線之目標用戶群,與前述之 ZB52 饋線之目標用戶群相似,多數群集也有 往兩側隆起的趨勢,在晚上逐漸形成尖峰,並在日間時段趨於緩和。圖中又以C4、C5 與C6 三個群集具有較高尖峰,下列將以此三個群集進行細部分析說明。
doi:10.6342/NTU201702936
61
C4 群集中的用戶僅有 5 戶,為位於台北市萬華區東園街某區段之用戶群,皆為二 樓以上單位。
群集中的用電資料日期分布,六月份有3 筆,七月份有 3 筆,八月份有 5 筆,九 月份有4 筆,共 15 筆,其中以星期五累積次數較多。
表 5-4 ZB63 饋線 群集 C4 週間累積次數
C4 群集的用電趨勢僅在晚上六點至凌晨零點之間形成尖峰,尖峰出現在晚間九點 左右,其他時段用電趨勢則無起伏。
0 1 2 3 4 5 6
日 一 二 三 四 五 六
次數
doi:10.6342/NTU201702936
63
C5 群集共 17 戶,同樣為位於台北市萬華區東園街某區段之用戶群,多為二樓以 上單位。
群集中的用電資料日期分布,六月份有33 筆,七月份有 54 筆,八月份有 39 筆,
九月份有28 筆,共 154 筆,其中以星期六累積次數較多。
表 5-5 ZB63 饋線 群集 C5 週間累積次數
C5 群集的用電趨勢,從凌晨一點半的尖峰開始下降直到早上六點,而後未有起 伏,在晚上六點過後,用電趨勢再度上升。
0 5 10 15 20 25 30
日 一 二 三 四 五 六
次數
doi:10.6342/NTU201702936
65
C6 群集共 17 戶,同樣為位於台北市萬華區東園街某區段之用戶群,多為二樓以 上單位。
群集中的用電資料日期分布,六月份有192 筆,七月份有 140 筆,八月份有 156 筆,九月份有110 筆,共 598 筆,其中以星期四累積次數較多。
表 5-6 ZB63 饋線 群集 C6 週間累積次數
C6 群集的用電趨勢,從凌晨零點開始持續上升,在凌晨四點形成尖峰,而後下降 未有起伏,晚上九點過後,用電趨勢再度上升。
0 20 40 60 80 100 120
日 一 二 三 四 五 六
次數
doi:10.6342/NTU201702936
第二節 用電資料分析結論
67