• 沒有找到結果。

應用時間序列相似度量測方法於異常偵測與分類

N/A
N/A
Protected

Academic year: 2021

Share "應用時間序列相似度量測方法於異常偵測與分類"

Copied!
75
0
0

加載中.... (立即查看全文)

全文

(1)國 立 交 通 大 學 電機與控制工程研究所 碩 士 論 文. 應用時間序列相似度量測方法 於異常偵測與分類 Applying Time-Series Similarity Measurement to Fault Detection and Classification. 研 究 生 : 洪達文 指導教授 : 周志成 博士. 中華民國 九十五 年 九 月.

(2) 應用時間序列相似度量測方法 於異常偵測與分類 Applying Time-Series Similarity Measurement to Fault Detection and Classification. 研 究 生 : 洪達文. Student : Ta-Wen Hung. 指導教授 : 周志成. Advisor : Dr. Chi-Cheng Jou. 國 立 交 通 大 學 電機與控制工程研究所 碩 士 論 文 A Thesis Submitted to Department of Electrical and Control Engineering College of Electrical Engineering National Chiao-Tung University in Partial Fulfillment of the Requirements for the Degree of Master in Electrical and Control Engineering September 2006 Hsinchu, Taiwan, Republic of China. 中華民國 九十五 年 九 月.

(3) 應用時間序列相似度量測方法 於異常偵測與分類 學 生 : 洪達文. 指導教授 : 周志成 博士. 國立交通大學電機與控制工程研究所. 要. 摘. 本論文主要探討如何在滿足正常狀態之工作範圍的條件下, 偵測出異常的時間序 列資料並將其分類, 且該方法與系統對時間序列位移量與雜訊大小的敏感性越小越 好。 相較於傳統的工作範圍偵錯法只能偵測出超出工作範圍的異常, 以及主成份分 析法容易損失資料資訊, 造成微小異常的不易偵測與分類, 本論文以直接量測時間 序列的相似度來改進這些缺失。 本研究以半導體製程中, 質流控制器的五種異常狀 態為例, 希望在滿足正常工作範圍的條件下, 能將異常訊號偵測出來, 並可將正常與 異常共六種類別分類。 首先, 使用歐基里德距離量測法與動態時間扭曲法, 測量出 時間序列間的相似度。 接著, 利用多重維度度量法的二維知覺圖與 F -試驗值初步評 估系統成效。 之後, 再使用 k-最鄰近點分類法來進一步驗證偵錯與分類結果, 並比 較不同相似度量測方法的系統成效差異。 同樣的系統除了可應用在本論文所舉的半 導體製程例子之外, 亦可應用於與時間序列有關的議題上, 例如金融與醫學等領域。 關鍵字 : 時間序列、 工作範圍、 異常偵測與分類、 相似度、 歐基里德距離量測法、 動 態時間扭曲法、 多重維度度量法、 知覺圖、 F -試驗值、 k-最鄰近點法。. i.

(4) Applying Time-Series Similarity Measurement to Fault Detection and Classification Student : Ta-Wen Hung. Advisor : Dr. Chi-Cheng Jou. Department of Electrical and Control Engineering National Chiao Tung University. Abstract The purpose of this thesis is to detect and classify abnormal time-series data under normal working range. In addition, the less sensitive the offset and noise of time-series data is, the better the system is. The traditional working-rangedetection method is just used to detect faults over normal working range, and using principal components analysis is not easy to detect and classify little abnormality because it loses information of data. The thesis improves these shortcomings by measuring the similarity of time-series data directly. This research takes five faults of mass flow controller in semiconductor manufacturing process for example. It is expected that faults can be detected and classified under normal working range. First, we measure similarity between different time-series data with Euclidean distance metric and dynamic time warping. Second, we make use of two-dimensional perceptual map of multidimensional scaling and F-test to evaluate the preliminary performance of the system. And then, we validate the results of fault detection and classification by using knearest neighbors classification, and comparing the performance of the system using different similarity measurement. The same system can be applied not only to semiconductor manufacturing process in this thesis, but to the issues about time-series data in financial and medical domain. Keywords : Time-series, Working Range, Fault Detection and Classification, Similarity, Euclidean Distance Metric, Dynamic Time Warping, Multidimensional Scaling, Perceptual Map, F -test, k-Nearest Neighbors.. ii.

(5) 誌. 謝. 由衷感謝指導教授周志成老師的細心指導與教誨, 除了學術研究上的訓練與知識 外, 人生價值觀的建立以及對事物的觀察與見解等, 更是對我有著莫大幫助。 同時 亦感謝楊谷洋老師與陳永平老師在口試時給予的指導與建議, 使本論文研究能更形 完善。 感謝實驗室的志強與似修學長, 建威與丞師, 以及星戎和任宏學弟, 他們在課 業與生活上的支持與協助, 使我在碩士生涯能有著充實經歷與回憶。 最後, 更要感 謝家人與親朋好友的支持與關懷, 能和我一起分享喜怒哀樂, 一路走來縱使有小顛 簸, 亦能順順利利的度過這一階段。 僅將此論文獻給所有我所認識的人, 謝謝你們!. iii.

(6) 目. 錄. 中文摘要. i. 英文摘要. ii. 誌謝. iii. 目錄. iv. 表目錄. vi. 圖目錄. vii. 1 序論. 1. 1.1 研究動機與目的 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2 問題特徵與文獻方法 . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.3 研究方法與系統架構 . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.4 論文架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2 統計方法與模型. 9. 2.1 主成份分析法 . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 2.1.1. 特性簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 2.1.2. 運算機制 . . . . . . . . . . . . . . . . . . . . . . . . . . . 11. 2.2 多重維度度量法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2.1. 知覺圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15. 2.2.2. 運算機制 . . . . . . . . . . . . . . . . . . . . . . . . . . . 17. iv.

(7) 2.3 k-最鄰近點分類器 . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.3.1. 未加權式 k-最鄰近點 . . . . . . . . . . . . . . . . . . . . 21. 2.3.2. 加權式 k-最鄰近點 . . . . . . . . . . . . . . . . . . . . . . 22. 2.4 定義評估函數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3 時間序列之相似度量測. 27. 3.1 歐基里德距離量測法 . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2 動態時間扭曲法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.2.1. 特性簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . 28. 3.2.2. 視窗式動態時間扭曲法 . . . . . . . . . . . . . . . . . . . . 30. 3.2.3. 最小累進距離式動態時間扭曲法 . . . . . . . . . . . . . . . 32. 4 實驗與討論. 33. 4.1 資料產生與實驗流程 . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.1.1. 資料產生 . . . . . . . . . . . . . . . . . . . . . . . . . . . 33. 4.1.2. 實驗流程 . . . . . . . . . . . . . . . . . . . . . . . . . . . 38. 4.2 類別內實驗 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.3 類別間實驗 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.4 驗證分類結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5 研究結論. 58. 參考文獻. 61. v.

(8) 表 目 錄 2.1 多重維度度量法範例 . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2 不同訓練資料樣本數的分類成效 . . . . . . . . . . . . . . . . . . . 24 4.1 N2 與不同位移量下的各系統 F -試驗值 . . . . . . . . . . . . . . . 43 4.2 N8 與不同位移量下的各系統 F -試驗值 . . . . . . . . . . . . . . . 46 4.3 不同雜訊大小下的各系統 F -試驗值 . . . . . . . . . . . . . . . . . 50 4.4 N2 之各系統分類錯誤率 . . . . . . . . . . . . . . . . . . . . . . . 51 4.5 N8 之各系統分類錯誤率 . . . . . . . . . . . . . . . . . . . . . . . 52 4.6 N1k3 之各系統分類錯誤統計 . . . . . . . . . . . . . . . . . . . . . 54 4.7 N5k3 之各系統分類錯誤統計 . . . . . . . . . . . . . . . . . . . . . 54 4.8 N9k3 之各系統分類錯誤統計 . . . . . . . . . . . . . . . . . . . . . 55 4.9 EDM系統之分類錯誤統計 . . . . . . . . . . . . . . . . . . . . . . 55 4.10 DTW系統之分類錯誤統計 . . . . . . . . . . . . . . . . . . . . . . 55 4.11 N1k3-EDM之詳細分類表 . . . . . . . . . . . . . . . . . . . . . . 56 4.12 N1k3-DTW之詳細分類表 . . . . . . . . . . . . . . . . . . . . . . 56 4.13 N9k3-EDM之詳細分類表 . . . . . . . . . . . . . . . . . . . . . . 57 4.14 N9k3-DTW之詳細分類表 . . . . . . . . . . . . . . . . . . . . . . 57. vi.

(9) 圖 目 錄 1.1 正常工作範圍範例 . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. 1.2 MFC異常範例 . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 1.3 時間序列維度縮減範例 . . . . . . . . . . . . . . . . . . . . . . . .. 4. 1.4 PCA 範例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.5 系統架構流程圖 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.6 各種分類器的分類錯誤率 . . . . . . . . . . . . . . . . . . . . . .. 7. 2.1 主成份分析法流程圖 . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 2.2 散佈圖範例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3 第一主成份範例 . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.4 知覺圖範例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.5 知覺圖的分類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.6 多重維度度量法流程圖 . . . . . . . . . . . . . . . . . . . . . . . . 17 2.7 多重維度度量法範例 . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.8 距離與內積之間的幾何關係 . . . . . . . . . . . . . . . . . . . . . 18 2.9 相似性與相異性矩陣的分類 . . . . . . . . . . . . . . . . . . . . . 19 2.10 kNN 分類器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.11 DW-kNN 分類器 . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.12 k 值選擇 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.13 分類範例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.1 歐基里德距離量測法範例 . . . . . . . . . . . . . . . . . . . . . . 27. vii.

(10) 3.2 歐基里德距離量測法相似度分類範例 . . . . . . . . . . . . . . . . 28 3.3 相似度運算圖解 . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.4 動態時間扭曲法相似度分類範例 . . . . . . . . . . . . . . . . . . . 29 3.5 動態時間扭曲法路徑範例 . . . . . . . . . . . . . . . . . . . . . . 30 4.1 資料產生流程圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.2 正常資料時間序列之產生 . . . . . . . . . . . . . . . . . . . . . . 35 4.3 正常狀態之工作範圍 . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.4 異常類別資料樣板 . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.5 異常類別資料之時間序列 . . . . . . . . . . . . . . . . . . . . . . 37 4.6 整體實驗流程圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.7 類別內實驗流程圖 . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.8 類別內實驗之控制變數 . . . . . . . . . . . . . . . . . . . . . . . . 41 4.9 類別內實驗之小雜訊時間序列 . . . . . . . . . . . . . . . . . . . . 41 4.10 N2S4 之知覺圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.11 N2 與不同位移量下的各系統成效 . . . . . . . . . . . . . . . . . . 44 4.12 類別內實驗之大雜訊時間序列 . . . . . . . . . . . . . . . . . . . . 44 4.13 N8S6 之知覺圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.14 N8 與不同位移量下的各系統成效 . . . . . . . . . . . . . . . . . . 46 4.15 類別間實驗流程圖 . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.16 類別間實驗之異常時間序列 . . . . . . . . . . . . . . . . . . . . . 48 4.17 N5 之知覺圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.18 不同雜訊大小下的各系統成效 . . . . . . . . . . . . . . . . . . . . 50 4.19 驗證流程圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.20 N2 之各系統分類成效 . . . . . . . . . . . . . . . . . . . . . . . . 52 4.21 N8 之各系統分類成效 . . . . . . . . . . . . . . . . . . . . . . . . 53 4.22 驗證之控制變數 . . . . . . . . . . . . . . . . . . . . . . . . . . . 53. viii.

(11) 第1章 序論. 1.1 研究動機與目的 在資料探勘 (data mining) 中, 尋找出異常 (abnormal) 的資料是個重要的議題, 尤 其能否偵測出發生在定義的正常工作範圍 (normal working range) 內之微小異常, 更是導致資料探勘系統成效好壞的重要因素之一。 而在偵測出異常訊號之後, 我們 更進一步地想知道如何能將該異常分類, 以期能針對該異常類別累積經驗, 如此當 該異常再次發生時即可有效地處理。 在業界中, 諸如半導體工業、 金融業、 醫學等, 其領域上的資訊常會以時間序列 (time-series) 的資料方式呈現, 亦即 “時間” 是其 資料的一個重要變數。 所謂時間序列, 意指每單位時間所測量或得到的數據, 將其按 時間的先後發生順序排列而成的資料即稱之。 由時間序列的特性可知, 單一時間點 上的資料有時並不是資料探勘的焦點所在, 反而是某段時間內的資料趨勢 (trend) 更引人關注, 因此尋找一個能有效判別不同時間序列間之趨勢差異的量測方法, 成 為本研究的主要方向。 在半導體工業中, 各種製程都有與時間相關的參數存在, 例如氣體濃度對時間 的變化等等。 製程變異對產品品質或良率有很重要的影響, 如能正確的偵測出異常 並將之分類, 除了能改善產品品質與良率外, 亦可使製造成本降低、 提高生產率並進 而獲取更多利潤[1]。 異常偵測與分類 (Fault Detection and Classification, FDC) 能幫助工程師更好理解製程過程中或設備的細微差異, 進而快速且正確的解決問題 所在, 降低異常所造成的損失。. 1.

(12) 同樣的, 在金融業中, 經濟、 股市等走勢亦是大眾平日關注的議題。 以經濟走勢 為例, 如能及早偵測出走勢異常, 則可預警 (early warning) 金融危機的發生, 而若 能將異常分類, 則可就經驗法而對症下藥, 進而減低甚至避免金融危機所帶來的影 響。 再以股市走勢為例, 投資人無不希望有一能預測未來股價波動的方法供其作投 資參考, 若將股價下跌視為一種異常來處理, 則發展一套偵測股市走勢異常的系統 就有其可行與應用性[2]。 而在醫學上, 定時為病患量測相關醫學數據是醫療的方式 之一, 這些數據即為一種時間序列。 以前列腺癌 (prostate cancer) 為例, 臨床資料 顯示, 與此癌症有關的診斷包括囊狀滲透率 (cystic osmosis)、 前列腺增值量 (prostatic hyperplasia) 與葛利森值 (Gleason grading) 等, 如能偵測這些時間序列的. 異常並加以分類, 則醫師的診斷與治療將更有效率, 進而降低癌症的發生機率[3]。 綜觀上述, 可將問題整理如下: 發展一套系統, 使得當時間序列資料在所定義 的正常工作範圍內, 有異常情況發生時 (由於在正常工作範圍內, 因此該異常時間序 列很可能與正常情況時的時間序列相似), 仍能偵測出該異常並同時將其分類, 且希 望此系統對時間序列的位移量 (offset) 及雜訊 (noise) 大小的敏感性 (sensitivity) 越小越好, 如此系統才能更為耐用 (robust)。. 1.2 問題特徵與文獻方法 舊有的偵錯方法之一 (在本論文中稱之為 “工作範圍偵錯法”), 是定義出正常狀態 的工作範圍, 如圖 1.1 所示, 至於該如何定義工作範圍則有多種方式, 通常是以資料. 圖 1.1: 正常工作範圍範例. 2.

(13) 集的均值加 (減) 上一值, 例如 3 個標準差。 當訊號超出該範圍時, 警報系統 (warning system) 就發出異常警告; 換句話說, 若時間序列未超出該工作範圍, 則不管其. 是否為異常情況, 警報系統都不會有所反應[4]。 本論文研究的資料型態為單變量的 時間序列, 問題著重在正常工作範圍下的異常偵測, 因此前述舊有方法明顯不適用。 再者, 除了偵錯之外, 如有多種異常情形, 尚需對異常加以分類, 因此必須尋求另一 更好的方法。. (a) MFC 停機. (b) 黏滯的 MFC. (c) 壓力控制器故障. (d) 錯誤的 MFC 設定點. (e) 終期穩態異常. 圖 1.2: MFC 異常範例. 3.

(14) 本論文以半導體工業的製程資料為例, 在晶片的製造過程中需使用到多種製程 技術, 例如微影 (photolithography)、 蝕刻 (etching)、 化學氣相沉積 (chemical vapor deposition)、 物理氣相沉積 (physical vapor deposition)、 擴散(diffusion)、 離. 子植入 (ion implantation) 與氧化 (oxidation) 等。 其中, 除了黃光微影製程之外, 幾乎所有的單位製程, 都是藉由多種製程氣體的化學或物理反應來達成, 並且透過 質流控制器 (Mass Flow Controller, MFC) 對各種製程氣體進入反應室 (chamber) 的質量加以量測與調整, 進而控制反應的進行。 由於製程的進行與良率取決. 於 MFC 是否能依照設定值, 穩定且精確地控制反應氣體從管線流進反應室內的 質量, 所以在半導體製程中, MFC 扮演了相當關鍵性的角色[5, 6]。 圖 1.2 展示了 MFC 可能發生的各種異常情況, 例如 MFC 停機 (MFC shutdown)、 黏滯的 MFC (sticky MFC)、 壓力控制器故障 (pressure controller failure)、 錯誤的 MFC 設定. 點 (wrong MFC set point)、 終期穩態異常 (abnormal final steady-state) 等, 本 研究將以此圖作為虛擬資料建構的參考[7, 36]。 圖 1.2 是以氬氣 (Ar) 為例, 橫軸為 時間, 縱軸為氣體濃度, 其中圖 (d) 內的虛線代表典型的正常狀態。 從一些文獻與業界現行的使用方法可得知, 既有的系統是以主成份分析法 (Principal Components Analysis, PCA, 詳見節 2.1) 為主體。 首先先對時間序列作維. 度縮減, 以圖 1.3 為例, 圖中長度為 130 的時間序列每 10 單位被等分成一段, 每 一區段取一值作代表, 通常是以該段的各資料點均值作為取樣值, 如此原本 130 點 的資料被縮減為 13 點, 可將之視為一 13 維空間中的座標值。 接下來, 取出幾個變. 圖 1.3: 時間序列維度縮減範例. 4.

(15) (b) 分類範例. (a) 偵錯範例. 圖 1.4: PCA 範例. 異量最大的變量作為主成份 (空間中的主軸), 並將時間序列轉換為維度縮減空間中 的一個點, 當所有正常時間序列轉換完成後, 即可在維度縮減空間中得出一正常狀 態之工作範圍。 如圖 1.4 (a) 所示, 正常之工作範圍以一空間平面上的橢圓為例, 當 一新的觀測點 (observation) 加入時, 可從兩方面來判斷其是否為異常資料: 第一, 觀測點投影至該平面後, 若落在工作範圍 (橢圓) 之外 (亦即 T 2 過大), 則判定為異 常; 第二, 若觀測點與該平面的距離 Q 過大, 則代表觀測點處於差異過大的另一平 面之上, 亦即整個資料結構產生改變, 因此判定該資料為異常。 除了上述兩種情況 之外, 此法皆判定新加入之時間序列為正常狀態[8, 9, 10, 11]。 但從圖 1.2 中可看出異常狀態有時非常近似於正常狀態, 以 (e) 圖為例, 整個 異常時間序列只有在訊號的最末端產生變動, 若以圖 1.3 的維度縮減範例來說明, 則可能只是某一區段間有所異常, 當取了該區段的均值作為取樣值之後, 則此異常 訊號經維度縮減後與正常訊號間的差異將變的非常微小, 也就不容易被偵測出來。 再以圖 1.4 (b) 做說明, 圖中以 PCA 的前兩個主成份在空間中得出一平面後, 該 面上的實線橢圓代表正常時間序列所建構出的正常狀態之工作範圍, 而四個虛線橢 圓則代表了實際上為四種不同類別的異常訊號之範圍, 因此當異常範圍與正常範圍 有交集時, 以舊有的圖 1.4 (a) 偵錯方法將無法完全偵測出來, 交集越大則偵測錯 誤率越高。 由於維度縮減易造成原始資料資訊的損失, 以及 PCA 偵測異常與分類 的不完善, 使得文獻與業界現行的系統還能再加以改進, 因此本研究選擇直接對原. 5.

(16) 始時間序列做相似度量測, 並以各個既有的異常典型訊號作為分類依據, 如此即可 避免資料資訊的遺失, 使得微小的差異亦能予以區別出來。. 1.3 研究方法與系統架構 不同於 PCA 先將觀測資料映射至所創造的維度縮減空間中再行計算, 本系統直 接對時間序列做相似度量測, 如此即可避免使用 PCA 所造成的資料資訊遺失問 題。 尤其當僅有的資訊為時間序列兩兩之間的相關性 (correlation) 或相似 (similarity)、 相異性 (dissimilarity) 時, 本系統更較 PCA 來的合適。 另外從圖 1.3 中可. 知, 舊系統資料集內的時間序列需為相同的時間長度, 因其需映射至相同的維度, 但 本系統在量測時間序列相似度時所使用的動態時間扭曲法 (Dynamic Time Warp-. 圖 1.5: 系統架構流程圖. 6.

(17) 圖 1.6: 各種分類器的分類錯誤率. ing, DTW, 詳見節 3.2) 將可避免此一限制。. 圖 1.5 為本研究所發展的系統架構, 系統輸入資料為時間序列, 輸出為多重維 度度量法 (Multidimensional Scaling Method, MDS, 詳見節 2.2) 所產生的二維 空間知覺圖 (perceptual map), 以及自行定義的評估函數 F -試驗值 (F -test), 再 經由加權式 k-最鄰近點 (k-Nearest Neighbors, kNN) 分類器即可偵測異常與分 類。 時間序列進入本系統之後, 經由歐基里德距離量測法 (Euclidean Distance Metric, EDM, 詳見節 3.1)1 或動態時間扭曲法等相似度測量法, 得出一相異性距離矩. 陣, 此矩陣即為本系統最重要的概念, 接下來是將該矩陣轉換為使用者所能理解的 資料與方式 — 二維空間知覺圖與 F -試驗值。 本論文主要是研究各時間序列間的 相似度評比, 屬於認知研究, 將心理上的抽象知覺資料以數據方式, 轉換成知覺圖 中的座標位置, 以方便分析其中的訊息, 因此非常符合多重維度度量法的功能性與 精神。 有了知覺圖的座標值之後, 便可針對觀測資料作異常偵測與分類, 而除了知 覺圖的直覺圖形判讀之外, F -試驗值則提供了更實際的分類成效數據。 圖 1.6 是由 STATLOG 計劃 (Michie 等人, 1994)2 所實驗出的各種分類演算法之分類錯誤率 1. 使用歐基里德距離量測法時, 仍有與 PCA 相同的限制: 不同的時間序列需有相同時間長度。. 2. STATLOG 是一比較各式分類演算法成效的計畫, 使用超過 20 組的不同資料集來評估大約. 7.

(18) 比較, 參考該實驗結論後, 本系統選擇了 k-最鄰近點分類器3, 並加以改良為加權式 kNN [3]。. 1.4 論文架構 本論文共分為五章。 第二章介紹相關統計方法與模型, 除了既有文獻與業界現行的 主成份分析法之外, 尚有本研究所用到的多重維度度量法與 k-最鄰近點分類器, 以 及本論文所定義的評估函數 — F -試驗值。 第三章介紹時間序列相似度的量測方法, 包括歐基里德距離量測法與動態時間扭曲法。 第四章為實驗與討論, 包含了類別內 與類別間實驗, 以及實驗結果的驗證。 第五章則統整本論文研究, 並對其優缺點與 未來發展做出探討。. 20 種的分類演算法。 3. 當欲決定的分類邊界非常不規則時, kNN 仍能有效的分類。. 8.

(19) 第2章 統計方法與模型. 2.1 主成份分析法 2.1.1 特性簡介 如圖 2.1 所示, 主成份分析法 (Principal Components Analysis, PCA) 是對於 所有影響因素先進行因子 (factor) 分析, 以抽取所有解釋變數 (explanatory variable) 之共通因子 (common factor) 作為評量基準, 而因這些共通因子間皆相互獨. 立, 故可避免在評量因子間存在之相關性時有所偏差。 接下來必須在簡單性 (維度 越少越容易管理) 與完整性 (維度越多將保留越大量的可用資訊) 之間做選擇, 決 定要保留多少的主成分做之後的分析。 最後利用所得的各因子負荷量 (factor load-. 圖 2.1: 主成份分析法流程圖. 9.

(20) (a) 三維散佈圖. (b) 變數成對散佈圖. 圖 2.2: 散佈圖範例. ing) 與主成份進行分析, 並描述各分類之特性[12, 13]。 PCA 主要概念是以少數主成份來表達多種變數資訊, 將多種變數予以線性組. 合, 使之得到的成份具有最大的變異量 (variance)1 , 所以 PCA 一般目的是對龐大 資料作縮減。 以 PCA 進行分析可保留原變數之分佈特性而降低變數維度, 且各成 份間相互獨立可避免重覆表達原資料之特性, 以達到精簡計算分析的目的[14]。 以 圖 2.2 的三維散佈圖為例, 將其三個變數成對 (pairwise) 畫出散佈圖後, 可發現 三變數兩兩間皆為正相關 (positive correlation), 因此我們可以說三個變數間具有 共變性。 而使用 PCA 將能縮減至比三個更少的維度數, 並足以解釋原有變數的資 訊。 常理上, 第一主成份會選擇有最大變易量的變數之線性組合2 , 其餘依此類推。 圖 2.3 表示出第一主成份的方向, 即橢圓中的長軸。 PCA 在應用上, 具有下列優點: • 消除變數間之共變性. 變數間具有共變性, 顯示彼此間存有某種程度的重疊訊息。 在迴歸 (regression) 分析中, 當自變數間具有共變性時, 以最小平方法 (least squares) 所求 1. 變異量是種測量資料分散度的度量值。. 2. 線性組合可視為多維空間中的所有點投影至單一軸上。. 10.

(21) 圖 2.3: 第一主成份範例. 得之迴歸係數值很大, 其推估值將不易決定, 而 PCA 選取之主成份變數則可 解決上述問題。 • 降低資料維度, 並抽取重要訊息. 當變數維度較高時, 其資料處理分析、 特性解釋與圖表之表示均較困難, PCA 可簡化此一困擾, 即降低維度求出綜合變量。 此綜合變量間相互獨立, 且可反 映大部分原始變數之總變異, 再以二維或三維圖形來表示較大之主成份, 有助 於特性之解釋。 • 提供合適現象解釋. 較重要之主成份變數, 足可解釋原始變數較大部分之總變異量, 由前幾個較重 要之因子負荷量, 可觀察出原始變數與該主成份之相關程度。. 2.1.2 運算機制 一般使用 PCA 的目的, 是找出原始變數 X = [x1 , x2 , . . . , xp ] 間有著最大變異量 的線性組合。 假設 X 已經過標準化 (standardized)3 , 並以 u = (u1 , u2 , . . . , up )′ 代表線性組合, 則我們的目標是選擇 u 使得 z = Xu 有著最大化的變異量, 可表 3. 標準化是將各變數資料轉換為零平均值 (zero mean) 與單位標準差(unit standard devia-. tion)。. 11.

(22) 示成下式. var(z) =. 1 u′ X′ Xu n−1. (2.1). 因為 X 是標準化的, 因此 1/(n − 1) X′ X 即為樣本相關性矩陣 R, 故有 var(z) = u′ Ru. (2.2). 式 (2.2) 中, u 可設為任意大, 如此將導致 var(z) 為無限大。 因此我們必須再加一 項限制, 即 u 向量具有單位長度, u′ u = 1。 我們可利用拉格朗 (Lagrangian) 形式來解這個限制最佳化的問題[15], 令. L = u′ Ru − λ(u′ u − 1). (2.3). 其中 λ 稱為拉格朗乘數 (Lagrange multiplier), 當 u′ u = 1 的限制不滿足時, 可 藉 λ 的選擇來彌補。 將 L 對 u 取導數可得 ∂L = 2 Ru − 2 λu ∂u. (2.4). 將式 (2.4) 設為零, 則. Ru = λu. 或. (R − λI)u = 0. (2.5). 其中 I 為 p × p 的單位矩陣。 式 (2.5) 為一特徵值 (eigenvalue, λ) 與特徵向量 (eigenvector, u) 的特殊架構, 當矩陣 R 為滿秩 (full rank) 時, 則運算結果將包. 含 p 個正特徵值 (因 R 為一正定矩陣) 與其相關聯之特徵向量。 將式 (2.5) 代入. 12.

(23) (2.2) 可得. var(z) = u′ Ru = u′ λu = λu′ u = λ. (2.6). 因此, λ 即為相關聯主成份的變異量。 我們使用矩陣 D 來代表主成份的對角化共 變異 (diagonal covariance) 矩陣, D = diag(λ1 , λ2 , . . . , λp ), 設 λ1 ≥ λ2 ≥ . . . ≥ λp > 0 。. 所有主成份的總變異量為 trace(D), trace 是加總矩陣對角元素 (element) 的 函數。 因為 D = U′ RU, 所以總變異量亦可表示為 trace(U′ RU), 其中 U′ 、 R、 U皆為方陣 (square matrix)。 因為 U 滿秩且矩陣內的特徵向量相互正交 (orthogonal), 又 UU′ = I, 故得 trace(U′ RU) = trace(RUU′ ) = trace(R), 意即總變. 異量為相關性矩陣的對角元素和。 而由前 k 項最大主成份可解釋原變數總變異量 之百分比為 k. r=. 1X λi p i=1. (2.7). 另一個有用的主成份解是主成份 Z 與標準化原始資料 X 間的相關性矩陣, 當 我們知道 X 間的樣式關係時, 該相關性矩陣可幫助解釋 Z。 考慮. corr(X, Z) =. 1 X′ Zs n−1. (2.8). 其中 Zs = ZD−1/2 是標準化後的主成份矩陣, 將 Z 以 XU 取代可得 corr(X, Z) =. 1 X′ XUD−1/2 = RUD−1/2 n−1 ′. = (UDU )UD. −1/2. = UD. 定義因子負荷量 F 為. 13. 1/2. (2.9).

(24) F = UD1/2. (2.10). 在前 k 個主成份中, 變數 Xi 所佔之變異量表示為. Pk. 2 j=1 fij ,. 其中 fij 為 F 中的. Xi 與 Zj 之相關性。 當 k = p 時 (亦即所有主成份皆被保留), 則. P. j. fij2 = 1。. 另由 Zs = XUD−1/2 可得. X = Zs D1/2 U′. (2.11). 資料矩陣 X 被表示為三個較簡單矩陣的乘積, 此即為奇異值分解 (Sigular Value Decomposition, SVD)[15], 因此 PCA 可藉由相關性矩陣 R 的特徵值分析 (有時. 稱做頻譜分解, spectral decomposition) 或是資料矩陣 X 的奇異值分解來完成。 對於主成份個數之決定, 目前尚無一特定標準, 部分經驗說明以 70% – 90% 之 變異解釋能力作為選定之標準; 且當變數增加或觀測數量增加時, 則累積比率可取 小一點。 根據凱薩規則 (Kaiser’s rule) 或 Anderson 的拇指定則 (thumb rule), 建 議主成份的數量選取可取特徵值 (變異數) λ ≥ 1 的個數[16, 17]。 另外 Cattell 提 出的陡坡測試法 (scree test) 亦可作為主成份個數之選擇標準[18]。. 2.2 多重維度度量法 度量化方法是指用數字表示某特性所使用的方法, 其中又可分成單維度度量法 (Unidimensional Scaling Method, UDS)4 與多重維度度量法 (Multidimensional Scaling Method, MDS)[19, 20]。 4. 所謂的單維度度量法是指可用單一數值來表達某一概念, 如身高可用公分、 體重可用公斤來測 量, 其優點為較易於理解。 常見的包括 Thurstone Scales、 Likert Scales 與 Guttman Scales 等。. 14.

(25) 2.2.1 知覺圖 許多多變量分析 (multivariate analysis) 的方法可用來找出隱藏在資料背後的結 構, 將研究樣本之間的關係以空間形式來描述, 也就是 “知覺圖”(perceptual map)。 圖 2.4 為一知覺圖範例, 圖中將原始的四類資料做過運算處理後, 投射到二維空間 的知覺圖上, 如此即可清楚看出各類別間的分佈情況, 這對本論文研究的成效探討 有很大的助益。 知覺圖的分類如圖 2.5 所示, 而 MDS 即屬於非屬性為本 (non-attribute based approach) 的方法。 所謂非屬性為本的方法, 是將待測點以直覺的特徵觀點, 對樣本. 的相似性或偏好性 (preference) 做整體的判斷, 然後在多元空間內找出待測點與樣 本的定位[37]。 意即不要求待測點針對預先選定的屬性進行評估, 而是讓待測點根 據關注的特徵或觀點, 對樣本進行整體的相似性判斷, 以相似性判斷的量作為輸入 資料, 而不需先找出相關的屬性。 如此可避免受限於既定也可能不客觀的屬性, 亦不 似以屬性為本的方式所輸入的資料, 所得到的維度會被預設的屬性制約。 因此使用. 圖 2.4: 知覺圖範例. 15.

(26) 圖 2.5: 知覺圖的分類. MDS, 待測點受到研究者主觀的影響會較小, 且很可能含有更適切的結構[21, 22]。 MDS 依據待測點對於所有樣本 (或是樣本相互間) 的知覺判斷資料, 重新建構. 出資料所隱藏的內在結構。 在資料集中, 把樣本間的相似性數值與樣本間的關係以 空間的形式來描述, 就像在地圖上一樣, 描繪出樣本間的接近性 (proximity), 並將 資料的結構縮減至能適切表達資料意義的最少維度。 當待測點與樣本或是樣本間被 評定為相似性高時, 在空間圖上的位置會較相近; 反之, 相異性高者則距離得較遠。 因此, MDS 所處理的多為相似性或相異性 (dissimilarity) 資料, 而資料的相似性 與相異性基本上皆假設是互斥的, 也就是資料相似性程度越高就代表相異性程度越 低, 反之亦然[23]。 相似或相異性資料可為正方形對稱 (symmetric) 矩陣、 正方形非對稱 (asymmetric) 矩陣、 長方形 (rectangular) 矩陣等, 但為方便運算, 本論文使用正方形對. 稱矩陣。 這些資料矩陣是由計算樣本間所有兩兩配對的相關性、 相似或相異性而得, 一般而言, 採相異性資料會比相似性資料來得令人信服。 進行 MDS 分析前應考量 資料矩陣內的數值可否相比, 另外要注意的是在這單個矩陣所用的量尺單位必須是 相同的。. 16.

(27) 2.2.2 運算機制. 圖 2.6: 多重維度度量法流程圖. 本論文是以 Torgerson (1958) 的古典多重維度度量法 (classic MDS, CMDS) 來加以改進, 屬於非加權5 MDS[24]。 CMDS 的距離計算原理是以歐基里德距離量 測法來表示二點間的相異性, 而本論文除了歐基里德距離外, 也使用動態時間扭曲 法來進行運算與比較。 以下的運算機制介紹將以 CMDS 為例, 本論文使用的 MDS 與 CMDS 不同處只在於輸入資料的相異性距離矩陣不同, 基本步驟如圖 2.6 所示。 參考表 2.1 的例子, 我們可以簡單的描繪出二維空間知覺圖, 如圖 2.7 所示。 首先, 隨意選擇任一樣本 (本例使用 A), 並將其定點於知覺圖中央。 下一個樣本 B 可定點於以 A 為圓心, B 與 A 之間的距離 (18) 為半徑的圓上。 第三個樣本 C 必 須滿足兩個條件: 距離 A 是 34 且距離 B 是 24, 如此將有兩種可行的架構; 而當選 擇其中一種時, 剩餘的樣本定點也將隨之精確地決定。 由 C 的選擇可知, 當選擇其 中一種架構時, 最後產生的知覺圖其實就是另一架構產生的知覺圖作鏡射而得。 而 由 B 的選擇亦可知, 在圓上有無限多種架構可能, 選擇其中一種所產生的知覺圖, 其實就是其他架構所產生的知覺圖作旋轉而得。 因此, 當我們隨意選擇任一架構來 5. 所謂的加權與非加權, 是根據資料矩陣的個數及分析模式來分類[25]。. 17.

(28) A. B. A B 18 C 34 24 D 31 2 E 7 26. C. D E. 25 11 17. 表 2.1: MDS 範例, 樣本間的距離. 圖 2.7: MDS 範例, 簡易二維空間知覺圖. 完成知覺圖後, 可將知覺圖再行旋轉或鏡射, 以利我們做圖形的解釋。 常理上, 會旋 轉圖形使得有最大變異量的軸做為第一維度, 通常顯示成在笛卡兒 (Cartesian) 平 面上的東西向, 而將次大變異量的軸做為第二維度, 依此類推。 雖然上述步驟概要能輕易理解, 但在實作上其實是麻煩的, 尤其是當架構存在 於二維以上的空間時。 幸而有個倚賴幾何學公式的分析方法能解決這個問題, 此法 與兩向量的內積 (inner product) 有關, 如圖 2.8 所示, 該二向量指的是從座標系 統原點 (亦即知覺圖的零點) 至某兩點間 (在此使用 j 與 k 當例子) 的距離。 因此, 兩向量的內積就是 j 、 k 兩點座標值的內積, 亦即兩向量間的餘弦 (cosine) 夾角和 它們的長度作乘積。 以 CMDS 為例, 要進行 MDS 運算, 首先資料型態是為樣本間的相似性或相異 性矩陣。 就矩陣的元素內容值來說, 若數字越小代表兩樣本越遠離, 亦即矩陣內容值. 圖 2.8: 距離與內積之間的幾何關係. 18.

(29) (a) 相似性矩陣. (b) 相異性矩陣. 圖 2.9: 相似性與相異性矩陣的分類. 與樣本間距離的線性關係之斜率為負, 則為相似性矩陣; 反之, 若斜率為正, 即為相 異性矩陣, 如圖 2.9 所示。 我們將輸入資料的矩陣對角線元素值定義為 0 (dii = 0, 對所有的 i), 且矩陣為對稱性 (δjk = δkj , 亦即 djk = dkj )。 另外若資料是相似性的, 我們先將其轉換為相異性, 作法是將最大的元素內容值減去每個矩陣元素值, 因此 我們將輸入資料視為一個估測距離矩陣 D = [dij ]。 我們的運算目的是求出每個樣本的座標位置, 以矩陣 X = [xir ] 表示, 其中 r 代表架構的維度數, 另以 x′i = [xi1 , xi2 , . . . , xir ] 表示樣本 i 的座標列向量。 因為任 何樣本在圖上的絕對位置未定, 亦即矩陣中的資訊僅足夠決定某一樣本與其餘樣本 間的相關位置, 因此我們可選擇任何一點作為原點。 為了簡化說明, 假設共有 n 個 樣本, 在此我們選擇以樣本 i 做為原點, 再計算其餘 (n − i) 個樣本在架構中與樣 本 i 的相關位置。 參考圖 2.8, 任兩點 j 與 k 之間的距離平方 d2jk , 能被表示為 j 、 k 與原點間的 距離 (dij 與 djk ) 以及 j 、 k 之間角度 θjik 的函數[26]. d2jk = d2ij + d2ik − 2 dij dik cos θjik. (2.12). 19.

(30) 重整上式可得 1 − (d2jk − d2ij − d2ik ) = dij dik cos θjik 2. (2.13). 式 (2.13) 的等號左邊為已知項, 而未知的右邊項即是內積。 我們雖尚未知道如何設 置 j 與 k 相互之間的關係使之滿足等式, 但我們已知 dij 即為 kxj k, 此向量長度 描述點 j 與原點間的相關座標位置, 而 dik = kxk k。 另外, 當兩向量的起始點固定 於同一點時, 則該二向量的內積為. x′j xk = kxj k kxk k cos θjik. (2.14). 因為式 (2.13) 與 (2.14) 的右邊項是相同的, 故可得 1 − (d2jk − d2ij − d2ik ) = x′j xk 2. (2.15). 建立一個 (n − 1) × (n − 1) 的矩陣 B(i), 其中 i 表示以點 i 做為原點, 而 B(i) 中的元素為 1 bjk (i) = − (d2jk − d2ij − d2ik ) 2. (2.16). 則式 (2.15) 即為. B(i) = Xi X′i. (2.17). 因為矩陣 B(i) 是對稱的, 所以可用奇異值分解化為. B(i) = Ui Λi U′i. (2.18). 20.

(31) 其中 Ui 是特徵向量矩陣, 各特徵向量彼此正交, 亦即 Ui U′i = U′i Ui = I。 Λi 為 特徵值的對角矩陣 (假設所有特徵值皆為正)。 故式 (2.18) 的解為. 1/2. Xi = Ui Λi. (2.19). 與 PCA 相似, 由第一個特徵向量所建構的維度, 將顯示出最大的變異量, 亦即有著 最大的特徵值, 其餘特徵向量與特徵值依此類推。 MDS 的目的是要得到一個最適與最少的樣本體空間知覺圖, 所有樣本根據相. 異或相似性呈距離關係分布, 最後須合理的解釋及定義它的維度並解讀樣本間的關 係。 但前提是資料是否與分析後所得的樣本體空間關係的配合程度良好? 該空間圖 是否能以最少的構面合理解釋輸入的資料? 這些都是資料投入分析後所要注意的。 本研究將維度限定在 2, 如此在分析最後得出的多元空間知覺圖時, 將較為清楚。. 2.3 k-最鄰近點分類器 2.3.1 未加權式 k-最鄰近點 k-最鄰近點 (k-Nearest Neighbors, kNN) 分類器是種基於記憶型式 (memorybased) 或是基於範例學習 (instance-based learning) 的分類方法, 因此並不需要. 另外建立模型來實現此分類器[27]。 kNN 是利用歐基里德距離量測法選取離測試點 x 最近的 k 個鄰近原型點 (prototype), 再以此 k 個原型點所屬最多的類別來判定為該待測點的類別, 如圖 2.10 所示。 本論文是直接將訓練資料 (training data) 視為原型點, 除此之外還有. 各種方法可用來篩選6。 6. 例如 3-1 法是替每個原型點找出其最近的三個鄰居, 當其中有二個以上的鄰居與該原型點的類 別不同時, 則將該原型點移除, 不再為分類器所使用。. 21.

(32) 圖 2.10: kNN 分類器, k = 3, 則測試點 x 判定為類別 A. 2.3.2 加權式 k-最鄰近點 使用 kNN 分類器時, 必須小心 k 的設定。 例如若 k = 2, 當最近的 2 個鄰居分別 屬於不同類別時, 則無法正確判斷其類別。 因此, 我們使用距離加權式 k-最鄰近點 法 (Distance-Weighted kNN, DW-kNN), 除了避免上述情況發生之外, 也增進了 分類的準確度。 假設在樣本空間 R 中有 n 個點, R = {y1 , y2 , . . . , yn }, 且共有 p 種類別, 定 義第 j 種類別的加權指數 Tj 為. Tj =. k X. wi. (2.20). i=1 Ci =j. 其中 Ci 是離待測點 x 最近的第 i 個鄰居的類別, 而 wi 是其權重。 本論文使用的 權重為. wi =. 1 di 2. (2.21). 22.

(33) 圖 2.11: DW-kNN 分類器, k = 3. 其中 di 為 x 與最近的第 i 個鄰居間的歐基里德距離, 則 x 所屬類別定義為. NNk (x) = arg max Tj. (2.22). j. 由圖 2.11 可知, TA =. 1 22. +. 1 22. = 0.5, TB =. 1 12. = 1, 所以 NNk (x) = B, 此分類結. 圖 2.12: k 值選擇. 23.

(34) 表 2.2: 不同訓練資料樣本數的分類成效 樣本數 kNN DW-kNN 5% 10% 20% 40% 100%. 0.64 0.69 0.67 0.75 0.78. 0.69 0.70 0.73 0.75 0.78. 共 26 類, 訓練資料 100% = 1190 筆, 測試資料為 496 筆。. 果與圖 2.10 的 kNN 分類器不同。 k 值的選擇並沒有一定, 通常是採用實驗的方式來決定, 意即驗證各種 k 值. 在訓練資料下的分類錯誤率, 選擇錯誤率最小的 k 值作為之後測試資料 (testing data) 所使用的 k 值。 典型的 k 值錯誤率分布如圖 2.12 所示[3]。 另外由表 2.2 可. 知, 當訓練資料樣本數越多時, 分類成效越好[38]。. 2.4 定義評估函數 在比較各種測量時間序列相似度方法的優劣時, 必須有個方法或是函式來輔助判 定。 本論文定義 F -試驗值 (F -test) 作為評估函數, F 值為類別間變異量 (between category variance) 與類別內變異量 (within category variance) 的比值:. F =. SB2 2 SW. (2.23). 2 為類 其中 SB2 為類別間變異量, 代表各類別平均數與總平均數之間的變異量; SW. 別內變異量, 代表類別內各資料點與該類別平均數之間的變異量之總和[26, 28, 29]。 假設空間 R 中有 n 個樣本點, R = {y1 , y2 , . . . , yn }, 其中 yi 在本研究中為 二維空間座標向量。 樣本點中共有 p 種類別, 分別稱為類別 Cj , j = 1, . . . , p, 則. 24.

(35) (a) 較差的分類. (b) 較好的分類. 圖 2.13: 分類範例. P. p. 2 SW =. 1 X yi ∈Cj. p. j=1. kyi − µj k2. (2.24). nj − 1. p. SB2 =. 1 X nj kµj − µk2 p − 1 j=1. (2.25). µj =. 1 X yi nj y ∈C. (2.26). 其中. i. j. n. p. 1X 1X µ= nj µj yi = n i=1 n j=1. (2.27). nj 代表類別 Cj 裡的樣本數, µj 代表所有在類別 Cj 裡的樣本之平均值 (亦即各類. 別樣本之中心座標值), 而 µ 代表所有樣本之平均值。 圖 2.13 中,  代表 µ、  代表類別 CA 中的樣本、  代表 µA 、 CB 中的樣本、. • 代表 µ. B。. ◦ 代表類別. 由圖可知, 若希望有最好的分類成效, 則應該使各類別. 間儘可能相距越遠越好, 而各類別內則是聚的越密越好; 換言之, 類別內之異質性很 2 越小越好。 另由式 (2.23) 小, 而類別間之異質性很大, 意即希望 SB2 越大, 而 SW. 25.

(36) 至 (2.25) 可知, 當 F 值越大, 意即當各類別之平均數相差越大, 而各類別之標準差 越小時, 則表示分類成效越好。 而當類別間變異量大於類別內變異量時, 即可說明 總體變異量大部分是由各類別間的差異所造成。. 26.

(37) 第3章 時間序列之相似度量測. 3.1 歐基里德距離量測法. 圖 3.1: 歐基里德距離量測法範例. 傳統上在衡量兩測量點之間的距離時, 較常使用歐基里德距離量測法 (Euclidean Distance Metric, EDM) 來表示, 因其較為直觀且易於計算。 本論文中, 可將各時. 間序列樣本視為在一 n 維歐基里德空間中的一個點 (n 為時間序列的長度), 如此 即可量測兩點間歐基里德距離。 假設在 n 維輸入空間中, 有 m 個樣本數的資料 Xm×n = [x1 , x2 , . . . , xm ]′ , 其中 xi = [xi1 , xi2 , . . . , xin ] 表示第 i 個樣本。 則目標. 點 x0 = [x01 , x02 , . . . , x0n ] 與樣本點 xi 的歐基里德距離 ED(x0 , xi ) 為 27.

(38) v uX u n ED(x0 , xi ) = kx0 − xi k = t (x0j − xij )2. (3.1). j=1. 以圖 3.1 為例, x 與 y 間的歐基里德距離 ED(x, y) 為. p. 12 + (−16)2 + 112 =. √ 378 ≃ 19.44。 EDM 雖有著易於計算的優點, 但其缺點為不允許不相同的基準線 (baseline) 以及不同的尺度比率 (scale)。 例如, 股票 x 在 $100 上下作波動, 而股. 票 y 卻在 $40 上下作波動; 或是股票 x 在 $95 與 $115 間做波動, 而股票 y 卻在 $20 與 $30 間做波動, 這些情況若使用 EDM 都是不適當的[30]。. 3.2 動態時間扭曲法 3.2.1 特性簡介 在上節中, 我們可以得知 EDM 在計算兩時間序列的方式上, 是將同時間點上的兩 筆資料作距離運算, 最後加總整段時間序列的距離, 依此作為相似度的參考。 不過 現實例子中, 我們常可發現兩段時間序列間有時只是做了位移的關係, 整體上以人 眼看起來是非常相似的, 但若以 EDM 的單一時間點上資料距離來看, 卻會差距很 大, 也因此造成了最後呈現出兩時間序列極不相似的運算結果, 而與事實不符。 以圖 3.2 為例, 就人眼看來, 編號第 1、2、3 號應該是非常相似的, 且與編號 4. 圖 3.2: 歐基里德距離量測法相似度分類範例. 28.

(39) (a) 歐基里德距離量測法. (b) 動態時間扭曲法. 圖 3.3: 相似度運算圖解. 有極大的不同, 但若以 EDM 來做相似度運算的話, 就會呈現圖中錯誤的分類結果。 因此, 我們必須使用一種能判斷兩時間序列整體趨勢 (trend) 的方法來作為相似度 的依據。 本論文選擇了在語音辨識問題中常使用的動態時間扭曲法 (Dynamic Time Warping, DTW) 作為另一種相似度量測的依據, 該法是以 EDM 為基礎而加以改. 進, 主要原理是允許時間序列能重複 (或延伸) 其中的元素 (亦即單一時間點上的資 料)。 DTW 與 EDM 的運算基本概念不同處如圖 3.3 所示, 圖中兩點間的連線代表 著歐基里德距離運算, 但 DTW 與 EDM 不同的是, 它可以允許計算兩個不同時間 點上的資料, 如此即可達成趨勢判斷的目的。 以圖 3.2 的例子, 改採 DTW 做運算後 所得的相似度分類結果如圖 3.4 所示, 可發現分類成效比 EDM 好很多[31, 32, 33]。. 圖 3.4: 動態時間扭曲法相似度分類範例. 29.

(40) 3.2.2 視窗式動態時間扭曲法 假設兩時間序列 q、c, 各為長度 n 與 m q = [q1 , q2 , . . . , qi , . . . , qn ]. (3.2). c = [c1 , c2 , . . . , cj , . . . , cm ]. 接下來建構一 n × m 的距離矩陣, 其中第 (i, j) 個元素內容為兩時間序列的點 qi 與 cj 之間的歐基里德距離。 圖 3.5 顯示一扭曲路徑 (warping path) 範例, 扭曲路 徑代表的即是圖 3.3 (b) 中, 兩時間序列間的點與點配對過程。 扭曲路徑 W 為距 離矩陣元素間的連續集合, 其中第 k 個元素定義為 wk = (i, j)k , 因此. W = {w1 , w2 , . . . , wk , . . . , wK }. max(m, n) ≤ K < m + n − 1. 圖 3.5: 動態時間扭曲法路徑範例. 30. (3.3).

(41) 其中 wk = ED(qi , cj ) =. q. (qi − cj )2. (3.4). 而兩時間序列的相似度 DT W (q, c) 即可用 W 來定義, 亦即 DT W (q, c) = min(. PK. k=1. wk. K. ). (3.5). 數值越小代表越相似。 由於扭曲路徑不只一條, 因此式 (3.5) 中採用最小值來做最 後的決定路徑; 而每條扭曲路徑可能會有不同的長度, 因此分母的 K 是用來做補 償運算[34, 35]。 扭曲路徑受到下列幾點限制: • 邊界條件 (boundary conditions) w1 = (1, 1)、 wK = (n, m), 亦即扭曲路徑必須開始與結束在距離矩陣的對角. 元素。 以圖 3.5 為例, 即是由距離矩陣的左下角元素開始, 而在右上角結束。 • 單調性 (monotonicity). 若給定 wk = (a, b), 而 wk−1 = (a′ , b′ ), 則 a − a′ ≥ 0 且 b − b′ ≥ 0。 換句話 說, 以圖 3.5 的例子而言, 扭曲路徑將不會往下或往左走。 • 連續性 (continuity). 若給定 wk = (a, b), 而 wk−1 = (a′ , b′ ), 則 a − a′ ≤ 1 且 b − b′ ≤ 1, 亦即時 間序列中沒有元素會被跳過。 以圖 3.5 為例, 此連續性限制將使扭曲路徑前 進至鄰近的距離矩陣元素 (包含斜角鄰近元素)。 除了上述扭曲路徑的限制之外, 我們亦可多加上一扭曲視窗 (warping window) 的條件, 本論文將使用扭曲視窗的 DTW 稱為視窗式動態時間扭曲法。 所. 謂的扭曲視窗, 可視做為扭曲路徑的最大範圍。 圖 3.5 中的兩條虛線 j = i + W 、 j = i − W (W 為扭曲視窗大小) 即代表著視窗範圍, 扭曲路徑不得超過此範圍, 其. 中 W = 3。 31.

(42) 3.2.3 最小累進距離式動態時間扭曲法 由於視窗式動態時間扭曲法的扭曲路徑不只一條, 必須找出所有可能性後, 再採用 最小距離值的路徑, 但這會造成計算上的繁瑣。 在此亦使用另一種計算較為有效率 的 DTW, 在本論文中稱之為最小累進距離式動態時間扭曲法, 該法是利用遞迴的 累計距離運算來實現。 定義距離矩陣的第 (i, j) 元素內容為 d(i, j) (即 qi 與 cj 間 的歐基里德距離), 而扭曲路徑行進到第 (i, j) 元素時的累進距離為 γ(i, j), 則. γ(i, j) = d(i, j) + min{γ(i − 1, j − 1), γ(i − 1, j), γ(i, j − 1)}. (3.6). 當 W 中的第 k 個元素 wk = (i, j)k 受到 i = j = k 的限制時, 此時的 DTW 即 等同歐基里德距離量測法, 但前提是兩時間序列需有相同長度[34, 35]。. 32.

(43) 第4章 實驗與討論. 4.1 資料產生與實驗流程 4.1.1 資料產生 本研究所使用的資料是自行模擬產生, 並非實際取自業界的資料。 回顧第一章的問 題描述, 除了正常狀態1的資料外, 尚有五種不同類型的異常資料需要被分類2, 因此 我們得先產生此六種類別的時間序列資料集。 圖 4.1 展示本論文所使用的模擬資料 其產生流程, 由圖可知資料的產生全建立在正常資料樣板 (template) 之上, 因為 本研究除了偵測正常工作範圍內的異常訊號, 也希望能對偵測出的異常訊號加以分 類, 以藉此判定異常的發生情況與解決方式。 本研究所定義的正常資料樣板如圖 4.2 (a) 所示, 樣板長度為 150; 依此樣板 為基底, 並允許四個轉折點做些許的左右移動 (±3 以內, 此舉是為了增加正常資料 之時間序列的變化性), 在此新樣板上加上隨機亂數 (±10 以內) 以產生正常資料之 時間序列, 如此重複操作直至產生所需的足夠時間序列數量, 如圖 4.2 (b) 所示。 所 需的正常資料之時間序列產生後, 接下來即得設定出正常狀態下的工作範圍, 本論 文使用資料集的均值加上 ±3 個標準差作為正常工作範圍的依據。 假設正常時間序 列集為 {g1 , g2 , . . . , gn }, 則正常工作範圍 Rangemax 與 Rangemin 為 1. 所謂的正常狀態, 即指工業程序操作上, 不會發生問題的工作狀態。. 2. 本論文所稱的正常資料, 意指工業程序操作過程或結果沒有問題時的資料; 反之, 本論文所稱的 異常資料, 即指操作過程或結果有問題時的資料。. 33.

(44) 圖 4.1: 資料產生流程圖. v u u Rangemax (i) = gi + 3 t v u u Rangemin (i) = gi − 3 t. n. 1 X (gji − gi)2 n − 1 j=1 1 n−1. n X j=1. (gji − gi )2. 34. (4.1).

(45) (a) 正常資料之樣板. (b) 以正常樣板為基底產生之時間序列. 圖 4.2: 正常資料時間序列之產生. 其中 i 表示第 i 個時間點, i = 1, 2, . . . , 150。 gji 代表 gj 的第 i 個時間點資料, 而 gi 代表第 i 個時間點的時間序列資料集平均值, 意即 n. 1X gi = gji n j=1. (4.2). 以圖 4.2 為例, 所定義出的正常工作範圍如圖 4.3 所示。. 圖 4.3: 正常狀態之工作範圍. 35.

(46) (a) 異常類別樣板1. (b) 異常類別樣板 2. (c) 異常類別樣板 3. (d) 異常類別樣板 4. (e) 異常類別樣板 5. 圖 4.4: 異常類別資料樣板. 工作範圍決定好後, 接下來將產生另外五種異常資料類別的時間序列。 與正常 資料製作方式相同, 我們必須先產生出樣板, 再依此產生隨機的時間序列資料。 因為 本研究的目標是希望在正常工作範圍下, 仍能發現異常訊號的存在並加以分類, 因 此本研究所產生的隨機時間序列不管異常與否皆需在正常工作範圍內。 各異常類別 樣板如圖 4.4 所示, 其中正常範圍內的的虛線是正常資料的樣板, 各異常類別在實 際業界資料所代表的意義在第一章中已介紹, 本研究為了儘可能測試系統模型的成. 36.

(47) (a) 異常時間序列 1. (b) 異常時間序列 2. (c) 異常時間序列 3. (d) 異常時間序列 4. (e) 異常時間序列 5. 圖 4.5: 異常類別資料之時間序列. 效, 因此實驗設計異常類別的樣板越近似正常的樣板越好, 由圖 4.4 可觀察之。 與 正常樣版不同的是, 異常樣板並不會將轉折點做些需左右移動, 因此產生的各異常 類別樣板就僅此一個, 此舉除了避免異常樣板跑出正常工作範圍之外, 亦可遵照實 驗設計的原始理念 — 異常樣板不要偏離正常樣板太多。 之後即可以此五種樣板為 基底, 加上隨機亂數產生出所需的各異常類別時間序列。 另外必須注意的是, 加上 的隨機亂數不能使時間序列超出正常工作範圍, 圖 4.5 是以圖 4.4 的樣板產生出的. 37.

(48) 時間序列。 在各實驗中, 五種異常類別所使用的時間序列數量皆一致, 如此在分類 時就不需考慮到各類別資料數量不同的問題。 至於加在樣板上的隨機亂數範圍對實 驗結果的影響, 將在之後的實驗中加以討論。. 4.1.2 實驗流程 本論文實驗的整體流程如圖 4.6 所示, 其中第一步的模擬資料建立在節 4.1.1 中已 詳細說明, 接下來我們必須處理原始的時間序列資料集, 得出系統實際所需的輸入 資料 — 相異性距離矩陣。 此矩陣為一方陣, 乃將每個時間序列與其他時間序列間 的相似度以相異性距離量測數據來表示, 亦即若整個時間序列資料集 (含正常與異 常類別資料) 有 n 筆資料, 則會得出一 n × n 的相異性距離矩陣, 其中各時間序列 與自身的距離定義為 0, 因此該矩陣中的元素值越小代表兩時間序列越相似, 反之 則越不相像, 此即 “相異性” 的定義。 至於相似度距離量測的方式, 本研究在各實驗 中皆探討三種方式的成效 : 歐基里德距離量測法、 視窗式動態時間扭曲法 (視窗大 小為另一將探討的可變參數) 與最小累進距離式動態時間扭曲法, 因此實驗流程中 產生相異性距離矩陣的這部份, 將會有六個3 矩陣產生。 系統所需要的輸入資料準備好之後, 即可進行實驗階段。 本研究主要包括兩個 實驗, 類別內與類別間的不同相似度距離量測方式之分類成效探討, 與時間序列的 位移量與雜訊大小對分類成效的影響, 詳細的實驗步驟與結果將在節 4.2 與 4.3 中 說明。 參考圖 4.6 可知, 實驗所得出的輸出資料為二維空間知覺圖, 更正確的說, 實 驗的輸出資料為各時間序列在知覺圖中的座標值。 知覺圖可幫助我們直覺地看出各 類別的分類狀況, 但若要有實際數據來表示分類的成效, 則需利用座標值來計算我 們定義的分類成效評估函數 — F -試驗值。 總的來說, 此 F 值越大代表分類的成效 越好, 但對類別內實驗而言, 我們希望的是同一類別內的時間序列雖然有著位移或 是雜訊等不同狀況發生, 仍不會因此被分成多種不同類別; 因此在該實驗中, F 值 3. 因為視窗式動態時間扭曲法的視窗大小為一可變參數, 因此實驗中產生視窗大小 W = {5, 10, 15, 20} 的四個相異性距離矩陣, 加上歐基里德距離量測法與最小累進距離式動態時間扭曲 法, 就共有六個相異性距離矩陣供實驗進行與討論。. 38.

(49) 圖 4.6: 整體實驗流程圖. 越小反而代表實驗成效越好, 詳細討論將在節 4.2 中說明。 當上述的 “實” 作部分完成, 還需要 “驗” 證不同方式的實驗結果與分類成效 好壞, 本研究使用的是去一法 (leave one out), 將原有模擬資料集內的各時間序列 逐一當作待測資料, 其餘的 n − 1 個時間序列作為樣本空間, 再使用加權式 k-最鄰 39.

(50) 近點分類法來分類該待測資料屬於正常或是異常的資料類別? 若為異常類別又是屬 於何種異常 (包含正常狀態, 共有六種可分類類別)? 由於使用的是建構系統模型的 原始資料, 因此我們已知該資料實際上是屬於何種類別, 再對照系統分類出來的類 別, 即可判定該系統的分類錯誤率4 , 相關討論詳見節 4.4。. 4.2 類別內實驗. 圖 4.7: 類別內實驗流程圖. 4. 習慣上, 評定系統模型的好壞是以錯誤率 E 為依據, 而不使用正確率 T , 雖然兩者有著 E+T = 1 的關係。. 40.

(51) 圖 4.8: 類別內實驗之控制變數. 類別內 (within category) 實驗流程如圖 4.7 所示, 本論文在此單一類別實驗 是使用正常資料樣板為基底, 並將此實驗分為小雜訊與大雜訊兩部份。 如圖 4.8 所 示, 本實驗之控制變數有三種, 除了雜訊大小之外, 另有時間序列位移量以及相似度 距離量測方法兩種因素待討論。 以小雜訊實驗為例, 我們在正常資料樣板上加上 ±2 以內的隨機亂數 (此即雜 訊), 先產生出 40 筆時間序列, 其中 20 筆設為固定組資料, 亦即之後的各組實驗 皆不會更動到此 20 筆資料, 而剩餘的 20 筆資料則設為移動組資料, 該組資料將在 之後用來實驗不同位移量對分類結果的影響。 本論文測試了時間序列延後 (dalay). (b) 移動組時間序列. (a) 固定組時間序列. 圖 4.9: 類別內實驗之小雜訊時間序列. 41.

(52) 圖 4.10: N2S4 之知覺圖. 位移 (亦即時間序列向右移動) {2、 4、 6、 8、 10} 等五種時間, 加上未位移共六組數 據。 圖 4.9 展示了此六組數據, 可將資料分為固定組與移動組兩類, 而我們的目標 是找出一個較好的方法, 使其能將兩類的資料視為一類。 因為此兩類資料本為同一 樣板所產生, 雖有位移的情況發生, 仍該歸屬為同一類, 因此最後得出的 F -試驗值 應該要越小越好。 圖 4.10 展示了部份的實驗結果知覺圖, 其中 N2S4 代表 “雜訊為 ±2 以內, 位 移量為 4”, 而各圖右上角的數值即為 F -試驗值。 各圖上的標題, EDM 代表使用歐. 42.

(53) 基里德距離量測法, DTW 代表使用最小累進距離式動態時間扭曲法, DTW5 代表 使用視窗大小為 5 的動態時間扭曲法, 其餘依此類推。 由圖 4.10 觀察可知, 當固定組 (F) 與移動組 (S) 兩組數據分的越開時, F -試 驗值也就越大, 代表著系統將此二組資料視為不同的兩個類別。 從知覺圖的分佈與 F -試驗值可得知, 使用 EDM 的系統較無法判別位移後的時間序列仍屬於同一類,. 而 DTW 的視窗大小也決定系統判別的成效, 當視窗值設定越大, F -試驗值就越 小。 由於最小累進距離式動態時間扭曲法並不需設定視窗大小, 意即視窗可視為任 意長度, 因此使用該法的系統成效會較 DTW20 來的更好。 另外知覺圖中也顯示了 各類別 (F-Mean, S-Mean) 以及整體資料 (All-Mean) 的均值, 此均值為座標值的 均值, 因此可發現全體均值在各圖中皆定位在知覺圖的原點 (0,0) 附近。 表 4.1 列出了類別內小雜訊實驗的所有 F -試驗值數據, 圖 4.11 則展示各相似 度量測方法的 F -試驗值趨勢, 由於有些 F -試驗值過大, 為方便圖形顯示與判讀, 故 將 F 值取對數 (log)。 由圖可看出各相似度量測方法的 F -試驗值趨勢皆隨著位移 量的增加而變大, 且 EDM 與 DTW5 的上升趨勢最為顯著。 在此實驗中, 我們期望 F 值能越小越好, 且希望 F 值曲線能盡可能平穩, 如此即可代表該量測方法對位移. 量的增加較不敏感, 也就可用該量測法法來判定時間序列的相似度; 意即當時間序 列只是有著位移而整體趨勢是差不多的時候, 該方法不會將之分為不同的類別。 由 表與圖可得知, 各方法的優劣度為: DTW > DTW20 > DTW15 > DTW10 > DTW5 > EDM。 另外注意 DTW5 的曲線, 可發現在位移量為 6 時即急速攀升,. 表 4.1: N2 與不同位移量下的各系統 F -試驗值 位移量. EDM. 0 2 4 6 8 10. 0.0204 3.8095 2.98e+09 3.01e+09 8.24e+09 8.58e+09. DTW. DTW5. 0.0061 0.0037 0.0085 0.6729 0.0124 1.2289 0.0256 5.8745 0.0351 4.80e+09 0.1165 4.85e+09. 43. DTW10 DTW15 0.0027 0.3312 0.6205 0.7619 1.3305 1.5347. 0.0137 0.3003 0.4478 0.4592 0.7962 1.0065. DTW20 0.0270 0.2009 0.3528 0.3918 0.6702 0.8529.

(54) 圖 4.11: N2 與不同位移量下的各系統成效. 這是因為位移量在此時已超過了視窗所能掃描的長度, 因此才會判定此兩組實驗數 據為不同的類別; 而其餘的 DTW 量測方法因位移量最大為 10, 並未超過其視窗 長度, 因此曲線看來較平穩。. (b) 移動組時間序列. (a) 固定組時間序列. 圖 4.12: 類別內實驗之大雜訊時間序列. 44.

(55) 圖 4.13: N8S6 之知覺圖. 接下來探討本實驗的另一控制變數 — 雜訊大小, 其對系統分類成效的影響。 圖 4.12 為實驗所使用的大雜訊時間序列, 雜訊在 ±8 之內, 同樣將資料分為固定與 移動兩組。 圖 4.13 則為 “雜訊為 ±8 以內, 位移量為 6” 的各相似度量測方法之知 覺圖。 類別內大雜訊實驗的 F -試驗值數據列在表 4.2 中, 圖 4.14 則展示了各相似度 量測方法的 F -試驗值趨勢。 同樣的, 各方法的優劣度與小雜訊實驗所得結果相同, DTW5 曲線亦在位移量超過 5 時即急速上升。 但比較兩實驗的數據可發現, 大雜. 45.

(56) 表 4.2: N8 與不同位移量下的各系統 F -試驗值 位移量. EDM. DTW. DTW5 DTW10. 0 2 4 6 8 10. 0.0363 0.4284 0.8822 1.6678 5.2536 12.1310. 0.0184 0.0209 0.0294 0.0297 0.0772 0.0900. 0.0039 0.3008 0.7579 1.2905 2.2932 8.1404. 0.0721 0.3355 0.5783 0.7657 1.2312 2.2148. DTW15 DTW20 0.0844 0.2463 0.4139 0.6574 0.8331 1.3873. 0.0628 0.2177 0.3413 0.4396 0.5116 1.0642. 圖 4.14: N8 與不同位移量下的各系統成效. 訊實驗所得的 F -試驗值較小雜訊實驗來的小, 在高位移量時, 數據差距尤其顯著。 這是因為資料樣板加上大雜訊後, 所產生的時間序列之振幅很大, 即使有位移情況 發生, 看起來差異仍不明顯, 因此在分類時就不易將兩組資料分為不同的兩個類別。 換句話說, 若時間序列的走勢越混亂 (上下抖動明顯), 越不容易判讀其整體趨勢時, 則在分類時就很容易跟它種類別資料混淆。. 46.

(57) 4.3 類別間實驗. 圖 4.15: 類別間實驗流程圖. 類別間 (between categories) 實驗流程如圖 4.15 所示, 加在正常資料樣板上的 雜訊在 ±10 之間, 實驗所用到之正常時間序列共 50 筆, 且此 50 筆資料將在之後的 各組實驗數據中維持不變, 意即本類別間實驗只考慮更動異常類別資料。 正常資料 樣板與產生的時間序列, 以及正常狀態工作範圍和五種異常資料樣板, 參見節 4.1.1 的圖 4.2 至圖 4.4。 前述步驟完成之後, 接下來就是以五種異常資料樣板為基底, 各 別產生 8 筆異常時間序列, 如此即有 40 筆的五類異常時間序列。 在產生異常時間 序列時, 需分成十組數據, 即異常資料樣板上加上不同的雜訊大小 (±1 ∼ ±10), 如 此再加上正常狀態的時間序列, 則每組數據皆有 90 筆資料。 本類別間實驗的目的是比較各相似度量測方法對此六種類別的分類成效, 包含 在正常工作狀態下偵測異常時間序列, 以及將其判定 (分類) 為何種異常; 另外也探 討雜訊大小對此實驗的影響, 因此本實驗的控制變數只有此兩種。 不考慮位移量的 影響, 是因為當錯誤類別位移時, 將更不相似於正常類別, 亦即偵錯將變的更容易, 如此顯而易見的結果不在本實驗的探討範圍內, 因此將類別內實驗的位移量控制因. 47.

(58) 圖 4.16: 類別間實驗之異常時間序列. 素去除。 圖 4.16 展示部分的異常時間序列, 其中 F1N2 代表 “第一類異常錯誤, 雜 訊在 ±2 之內”, 其餘依此類推。 圖 4.17 展示了雜訊在 ±5 之內的各相似度量測方法之實驗結果知覺圖, 圖中 的 G 類別代表正常狀態類別, 而 F1 ∼ F5 則分別代表五種異常狀態類別, 為使圖 看起來較清楚明瞭, 並未將各類別與全體資料均值顯示在圖上。 由圖中可得知, 當 類別間分的越開, 類別內聚得越緊密, 則 F -試驗值就越大, 此與節 2.4 的推導結論 相同。 由 EDM 的知覺圖可看出, 正常與異常狀態類別混淆在一起, 意即偵錯將較為 困難。 而另五種 DTW 方法的知覺圖中, 正常與異常狀態類別較能分辨出來, 因此 使用 DTW 對於偵錯將有相當助益。 此因使用 EDM 時, 由於大雜訊的關係 (參考 節 4.2) , 正常狀態類別與各異常狀態類別內的分佈太鬆散, 以至於所有的時間序列 看起來都不太相似, 故很難將其分類。 而使用 DTW 時, 正常狀態類別分佈的較緊 密, 與異常狀態類別就較能區分開來。 另外由圖可看出, 當 DTW 的視窗值越大時, 各異常類別內聚的較緊密, 且各異常類別間也較能區分, DTW5 ∼ DTW20 的知 覺圖尚不明顯 (此四圖的 F 值也較相近), 但 DTW 的圖中就可清楚看出各異常類 別間的區分。 從 DTW 的知覺圖亦可發現, 異常狀態中與正常狀態最易區分的是第四類, 參 考圖 4.4 可得知, 該類異常樣板的均值與正常樣板間偏離較多, 因此可容易的被偵. 48.

(59) 圖 4.17: N5 之知覺圖. 錯。 而知覺圖也顯示第一類與第三類異常狀態較容易混淆, 同樣由圖 4.4 可知, 該 兩類異常樣板的趨勢大致相同, 都是中段突起的異常, 差異處只是轉折點的不同, 因 此在使用 DTW 量測相似度時, 因為兩類趨勢的相似而容易將其歸為一類。 表 4.3 列出了類別間實驗的 F -試驗值數據, 圖 4.18 則展示各相似度量測方法 在不同雜訊下的 F 值趨勢, 為使圖形顯示與判讀方便, 在此將 F -試驗值取對數。 由 表與圖可得知, 隨著雜訊越大, 各相似度量測方法的 F 值皆有下降的趨勢。 這是因 為當雜訊越大時, 時間序列抖動的越厲害, 使得各類別的差異相形之下變的較不顯. 49.

(60) 表 4.3: 不同雜訊大小下的各系統 F -試驗值 雜訊大小 ±1 ±2 ±3 ±4 ±5 ±6 ±7 ±8 ±9 ±10. EDM. DTW. 1.1560 1755.80 1.1112 10.3260 0.8074 6.0192 0.6758 5.0298 0.7901 4.8453 0.5332 3.2470 0.5347 3.7509 0.3929 2.8002 0.3798 1.7928 0.1782 1.2740. DTW5 2.5589 1.9855 1.2373 1.2529 1.2001 0.9561 0.8239 0.7840 0.6204 0.2055. DTW10 DTW15 4.0443 2.9334 1.7801 1.2800 1.6832 1.4168 0.9613 0.7601 0.7774 0.5003. 5.8031 4.1999 2.0053 1.8615 1.5951 1.7229 1.5697 1.2035 1.4115 1.0768. DTW20 7.9397 5.2545 2.3095 2.2501 1.8191 1.8804 2.0132 1.4044 1.4592 1.2631. 圖 4.18: 不同雜訊大小下的各系統成效. 著, 因此各類別均值與全體均值近似 (SB2 變小), 意即類別間較難區分, 而類別內又 2 變大), 故使得 F -試驗值越來越小。 類別間實驗的預期目標, 是希望 分佈鬆散 (SW. F -試驗值越大越好, 且對雜訊大小的影響較不敏感, 亦即 F 值曲線較平穩, 以此判. 定各相似度量測方法的系統成效可得: DTW > DTW20 > DTW15 > DTW10 > DTW5 > EDM, 與節 4.2 所得結論相同。. 50.

(61) 4.4 驗證分類結果. 圖 4.19: 驗證流程圖. 本論文將僅針對類別間實驗結果進行驗證, 因類別內實驗的主要目的並不是判 別分類結果錯誤與否, 而是判別何種方法能有效量測位移後的時間序列仍屬於同一 類別。 驗證流程如圖 4.19 所示, “去一法” 意指逐一從模擬資料集內取出時間序列, 表 4.4: N2 之各系統分類錯誤率 k值. EDM. DTW. 1 2 3 4 5 6 7. 0.256 0.256 0.278 0.278 0.300 0.289 0.322. 0.000 0.000 0.000 0.000 0.000 0.000 0.000. DTW5 DTW10 0.078 0.078 0.122 0.111 0.100 0.100 0.078. 0.067 0.067 0.056 0.044 0.022 0.033 0.033. 51. DTW15 DTW20 0.022 0.022 0.022 0.011 0.011 0.011 0.000. 0.011 0.011 0.022 0.011 0.011 0.011 0.000.

(62) 圖 4.20: N2 之各系統分類成效. 再利用加權式 kNN 判定該時間序列是屬於六種類別中的何類。 由於去一法所用的 時間序列是從原始資料集取出, 因此我們已知該筆時間序列原是屬於何種類別, 再 對照系統的相似度量測與 kNN 的分類結果, 將所有 90 筆資料驗證完後即可得知 該系統模型的分類錯誤率。 表 4.4 與 4.5 分別列出當資料雜訊為 ±2 與 ±8 的分類錯誤率, 而圖 4.20 與 圖 4.21 各為此兩種雜訊時的各系統分類成效。 當雜訊較小時, k 值對錯誤率的影響 表 4.5: N8 之各系統分類錯誤率 k值. EDM. DTW. 1 2 3 4 5 6 7. 0.433 0.433 0.433 0.433 0.444 0.444 0.444. 0.289 0.289 0.311 0.300 0.322 0.300 0.322. DTW5 DTW10 0.344 0.344 0.367 0.400 0.467 0.456 0.478. 0.300 0.300 0.289 0.300 0.322 0.322 0.367. 52. DTW15 DTW20 0.211 0.211 0.311 0.289 0.333 0.333 0.367. 0.256 0.256 0.289 0.300 0.300 0.322 0.322.

(63) 圖 4.21: N8 之各系統分類成效. 並不顯著, 因為此時的系統分類成效較好 (參考表 4.3), 亦即各類別間較能區隔, 且 各類別內分佈較緊密, 因此各方法的錯誤率曲線皆平穩。 相較之下, 當雜訊較大時, 錯誤率會隨著 k 值增加而提高。 此因雜訊較大時, 系統分類的各類別間區隔不夠明 顯, 因此當 k 值過大時, 就很容易將其他類別包含入分類範圍, 進而造成分類錯誤。 故可得一結論: 當雜訊較小時, k 值的影響較不顯著; 而當雜訊較大時, k 值將顯著 影響分類成效, 以圖 4.21 為例, k ≤ 3 較為恰當。 另外不管雜訊大小, 可發現 EDM 的分類錯誤率皆較 DTW 高出許多, 依此驗證結果亦可得知 DTW 在分類時間序 列上亦較 EDM 為佳。. 圖 4.22: 驗證之控制變數. 53.

(64) 整個驗證結果可由圖 4.22 的三種控制變數加以說明。 表 4.6 至表 4.8 為 k = 3 時的分類錯誤個數統計, 當雜訊固定時, 可看出 DTW 的分類錯誤率較 EDM 為低; 而當相似度量測方法固定時, 雜訊越大則錯誤率越高。 以表 4.6 與表 4.8 來做說明, 當雜訊小時, 較容易分類錯誤的是正常類別, 代表偵錯與分類異常訊號這兩部分主 要目標有達成。 所謂的雜訊大小是指加在異常類別樣板上的雜訊大小, 而正常資料 樣板所加的雜訊皆是固定在 ±10 之間, 因此相對於異常時間序列的小雜訊來說, 正 常時間序列就較容易錯誤分類。 當異常時間序列的雜訊變大時, 可發現正常類別皆 分類正確, 反而是異常時間序列分類錯誤, 但表 4.8 只能說明異常類別的分類成效 不佳, 至於偵錯成效在此表無法說明, 將在稍後的數據列表另行討論。 表 4.6: N1k3 之各系統分類錯誤統計 N1k3. EDM DTW. DTW5. DTW10 DTW15. DTW20. G F1 F2 F3 F4 F5. 22 0 0 0 0 0. 0 0 0 0 0 0. 0 0 0 0 0 3. 2 0 0 0 0 0. 1 0 0 0 0 0. 1 0 0 0 0 0. 小計. 22. 0. 3. 2. 1. 1. 表 4.7: N5k3 之各系統分類錯誤統計 N5k3. EDM DTW. DTW5. DTW10 DTW15. DTW20. G F1 F2 F3 F4 F5. 2 7 5 6 2 6. 5 0 0 0 0 0. 1 7 5 4 1 7. 13 2 5 0 0 8. 2 0 0 0 0 7. 0 0 0 5 0 1. 小計. 28. 5. 25. 28. 9. 6. 54.

(65) 表 4.8: N9k3 之各系統分類錯誤統計 N9k3. EDM DTW. DTW5. DTW10 DTW15. DTW20. G F1 F2 F3 F4 F5. 0 8 8 8 8 8. 0 5 6 2 5 7. 0 8 8 8 8 7. 0 8 6 6 2 7. 0 4 5 8 4 6. 0 6 5 7 2 6. 小計. 40. 25. 39. 29. 27. 26. 表 4.9: EDM 系統之分類錯誤統計 EDM. N1k1 N5k1 N9k1. N1k3 N5k3. N9k3. N1k5 N5k5 N9k5. G F1 F2 F3 F4 F5. 20 0 0 0 0 0. 3 6 4 5 2 5. 0 8 8 8 8 8. 22 0 0 0 0 0. 2 7 5 6 2 6. 0 8 8 8 8 8. 19 0 0 0 0 0. 2 7 6 8 3 8. 0 8 8 8 8 8. 小計. 20. 25. 40. 22. 28. 40. 19. 34. 40. 表 4.10: DTW 系統之分類錯誤統計 EDM. N1k1 N5k1 N9k1. N1k3 N5k3. N9k3. N1k5 N5k5 N9k5. G F1 F2 F3 F4 F5. 0 0 0 0 0 0. 7 0 0 0 0 0. 0 5 6 1 3 7. 0 0 0 0 0 0. 5 0 0 0 0 0. 0 5 6 2 5 7. 0 0 0 0 0 0. 4 0 0 0 0 0. 0 5 7 3 5 7. 小計. 0. 7. 22. 0. 5. 25. 0. 4. 27. 表 4.9 與表 4.10 分別列出 EDM 與 DTW 的分類錯誤個數情況, 由表中數據 可知, 當相似度量測方式與 k 值皆固定時, 錯誤率會隨著雜訊變大而增加, 此與先 55.

(66) 前所得結論相同。 而當相似度量測方式與雜訊大小固定時, 錯誤率有隨著 k 值變大 而增加的趨勢。 表 4.11 至表 4.14 為幾個不同狀況與系統下的詳細分類數據, 其中橫列代表 每種類別時間序列的分類狀況, 直行代表分類後各類別的時間序列個數。 異常偵測 錯誤率代表異常被歸類為正常的機率, 整體分類錯誤率為所有樣本被分類錯誤的機 率。 表 4.11 與表 4.12 顯示, 當異常類別的雜訊很小時, EDM 與 DTW 方法皆能 有效偵測與分類異常時間序列, 但因正常時間序列的雜訊較大, 以至於 EDM 分類 正常類別時會有較多錯誤出現, 而此情況在 DTW 中沒有發生。 再比較表 4.13 與 表 4.11: N1k3-EDM 之詳細分類表 F1 F2 F3 F4 F5. 正確 錯誤. N1k3-EDM. G. G F1 F2 F3 F4 F5. 28 0 0 0 0 0. 1 8 0 0 0 0. 0 0 8 0 0 0. 0 0 0 8 0 0. 0 0 0 0 8 0. 21 0 0 0 0 8. 28 8 8 8 8 8. 22 0 0 0 0 0. 小計. 28. 9. 8. 8. 8. 29. 68. 22. 異常偵測錯誤率: 0%. 整體分類錯誤率:24.4%. 表 4.12: N1k3-DTW 之詳細分類表 F1 F2 F3 F4 F5. 正確 錯誤. N1k3-EDM. G. G F1 F2 F3 F4 F5. 50 0 0 0 0 0. 0 8 0 0 0 0. 0 0 8 0 0 0. 0 0 0 8 0 0. 0 0 0 0 8 0. 0 0 0 0 0 8. 50 8 8 8 8 8. 0 0 0 0 0 0. 小計. 50. 8. 8. 8. 8. 0. 90. 0. 異常偵測錯誤率: 0%. 整體分類錯誤率:0%. 56.

數據

圖 1.1: 正常工作範圍範例
圖 1.3: 時間序列維度縮減範例
圖 1.5: 系統架構流程圖
圖 1.6: 各種分類器的分類錯誤率
+7

參考文獻

相關文件

[r]

Model checking: residuals can be obtained by 1-step ahead forecast errors at each time point, (observations minus the fitted value) Then if the model is adequate, residuals should

[r]

Zivot and Andrews(1992) 將 Perron(1989) 擴充成考慮未知結構性 轉變的單根檢定 , 其概念與之前 max-Chow 檢定一樣 : 找出一個轉 變點

The current yield does not consider the time value of money since it does not consider the present value of the coupon payments the investor will receive in the future.. A more

許多時間序列資料在公布時已經做過季節調整 , 如美國普查局 (the U.S. Census Bereau) 發展並使用 X-11 與 X-12 調整法。. EViews

即使各種新檢定並不能適用在每一個模型設定 , 這些新檢定的表現 都遠勝過傳統 ADF/PP 檢定。 因此 , Maddala and Kim (1998) 建議 應該揚棄 ADF/PP 檢定 (it is time to completely

一階隨機差分方程式.