知覺圖 - 多重維度度量法 - 應用時間序列相似度量測方法於異常偵測與分類

2.2 多重維度度量法

2.2.1 知覺圖

許多多變量分析 (multivariate analysis) 的方法可用來找出隱藏在資料背後的結構_,將研究樣本之間的關係以空間形式來描述_, 也就是_“知覺圖”(perceptual map)。圖 _2.4 為一知覺圖範例_, 圖中將原始的四類資料做過運算處理後_, 投射到二維空間的知覺圖上_, 如此即可清楚看出各類別間的分佈情況_, 這對本論文研究的成效探討有很大的助益。

知覺圖的分類如圖_2.5所示_,而_MDS即屬於非屬性為本(non-attribute based

approach)的方法。所謂非屬性為本的方法_,是將待測點以直覺的特徵觀點_,對樣本

的相似性或偏好性(preference)做整體的判斷_,然後在多元空間內找出待測點與樣本的定位_[37]。意即不要求待測點針對預先選定的屬性進行評估_, 而是讓待測點根據關注的特徵或觀點_, 對樣本進行整體的相似性判斷_, 以相似性判斷的量作為輸入資料_,而不需先找出相關的屬性。如此可避免受限於既定也可能不客觀的屬性_,亦不似以屬性為本的方式所輸入的資料_, 所得到的維度會被預設的屬性制約。因此使用

圖 _2.4: 知覺圖範例

圖_2.5: 知覺圖的分類

MDS, 待測點受到研究者主觀的影響會較小_,且很可能含有更適切的結構_{[21, 22]}。 MDS依據待測點對於所有樣本₍或是樣本相互間₎的知覺判斷資料_,重新建構出資料所隱藏的內在結構。在資料集中_, 把樣本間的相似性數值與樣本間的關係以空間的形式來描述_, 就像在地圖上一樣_, 描繪出樣本間的接近性 (proximity), 並將資料的結構縮減至能適切表達資料意義的最少維度。當待測點與樣本或是樣本間被評定為相似性高時_, 在空間圖上的位置會較相近_; 反之_, 相異性高者則距離得較遠。

因此_{, MDS} 所處理的多為相似性或相異性(dissimilarity) 資料_, 而資料的相似性與相異性基本上皆假設是互斥的_, 也就是資料相似性程度越高就代表相異性程度越低_,反之亦然_[23]。

相似或相異性資料可為正方形對稱 (symmetric) 矩陣、正方形非對稱 (asym-metric) 矩陣、長方形 (rectangular) 矩陣等_, 但為方便運算_, 本論文使用正方形對稱矩陣。這些資料矩陣是由計算樣本間所有兩兩配對的相關性、相似或相異性而得_, 一般而言_, 採相異性資料會比相似性資料來得令人信服。進行 _MDS 分析前應考量資料矩陣內的數值可否相比_,另外要注意的是在這單個矩陣所用的量尺單位必須是相同的。

2.2.2 運算機制

圖 _2.6: 多重維度度量法流程圖

本論文是以Torgerson (1958)的古典多重維度度量法(classic MDS, CMDS) 來加以改進_,屬於非加權⁵ _MDS[24]。 _CMDS 的距離計算原理是以歐基里德距離量測法來表示二點間的相異性_, 而本論文除了歐基里德距離外_, 也使用動態時間扭曲法來進行運算與比較。以下的運算機制介紹將以_CMDS為例_,本論文使用的_MDS 與_CMDS不同處只在於輸入資料的相異性距離矩陣不同_,基本步驟如圖_2.6 所示。

參考表 _2.1 的例子_, 我們可以簡單的描繪出二維空間知覺圖_, 如圖 _2.7 所示。

首先_, 隨意選擇任一樣本 ₍本例使用 _A), 並將其定點於知覺圖中央。下一個樣本 _B 可定點於以 _A 為圓心_{, B} 與 _A 之間的距離 ₍₁₈₎ 為半徑的圓上。第三個樣本 _C 必須滿足兩個條件_:距離_A是₃₄且距離_B 是_24,如此將有兩種可行的架構_;而當選擇其中一種時_,剩餘的樣本定點也將隨之精確地決定。由 _C 的選擇可知_, 當選擇其中一種架構時_, 最後產生的知覺圖其實就是另一架構產生的知覺圖作鏡射而得。而由 _B 的選擇亦可知_, 在圓上有無限多種架構可能_, 選擇其中一種所產生的知覺圖_, 其實就是其他架構所產生的知覺圖作旋轉而得。因此_, 當我們隨意選擇任一架構來

5所謂的加權與非加權_, 是根據資料矩陣的個數及分析模式來分類_[25]。

A B C D E

(a)相似性矩陣 _(b)相異性矩陣

圖 _2.9: 相似性與相異性矩陣的分類

與樣本間距離的線性關係之斜率為負_, 則為相似性矩陣_;反之_, 若斜率為正_, 即為相異性矩陣_, 如圖 _2.9 所示。我們將輸入資料的矩陣對角線元素值定義為 _{0 (d}_ii _{= 0,} 對所有的_i),且矩陣為對稱性_(δ_jk_{= δ}_kj_,亦即_d_jk _{= d}_kj₎。另外若資料是相似性的_, 我們先將其轉換為相異性_, 作法是將最大的元素內容值減去每個矩陣元素值_, 因此我們將輸入資料視為一個估測距離矩陣D = [dij]。

我們的運算目的是求出每個樣本的座標位置_, 以矩陣 X = [x_ir] 表示_, 其中 _r 代表架構的維度數_,另以x^′_i = [xi1, xi2, . . . , xir] 表示樣本_i的座標列向量。因為任何樣本在圖上的絕對位置未定_,亦即矩陣中的資訊僅足夠決定某一樣本與其餘樣本間的相關位置_, 因此我們可選擇任何一點作為原點。為了簡化說明_, 假設共有 _n 個樣本_, 在此我們選擇以樣本 _i 做為原點_, 再計算其餘 _{(n − i)} 個樣本在架構中與樣本 _i的相關位置。

參考圖 _2.8, 任兩點 _j 與_k 之間的距離平方 _d²_jk_,能被表示為_j、_k 與原點間的距離_(d_ij 與 _d_jk₎ 以及 _j、 _k 之間角度 _θ_jik 的函數_[26]

d²_jk= d²_ij + d²_ik− 2 d^ijdik cos θjik (2.12)

重整上式可得

其中 U_i 是特徵向量矩陣_, 各特徵向量彼此正交_, 亦即 U_iU^′_i = U^′_iU_i = I。 Λ_i 為

k-最鄰近點 (k-Nearest Neighbors, kNN) 分類器是種基於記憶型式 (memory-based) 或是基於範例學習 (instance-based learning) 的分類方法_, 因此並不需要另外建立模型來實現此分類器_[27]。

在文檔中應用時間序列相似度量測方法於異常偵測與分類 (頁 25-31)