• 沒有找到結果。

2.2 多重維度度量法

2.2.1 知覺圖

許多多變量分析 (multivariate analysis) 的方法可用來找出隱藏在資料背後的結 構,將研究樣本之間的關係以空間形式來描述, 也就是知覺圖”(perceptual map)。 圖 2.4 為一知覺圖範例, 圖中將原始的四類資料做過運算處理後, 投射到二維空間 的知覺圖上, 如此即可清楚看出各類別間的分佈情況, 這對本論文研究的成效探討 有很大的助益。

知覺圖的分類如圖2.5所示,MDS即屬於非屬性為本(non-attribute based

approach)的方法。 所謂非屬性為本的方法,是將待測點以直覺的特徵觀點,對樣本

的相似性或偏好性(preference)做整體的判斷,然後在多元空間內找出待測點與樣 本的定位[37]。 意即不要求待測點針對預先選定的屬性進行評估, 而是讓待測點根 據關注的特徵或觀點, 對樣本進行整體的相似性判斷, 以相似性判斷的量作為輸入 資料,而不需先找出相關的屬性。 如此可避免受限於既定也可能不客觀的屬性,亦不 似以屬性為本的方式所輸入的資料, 所得到的維度會被預設的屬性制約。 因此使用

2.4: 知覺圖範例

2.5: 知覺圖的分類

MDS, 待測點受到研究者主觀的影響會較小,且很可能含有更適切的結構[21, 22]。 MDS依據待測點對於所有樣本(或是樣本相互間)的知覺判斷資料,重新建構 出資料所隱藏的內在結構。 在資料集中, 把樣本間的相似性數值與樣本間的關係以 空間的形式來描述, 就像在地圖上一樣, 描繪出樣本間的接近性 (proximity), 並將 資料的結構縮減至能適切表達資料意義的最少維度。 當待測點與樣本或是樣本間被 評定為相似性高時, 在空間圖上的位置會較相近; 反之, 相異性高者則距離得較遠。

因此, MDS 所處理的多為相似性或相異性(dissimilarity) 資料, 而資料的相似性 與相異性基本上皆假設是互斥的, 也就是資料相似性程度越高就代表相異性程度越 低,反之亦然[23]

相似或相異性資料可為正方形對稱 (symmetric) 矩陣、 正方形非對稱 (asym-metric) 矩陣、 長方形 (rectangular) 矩陣等, 但為方便運算, 本論文使用正方形對 稱矩陣。 這些資料矩陣是由計算樣本間所有兩兩配對的相關性、 相似或相異性而得, 一般而言, 採相異性資料會比相似性資料來得令人信服。 進行 MDS 分析前應考量 資料矩陣內的數值可否相比,另外要注意的是在這單個矩陣所用的量尺單位必須是 相同的。

2.2.2 運算機制

2.6: 多重維度度量法流程圖

本論文是以Torgerson (1958)的古典多重維度度量法(classic MDS, CMDS) 來加以改進,屬於非加權5 MDS[24]CMDS 的距離計算原理是以歐基里德距離量 測法來表示二點間的相異性, 而本論文除了歐基里德距離外, 也使用動態時間扭曲 法來進行運算與比較。 以下的運算機制介紹將以CMDS為例,本論文使用的MDSCMDS不同處只在於輸入資料的相異性距離矩陣不同,基本步驟如圖2.6 所示。

參考表 2.1 的例子, 我們可以簡單的描繪出二維空間知覺圖, 如圖 2.7 所示。

首先, 隨意選擇任一樣本 (本例使用 A), 並將其定點於知覺圖中央。 下一個樣本 B 可定點於以 A 為圓心, BA 之間的距離 (18) 為半徑的圓上。 第三個樣本 C 必 須滿足兩個條件:距離A34且距離B24,如此將有兩種可行的架構;而當選 擇其中一種時,剩餘的樣本定點也將隨之精確地決定。 由 C 的選擇可知, 當選擇其 中一種架構時, 最後產生的知覺圖其實就是另一架構產生的知覺圖作鏡射而得。 而 由 B 的選擇亦可知, 在圓上有無限多種架構可能, 選擇其中一種所產生的知覺圖, 其實就是其他架構所產生的知覺圖作旋轉而得。 因此, 當我們隨意選擇任一架構來

5所謂的加權與非加權, 是根據資料矩陣的個數及分析模式來分類[25]

A B C D E

(a)相似性矩陣 (b)相異性矩陣

2.9: 相似性與相異性矩陣的分類

與樣本間距離的線性關係之斜率為負, 則為相似性矩陣;反之, 若斜率為正, 即為相 異性矩陣, 如圖 2.9 所示。 我們將輸入資料的矩陣對角線元素值定義為 0 (dii = 0, 對所有的i),且矩陣為對稱性jk= δkj,亦即djk = dkj)。 另外若資料是相似性的, 我們先將其轉換為相異性, 作法是將最大的元素內容值減去每個矩陣元素值, 因此 我們將輸入資料視為一個估測距離矩陣D = [dij]。

我們的運算目的是求出每個樣本的座標位置, 以矩陣 X = [xir] 表示, 其中 r 代表架構的維度數,另以xi = [xi1, xi2, . . . , xir] 表示樣本i的座標列向量。 因為任 何樣本在圖上的絕對位置未定,亦即矩陣中的資訊僅足夠決定某一樣本與其餘樣本 間的相關位置, 因此我們可選擇任何一點作為原點。 為了簡化說明, 假設共有 n 個 樣本, 在此我們選擇以樣本 i 做為原點, 再計算其餘 (n − i) 個樣本在架構中與樣 本 i的相關位置。

參考圖 2.8, 任兩點 jk 之間的距離平方 d2jk,能被表示為jk 與原點間的 距離(dijdjk) 以及 jk 之間角度 θjik 的函數[26]

d2jk= d2ij + d2ik− 2 dijdik cos θjik (2.12)

重整上式可得

其中 Ui 是特徵向量矩陣, 各特徵向量彼此正交, 亦即 UiUi = UiUi = I。 Λi

k-最鄰近點 (k-Nearest Neighbors, kNN) 分類器是種基於記憶型式 (memory-based) 或是基於範例學習 (instance-based learning) 的分類方法, 因此並不需要 另外建立模型來實現此分類器[27]

相關文件