第三章 ,方法
3.2 非度量性多元尺度法(non-metric multidimensional scaling)
多元尺度法[17]是屬於非屬性基礎的方法(non-attribute-based approaches),與 因素分析(Factor Analysis)或區別分析(Discriminant Analysis)等屬性基礎的方法 (attribute-based approaches)不同,只需擁有資料的相似關係即可達成目標。多元 尺度法之主要目標是根據資料的相似關係,在一個人為選擇的特定維度空間內,
使得資料在此空間內的實際歐式距離可以與相似關係保持一致。當相似關係不具 備賦距空間的條件,改以非度量性多元尺度法,依順序尺度(ordinal)來比較資料 的關係。Kruskal[18]提出一種演算法和壓力係數,壓力係數是一種數值用以檢驗 在新維度空間內所找出的歐式距離關係與相似關係的一致性。圖 3-4 是由 Kruskal 提出的非度量性多元尺度法方法,目標是尋找一組能夠最小化壓力係數的空間分 佈。根據圖 3-4 的步驟,當壓力係數達到收斂時,可找出一組資料分布情形。我
19
δrs:original dissimilarities between pairs of points drs:distance between pairs of points in the space
d̂rs:d̂ is a measure of how well the distance d “matches” dissimilarity δ 1. Specify the number of ordination dimensions to be used.
2. Choose an initial configuration, x0.
3. Normalize the configuration to have its center at the origin and unit mean square distance from the origin.
4. Find {drs} from the configuration.
5. Fit {d̂rs}.It was seen that the monotonic least squares regression of {drs} on {δrs} partitioned {δrs } into blocks in which the values of d̂rs were constant, and equal to the mean of the corresponding drs values.
6. Find the gradient ∂S
∂x and the new step length sl.
7. Find the new configuration:𝐱n+1= 𝐱n− 𝒔𝒍�∂S∂x∂S
∂x�
Go to step 4 until stress is invariant to translation.
圖 3-4. Kruskal’s iterative technique[18],尋找一組能夠最小化壓力係數的空間分佈。
表 3-1. Kruskal’s stress 計算公式與對應之合適程度[19]
S = �∑ �dr,s r,s− d̂r,s�2
∑ dr,s r,s2
Kruskal’s stress Quality 0.200 Poor 0.100 Fair 0.050 Good 0.025 Excellent 0.000 Perfect
20
們使用壓力係數來觀察新找出的資料分布是否與相似度矩陣的一致,不同的壓力 係數有各自代表的合適程度,壓力係數越小表示與相似矩陣越一致。壓力係數的 公式與合適程度如表 3-1。
當資料依照 3.1 節提出的鏈結權重公式完成相似度轉換後,彼此的相似度關 係已經被更改,原始的資料屬性便失去意義,且資料彼此的關係將不再具備賦距 空間的條件。我們的目標是設法將新產生的相似關係,在所選擇的維度空間內建 立一組全新的屬性關係,同時滿足賦距空間的條件。選用非度量性多元尺度法能 夠輕易達成當前的目標。
如何選擇非度量性多元尺度法所建構的空間維度是一項重要的問題,我們通 常選擇建構於相對容易視覺化的二維空間。當選擇建構的空間維度小於原始的資 料 維 度 時 ,尋 找 新 屬性 的 過 程 則等 同 維 度縮 減 , 與 主成 分 分 析法 (principle component analysis)類似。維度縮減的優點主要有下列二項:1. 可藉由降低資料 維度來大幅減少計算量;2. 可將資料投影到更低維度的子空間(subspace),幫助 使用者容易形象化欲分析的資料。以非度量性多元尺度法做為維度縮減的方法,
在維度縮減的過程中,我們必須觀察新產生的屬性關係其壓力係數是否能滿足表 3-1 的合適程度,壓力係數必須盡可能越小。當壓力係數不小於 0.05 時,說明此 組新的屬性無法完整的描述相似矩陣上的關係,我們可以從中得知將欲建構的空 間維度數設定得過低。透過反覆測試可以尋找一個更恰當的維度數目。
除了將空間維度縮減至可滿足壓力係數的條件下,我們亦可考慮建構於原始 空間維度數相等的屬性空間,這樣的方法可以視為將資料依據相似度轉換後的結 果對應於相同維度的空間內做重新排列,使得資料分布情形可以更真實地反映資 料相互關係。我們首先將建構的資料維度數設定和原始維度數相同,原因在於維 度縮減勢必會損失部分資訊,且一個恰當的維度數目是難以尋找,更為耗費時間;
接著在不影響效能的情況下,我們再嘗試縮減資料維度。
21