• 沒有找到結果。

相似度轉換公式與區域性鄰集

第三章 ,方法

3.1 相似度轉換公式與區域性鄰集

以完整圖(complete graph)描述資料集中所有資料點彼此的相似關係,圖中任 意二個資料點之間必定有一個鏈結存在,我們目前使用歐氏距離作為兩個資料點 的相似度分數,並賦予每一個鏈結獨立的權重值 A。定義相似度轉換公式為:

dist(r, s) = dist(r, s) × Ar,s, ∀ r, s ∈ V

將權重值 A 之初始值設定為 1,使得在更新權重 A 之前,相似度轉換方法相當 於原始的相似度函式。

權重值 A 的用途在於分辨鏈結的類型,一個擁有較高權重值的鏈結更有可 能屬於連接不同分群的鏈結(inter-cluster link),反之則屬於連接相同分群的鏈結 (intra-cluster link)。權重值 A 是影響相似度轉換的重要因素,新的相似關係受制 於權重值 A 的定義方式。在此我們透過觀察鏈結兩端點的區域性鄰集,各端點 與其區域性鄰集成員的相似關係定義鏈結權重。鏈結權重的計算公式定義為1

Ar,s= 1

2 � �

dist(r, s) dist(r, x)

x∈L−nn(r)

+ � dist(r, s) dist(s, x)

x∈L−nn(s)

我們的假設是:1. 相鄰的資料點有較高的機率屬於相同的群集;2. 密度越高的 區域越有可能有群集存在;將鏈結的相似度放置於分子,而區域性鄰集中成員與

1 L-nn(r)表示資料點 r 的區域性鄰集集合

15

端點的相似度則放置於分母。當區域最近鄰中成員的分布情形如圖 3-1(a)時,區 域最近鄰成員與資料的距離都明顯小於兩資料點 r、s 的距離時,可從 dist(r,s)

dist(r,x) 得 到一組較大的數值,權重值會被相對的調高,可以說明資料點的周圍形成兩個密 度較高的區域,滿足我們提出的第二種鏈結權重假設,因此我們推測兩個資料點 有更高的機率屬於不相同的分群;若是區域最近鄰中成員的分布情形如圖 3-1(b) 時,區域最近鄰成員與資料的距離都和兩資料點 r、s 之距離相近時,可從 dist(r,s)

dist(r,x)

得到一組較小的數值,權重值會被相對的調低,能夠說明兩資料點同時位於一個 密度較鬆散的區域內,因此我們推測兩個資料點應該屬於相同的分群。

圖 3-1. 各種區域性鄰集分布情形

新的鏈結權重的計算受制於區域性鄰集的定義,而用以尋找區域性鄰集的方 法有相當多種,我們提出兩種定義:1. 依照 K 最近鄰作為定義新權重的基礎;

2. 依照鏈結兩端點間的距離作為定義新權重的基礎。

3.1.1 依照 K 最近鄰做為定義新權重的基礎

使用 K 最近鄰演算法來尋找區域性鄰集是相當直覺的方法,與端點最接近 的 K 個資料點將自動形成一個區域性鄰集集合。定義鏈結權重的計算公式為2

Ar,s= 1

2 � �

dist(r, s) dist(r, x)

x∈K−nn(r)

+ � dist(r, s) dist(s, x)

x∈K−nn(s)

以圖 3-2 為例,尋找 3 最近鄰做為區域性鄰集。圖 3-2 (a)中兩端點 r、s 的 3 最近

2 K-nn(r)表示資料點 r 依照 k 最近鄰作為定義新權重的基礎之區域性鄰集集合

16

鄰集合與端點的距離都明顯小於鏈結的長度,能夠明顯找出兩個分群;圖 3-2(b) 中兩端點 r、s 的 3-最近鄰中,分別有兩個資料點與端點的距離都和鏈結長度接 近,能說明 r、s 有較高的機率屬於相同分群。我們計算圖 3-2(a)(b)的鏈結權重,

分別是:9 和 5.4,比較權重的大小已能相對的區分鏈結的類型;再將新求出的 權重值帶入至相似度轉換公式,可以得到一組新的距離,分別是:27 和 16.2,

圖 3-2(a)中的距離已被相對的增加。目前設計的相似度轉換公式能讓圖 3-2(a)中 較有可能是連接不同分群的鏈結的距離相對於圖 3-2(b)調整的更大,雖然在進行 相似度轉換之前,點 r 和點 s 在圖 3-2(a)和圖 3-2(b)中的距離是相同的,但透過 觀察鏈結兩端點周圍的 K 最近鄰集合分布情況,重新調整鏈結權重,改變實際 距離使其更接近預期的分群情況。

圖 3-2. 依照 K 最近鄰做為定義新權重的基礎之 3-nn 示意圖

說明:實線表示點 r 的 3-最近鄰集合,虛線表示點 s 的 3-最近鄰集合

然而,K 最近鄰演算法的成效是隨著輸入參數 K 的變化而有所不同,同樣 以圖 3-2 為例,當我們改成尋找 1 最近鄰作為區域性鄰集而非 3 最近鄰時,圖 3-2(a) 和圖 3-2(b)的鏈結權重同樣都為 3,經過相似度轉換後兩者的距離仍然相同,難 以區別此兩組不同的資料分布情形。在多數的情況下,我們往往只能利用反覆測 試(trial and error)尋找一個較合適的值,因此我們提出一個依照鏈結兩端點間的 距離關係作為參考的區域性鄰集,稱為可互相包含最近鄰(mutual included nearest neighbors, MI-nn),盡可能減少參數值對演算法效能帶來的影響。

17

3.1.2 依照鏈結兩端點間的距離做為定義新權重的基礎

首先,考慮圖上存在一個鏈結由任兩點 r、s 連接而成,定義此鏈結上點 r 的可互相包含最近鄰(MI-nn)為:

MI − nn(r) = {x | dist(x, s) < 𝑑𝑖𝑠𝑡(r, s) ∧ dist(x, r) < 𝑑𝑖𝑠𝑡(𝑥, 𝑠)}

可互相包含最近鄰的精神在於將鏈結兩端點間的距離視為相鄰半徑,以此半徑尋 找每組鏈結其兩端點的區域性最近鄰。當二個資料點距離較接近,相鄰半徑較小,

能夠包含到的區域性鄰集集合也越小,使得計算出的權重相對更低,能夠滿足我 們提出的第一種鏈結權重假設;當二個資料點距離較遠離,相鄰半徑較大,能夠 包含到的區域性鄰集集合也越大,更能從較大的區域觀察資料整體的分布,進一 步動態區別兩種不同的資料分布情形。

我們重新定義鏈結權重的計算公式為3

Ar,s =1

2 � � dist(r, s) dist(r, x)

x∈MI−nn(r)

+ � dist(r, s) dist(s, x)

x∈MI−nn(s)

以圖 3-3 為例,尋找可互相包含最近鄰作為區域性鄰集。我們計算圖 3-3(a)(b)的 鏈結權重,分別是:10.07 和 6.47,;再將新求出的權重值帶入至相似度轉換公 式,可以得到一組新的距離,分別是:30.21 和 19.41,圖 3-3(a)中的距離同樣被

圖 3-3. 依照 MI-nn 做為定義新權重的基礎之示意圖

說明:實線表示點 r 的可互相包含最近鄰集合,虛線表示點 s 的可互相包含的最近鄰集合。

3 MI-nn(r)表示資料點 r 依照鏈結兩端點間的距離關係作為定義之區域性鄰集集合

18

相對的增加。與以 k 最近鄰作為區域性鄰集的方法相比,我們同樣能夠保持相同 的期望,而最大的差別在於省略一個可能會影響結果的參數 k。

目前設計用來描述鏈結權重的公式,是一種簡單且非常直覺的方法。然而,

當圖上所有成對資料形成的鏈結經過相似度轉換後,資料間彼此的關係將無法滿 足賦距空間(metric space)的條件。賦距空間必須滿足三個條件:1. 識別性(identity of indiscernible) , dist(x, y) = 0 ↔ dist(y, x) = 0 ; 2. 對 稱 性 (symmetry) , dist(x, y) = dist(y, x) ; 3. 三 角 不 等 式 (triangular inequality) , dist(x, y) ≤ dist(x, z) + dist(z, y)。轉換後的相似度將無法滿足三角不等式。若是原始資料的 相似關係符合賦距空間的條件,我們可知任一組成對資料間的直接距離就是此組 資料的最短路徑。因此,在經過相似度轉換後,改以最短路徑重新描述所有成對 資料彼此的相似關係,將可儘量減少違反賦距空間條件的鏈結組合。

依照定義的鏈結權重公式求出圖上的所有鏈結權重,並利用相似度轉換公式 得出一組全新的相似度矩陣後,帶入至非度量性多元尺度法,目標是得到一組與 原始資料維度相同且滿足賦距空間條件的全新屬性。