相似度轉換公式與區域性鄰集

第三章，方法

3.1 相似度轉換公式與區域性鄰集

以完整圖(complete graph)描述資料集中所有資料點彼此的相似關係，圖中任意二個資料點之間必定有一個鏈結存在，我們目前使用歐氏距離作為兩個資料點的相似度分數，並賦予每一個鏈結獨立的權重值 A。定義相似度轉換公式為：

dist(r, s) = dist(r, s) × A_r,s, ∀ r, s ∈ V

將權重值 A 之初始值設定為 1，使得在更新權重 A 之前，相似度轉換方法相當於原始的相似度函式。

權重值 A 的用途在於分辨鏈結的類型，一個擁有較高權重值的鏈結更有可能屬於連接不同分群的鏈結(inter-cluster link)，反之則屬於連接相同分群的鏈結 (intra-cluster link)。權重值 A 是影響相似度轉換的重要因素，新的相似關係受制於權重值 A 的定義方式。在此我們透過觀察鏈結兩端點的區域性鄰集，各端點與其區域性鄰集成員的相似關係定義鏈結權重。鏈結權重的計算公式定義為¹：

Ar,s= 1

2 � �

dist(r, s) dist(r, x)

x∈L−nn(r)

+ � dist(r, s) dist(s, x)

x∈L−nn(s)

�

我們的假設是：1. 相鄰的資料點有較高的機率屬於相同的群集；2. 密度越高的區域越有可能有群集存在；將鏈結的相似度放置於分子，而區域性鄰集中成員與

1 L-nn(r)表示資料點 r 的區域性鄰集集合

端點的相似度則放置於分母。當區域最近鄰中成員的分布情形如圖 3-1(a)時，區域最近鄰成員與資料的距離都明顯小於兩資料點 r、s 的距離時，可從 ^dist(r,s)

dist(r,x) 得到一組較大的數值，權重值會被相對的調高，可以說明資料點的周圍形成兩個密度較高的區域，滿足我們提出的第二種鏈結權重假設，因此我們推測兩個資料點有更高的機率屬於不相同的分群；若是區域最近鄰中成員的分布情形如圖 3-1(b) 時，區域最近鄰成員與資料的距離都和兩資料點 r、s 之距離相近時，可從 ^dist(r,s)

dist(r,x)

得到一組較小的數值，權重值會被相對的調低，能夠說明兩資料點同時位於一個密度較鬆散的區域內，因此我們推測兩個資料點應該屬於相同的分群。

圖 3-1. 各種區域性鄰集分布情形

新的鏈結權重的計算受制於區域性鄰集的定義，而用以尋找區域性鄰集的方法有相當多種，我們提出兩種定義：1. 依照 K 最近鄰作為定義新權重的基礎；

2. 依照鏈結兩端點間的距離作為定義新權重的基礎。

3.1.1 依照 K 最近鄰做為定義新權重的基礎

使用 K 最近鄰演算法來尋找區域性鄰集是相當直覺的方法，與端點最接近的 K 個資料點將自動形成一個區域性鄰集集合。定義鏈結權重的計算公式為²：

A_r,s= 1

2 � �

dist(r, s) dist(r, x)

x∈K−nn(r)

+ � dist(r, s) dist(s, x)

x∈K−nn(s)

�

以圖 3-2 為例，尋找 3 最近鄰做為區域性鄰集。圖 3-2 (a)中兩端點 r、s 的 3 最近

2 K-nn(r)表示資料點 r 依照 k 最近鄰作為定義新權重的基礎之區域性鄰集集合

鄰集合與端點的距離都明顯小於鏈結的長度，能夠明顯找出兩個分群；圖 3-2(b) 中兩端點 r、s 的 3-最近鄰中，分別有兩個資料點與端點的距離都和鏈結長度接近，能說明 r、s 有較高的機率屬於相同分群。我們計算圖 3-2(a)(b)的鏈結權重，

分別是：9 和 5.4，比較權重的大小已能相對的區分鏈結的類型；再將新求出的權重值帶入至相似度轉換公式，可以得到一組新的距離，分別是：27 和 16.2，

圖 3-2(a)中的距離已被相對的增加。目前設計的相似度轉換公式能讓圖 3-2(a)中較有可能是連接不同分群的鏈結的距離相對於圖 3-2(b)調整的更大，雖然在進行相似度轉換之前，點 r 和點 s 在圖 3-2(a)和圖 3-2(b)中的距離是相同的，但透過觀察鏈結兩端點周圍的 K 最近鄰集合分布情況，重新調整鏈結權重，改變實際距離使其更接近預期的分群情況。

圖 3-2. 依照 K 最近鄰做為定義新權重的基礎之 3-nn 示意圖

說明：實線表示點 r 的 3-最近鄰集合，虛線表示點 s 的 3-最近鄰集合

然而，K 最近鄰演算法的成效是隨著輸入參數 K 的變化而有所不同，同樣以圖 3-2 為例，當我們改成尋找 1 最近鄰作為區域性鄰集而非 3 最近鄰時，圖 3-2(a) 和圖 3-2(b)的鏈結權重同樣都為 3，經過相似度轉換後兩者的距離仍然相同，難以區別此兩組不同的資料分布情形。在多數的情況下，我們往往只能利用反覆測試(trial and error)尋找一個較合適的值，因此我們提出一個依照鏈結兩端點間的距離關係作為參考的區域性鄰集，稱為可互相包含最近鄰(mutual included nearest neighbors, MI-nn)，盡可能減少參數值對演算法效能帶來的影響。

3.1.2 依照鏈結兩端點間的距離做為定義新權重的基礎

首先，考慮圖上存在一個鏈結由任兩點 r、s 連接而成，定義此鏈結上點 r 的可互相包含最近鄰(MI-nn)為：

MI − nn(r) = {x | dist(x, s) < 𝑑𝑖𝑠𝑡(r, s) ∧ dist(x, r) < 𝑑𝑖𝑠𝑡(𝑥, 𝑠)}

可互相包含最近鄰的精神在於將鏈結兩端點間的距離視為相鄰半徑，以此半徑尋找每組鏈結其兩端點的區域性最近鄰。當二個資料點距離較接近，相鄰半徑較小，

能夠包含到的區域性鄰集集合也越小，使得計算出的權重相對更低，能夠滿足我們提出的第一種鏈結權重假設；當二個資料點距離較遠離，相鄰半徑較大，能夠包含到的區域性鄰集集合也越大，更能從較大的區域觀察資料整體的分布，進一步動態區別兩種不同的資料分布情形。

我們重新定義鏈結權重的計算公式為³：

Ar,s =1

2 � � dist(r, s) dist(r, x)

x∈MI−nn(r)

+ � dist(r, s) dist(s, x)

x∈MI−nn(s)

�

以圖 3-3 為例，尋找可互相包含最近鄰作為區域性鄰集。我們計算圖 3-3(a)(b)的鏈結權重，分別是：10.07 和 6.47，；再將新求出的權重值帶入至相似度轉換公式，可以得到一組新的距離，分別是：30.21 和 19.41，圖 3-3(a)中的距離同樣被

圖 3-3. 依照 MI-nn 做為定義新權重的基礎之示意圖

說明：實線表示點 r 的可互相包含最近鄰集合，虛線表示點 s 的可互相包含的最近鄰集合。

3 MI-nn(r)表示資料點 r 依照鏈結兩端點間的距離關係作為定義之區域性鄰集集合

相對的增加。與以 k 最近鄰作為區域性鄰集的方法相比，我們同樣能夠保持相同的期望，而最大的差別在於省略一個可能會影響結果的參數 k。

目前設計用來描述鏈結權重的公式，是一種簡單且非常直覺的方法。然而，

當圖上所有成對資料形成的鏈結經過相似度轉換後，資料間彼此的關係將無法滿足賦距空間(metric space)的條件。賦距空間必須滿足三個條件：1. 識別性(identity of indiscernible) ， dist(x, y) = 0 ↔ dist(y, x) = 0 ； 2. 對稱性 (symmetry) ， dist(x, y) = dist(y, x) ； 3. 三角不等式 (triangular inequality) ， dist(x, y) ≤ dist(x, z) + dist(z, y)。轉換後的相似度將無法滿足三角不等式。若是原始資料的相似關係符合賦距空間的條件，我們可知任一組成對資料間的直接距離就是此組資料的最短路徑。因此，在經過相似度轉換後，改以最短路徑重新描述所有成對資料彼此的相似關係，將可儘量減少違反賦距空間條件的鏈結組合。

依照定義的鏈結權重公式求出圖上的所有鏈結權重，並利用相似度轉換公式得出一組全新的相似度矩陣後，帶入至非度量性多元尺度法，目標是得到一組與原始資料維度相同且滿足賦距空間條件的全新屬性。

在文檔中以區域性鄰集為基礎之相似度轉換方法應用於分群演算法 (頁 23-27)

第三章 ，方法

3.1 相似度轉換公式與區域性鄰集

第三章，方法