群聚適切性評估式

第貳章中介紹之群聚相關技術及群聚適切性評估式中，不論群聚演算法或適切性評估式皆具有共同目標，但是卻使用許多不同方法來完成此目標，因此藉由第貳章詳細討論每種方法的優缺點及適用的環境，本研究歸納出以下三點，敘述如下。

（1）在比較群聚品質較佳與較差的群聚演算法後發現，其因在於品質較差的群聚演算法均僅使用資料點中的幾何關係或統計為基礎。而且在表 2-1 中，以幾何關係或統計為基礎的群聚演算法僅能發現以圓型為基礎的資料分佈，但是唯有以密度為基礎的群聚演算法能同時發現凸狀分佈與非凸狀分佈；原因於其衡量群聚發生的準則並非單一歐式距離公式或統計觀點為主，尚加入了密度或其他概念。由以上兩點可以推知，一個適應性較佳的群聚適切性評估式，除了考慮緊密度與分離度之外；尚可加入度量密度的量測準則。

（2）在第貳章中介紹傳統量測群聚間分離度的方法分別為 Centroid link、Average 1ink、Complete link 與 Sing1e link，而此類方法均僅選擇單一代表點來代表整個群聚，並且僅單純的考慮到群聚與群聚間的距離；基於以上兩理由提出其不足之處，並詳述如下[29]。在此考慮三種狀況分別如圖 3-7、圖 3-8 與圖 3-9，

當圖 a 與圖 b 中兩群聚之半徑大小均有明顯差異時，不論使用 Centroid 1ink、Complete link 或 Sing1e link 量測其群聚間離散程度時其結果皆相同，但這卻是不客觀的。因為當群聚的半徑不同時，其半徑的長度相對地會影響到群聚間的分散的程度，

（a）群聚半徑短（b）群聚半徑長圖3-7 兩群聚重心點距離相等，但群聚半徑不同

（a）群聚半徑短（b）群聚半徑長圖3-8 兩群聚最遠點距離相等，但群聚半徑不同

（a）群聚半徑短（b）群聚半徑長圖3-9 兩群聚最近點距離相等，但群聚半徑不同

所以在衡量群聚間分散程度時，也應該包含群聚半徑所涵蓋的範圍。

（3）以應用領域之觀點切入群聚技術時，如地理資訊、空間資料庫、

影像資料庫與醫療資料庫等..皆經常應用到群聚技術，但是當地理資訊或醫療影像評估群聚結果時，僅利用群聚分散程度和緊密程度是不實際地，因為當分析此群聚結果時，尚有一個重要因素，即是群聚的凝聚程度。

以醫療影像與地理資訊應用為例，分析患者的斷層掃描影像時，若發現群聚的產生即有可能在此處發生病變，但是要判定其為良性或惡性腫瘤時，則需進一步進行切片。但是尚有另一個方法為分析群聚結果是否向內凝聚，即越接近群聚中心的密度越高時，則為惡性腫瘤的機率也較為升高。另外在地理資訊應用中分析山坡植被影像時，也可利用群聚的凝聚力找尋山坡植被產生病變或病蟲害的發源地，以利進行實地勘查。由以上二例中可以得知當引用群聚適切性評估式進行評估群聚結果時，必須將群聚凝聚力納入考量。

綜觀以上三點，本研究發現一個較佳的群聚評估式除了考量緊密度與離散度以外，尚須考慮到群聚凝聚力與密度率。

（一）密度率（Density rate）

本研究引用[29]中相對的密度來計算密度率的概念，本研究計算單一群聚的密度與整體資料空間的密度之關係，如此才能顯現出相較於整體密度而言，其某一群聚的資料密度程度為何。

單一群聚密度計算方法是先將資料集合內所有的資料點數除以資料點所分佈的空間，而在我們的研究中則是以先計算出所有資料空間，並將標準化成為1，接著計算出經過標準化的各單一群聚資料空間，如圖 3-10 所示，假設整理空間經過標準化後的值為 1，則群聚 c1 的資料空間為 0.075，另外群聚 c2 的資料空間為 0.015。

圖3-10 群聚資料空間示意圖

由於本研究引用個別群聚密度與整體資料密度間的關係顯現出相較於整體資料而言，其某一群聚的資料密度程度為何，其定義如公式3-1 所示。

Density rate of c_i =

0 ≤Density rate of c ≤ 1

（3-1）

1 || ||_i

density of data c S

 

 

−  

 

 

其中||ci||為第 i 個群聚中所包含的資料點個數；Sci為第i 個群聚所 佔的資料空間大小；當Density rate of ci越大則表示該群聚相對於整體群聚評估式流程中整體密度而言的密度是較高。

（二）鑑別率（Discrimination rate）

有鑑於上節中群聚間的分離度因群聚半徑不同而造成判斷的瑕疵，所以本研究不採用單一代表點方法計算群聚間的分離度，改為同時採用重心點與最近點之雙代表點方法，用以鑑別群聚間的分離度。

本研究引用[29]中評估分離度的方法，採用雙代表點的方法計算兩群聚分散程度，本研究定義鑑別率計算方式如公式3-2 所示。

0 ≤ Discrimination rate between c_i, c_j ≤ 1

其中n 為所有資料點數；k 為群聚數量；i 與 j 各為群聚 i 與群聚 j 中資料點；u、_i u_j為群聚 i 的重心點與群聚 j 重心點；當 Discrimination rate 越接近 1 則代表鑑別效果越佳。以圖 3-11 為例，當以 sing1e link

為衡量群聚間的分離程度時，3-11（a）與 3-11（b）兩者分離程度皆為2，則將兩者的離散程度視為相同，但這樣是不合理的，因為圖 3-11

（a）中群聚半徑較小，雖然兩者分散程度都為 2，但相對而言，圖

（3-2）

Discrimination rate between c_i, c_j =

{ ( , )}

_i _j

i j

Min DIS c c

u − u

3-11（a）的分離程度應該是較圖 3-11（b）高；而採用本研究採用的鑑別率評估式，則可以分別得到0.5 與 0.33，便可合理的表現出群聚分離程度。

（a）（b）

圖 3-11 兩群聚最近點距離相等，但重心點距離不同

（三）凝聚率（Agglomerate rate）

凝聚率之目的在於評估群聚內資料點向內集中的程度；以圖 3-12 為例，有兩個資料空間與密度皆相等的群聚，可以觀察到群聚 c2 較群聚c1 凝聚，其原因在於當兩群聚在相同的條件下，群聚 c2 靠近中心點的資料點數較多，此時我們稱群聚c2 的凝聚率高於群聚 c1。

圖3-12 群聚凝聚率示意圖

2 2

4 6

圖3-13 群聚內資料點分佈圖

為了量測群聚內凝聚率的概念，本研究引用[29]中凝聚力與統計中標準差與平均數觀念以評估群聚中的凝聚程度；首先定義一群聚內資料點個數為n，接著計算資料點間彼此的平均距離為µ與標準差σ，

最後便可計算出落於平均距離加上一倍標準差內之資料點個數，如圖 3-13 所示藉由此資料點數的多寡，便可量測出群聚的凝聚率。本研究將上述轉變為公式3-3 詳述如下

Agglomerate rate of ci =

0 ≤Agglomerate rate of ci≤ 1

其中||c_i|| 為第 i 個群聚內的資料點個數；||c_i||caliber=µ+σ 為落於第 i 個群聚內資料點間的平均距離加上一倍標準差內之資料點個數。

由上述公式中，可知當越多資料點落於群聚內平均距離加一倍標準差的範圍內，表示其凝聚力越高。

（3-3）

caliber u i

|| ||

||C ||

C

i _{= +}_δ

（四）適應型群聚適切性評估式

本研究以群聚內部緊密度與群聚間分離度為基礎，加入群聚密度率、鑑別率與凝聚率三種群聚特性指標，並提出一個適應性群聚適切性評估式，其式如下公式3-4，詳述如下。

(

ⁱ

)

{ ^{( )}ⁱ ^{( )}ⁱ }

{ ( )

( )

}

Disc c , Agg c Den c Agg c Den c 2 11

1

adapt

c k

i kj k i j

I C e

+ × × ×

≤ ≤≤ ≤

≠

= ∑

1 ≤ I _adapt ≤ 7.389

其中k 為群聚數量，Disc（c_i ,c_j）為群聚 i 與群聚 j 之間的鑑別率，

Agg（c_i）為群聚i 的凝聚率，Den（c_i）為群聚i 的密度率；群聚結果 越合適時，即群聚間分離度越高且群聚內緊密度越高的準則之下，其

I_adapt值越大表示群聚結果越合適。

I_adapt 群聚適切性評估式係以群聚間分離程度與群聚內部緊密程

度兩者間相互關係作為基礎點；其指數中的 Disc（c_i,c_j）是以群聚間的鑑別率來辨識出群聚間的分離程度，而 Agg（c_i）與Den（c_i）則考慮一對群聚間，各別凝聚力與密度之特性的總合，以此來評斷群聚內部緊密的程度；再將分散程度與群聚緊密程度二者加總，最後將C₂^k組的群聚結果評估值加總，以此評估值評斷此次群聚結果的合適與否。

以圖 3-14 為例，當資料被區分為三個群聚時，先各別計算出每

（3-4）

個群聚之密度與凝聚率，再計算成對群聚間鑑別率，分別為群聚c1 與群聚c2 間、群聚 c2 與群聚 c3 間與群聚 c3 與群聚 c1 共 C₂³ = 3 組，

便可得到其此次分群結果評估值，並與其他分群結果進行評估，最終選擇出一個最合適的分群結果。

圖3-14 適應型群聚適切性評估式示意圖

第肆章實驗與結果

在文檔中群聚參數與群聚適切性的分析與應用 The Analysis and Applications of Cluster Parameters (頁 51-60)