• 沒有找到結果。

第貳章中介紹之群聚相關技術及群聚適切性評估式中,不論群聚 演算法或適切性評估式皆具有共同目標,但是卻使用許多不同方法來 完成此目標,因此藉由第貳章詳細討論每種方法的優缺點及適用的環 境,本研究歸納出以下三點,敘述如下。

(1) 在比較群聚品質較佳與較差的群聚演算法後發現,其因在於品 質較差的群聚演算法均僅使用資料點中的幾何關係或統計為基 礎。而且在表 2-1 中,以幾何關係或統計為基礎的群聚演算法 僅能發現以圓型為基礎的資料分佈,但是唯有以密度為基礎的 群聚演算法能同時發現凸狀分佈與非凸狀分佈;原因於其衡量 群聚發生的準則並非單一歐式距離公式或統計觀點為主,尚加 入了密度或其他概念。由以上兩點可以推知,一個適應性較佳 的群聚適切性評估式,除了考慮緊密度與分離度之外;尚可加 入度量密度的量測準則。

(2) 在第貳章中介紹傳統量測群聚間分離度的方法分別為 Centroid link、Average 1ink、Complete link 與 Sing1e link,而此類方法 均僅選擇單一代表點來代表整個群聚,並且僅單純的考慮到群 聚與群聚間的距離;基於以上兩理由提出其不足之處,並詳述 如下[29]。在此考慮三種狀況分別如圖 3-7、圖 3-8 與圖 3-9,

當圖 a 與圖 b 中兩群聚之半徑大小均有明顯差異時,不論使用 Centroid 1ink、Complete link 或 Sing1e link 量測其群聚間離散 程度時其結果皆相同,但這卻是不客觀的。因為當群聚的半徑 不同時,其半徑的長度相對地會影響到群聚間的分散的程度,

(a)群聚半徑短 (b)群聚半徑長 圖3-7 兩群聚重心點距離相等,但群聚半徑不同

(a)群聚半徑短 (b)群聚半徑長 圖3-8 兩群聚最遠點距離相等,但群聚半徑不同

(a)群聚半徑短 (b)群聚半徑長 圖3-9 兩群聚最近點距離相等,但群聚半徑不同

所以在衡量群聚間分散程度時,也應該包含群聚半徑所涵蓋的 範圍。

(3) 以應用領域之觀點切入群聚技術時,如地理資訊、空間資料庫、

影像資料庫與醫療資料庫等..皆經常應用到群聚技術,但是當地 理資訊或醫療影像評估群聚結果時,僅利用群聚分散程度和緊 密程度是不實際地,因為當分析此群聚結果時,尚有一個重要 因素,即是群聚的凝聚程度。

以醫療影像與地理資訊應用為例,分析患者的斷層掃描影 像時,若發現群聚的產生即有可能在此處發生病變,但是要判 定其為良性或惡性腫瘤時,則需進一步進行切片。但是尚有另 一個方法為分析群聚結果是否向內凝聚,即越接近群聚中心的 密度越高時,則為惡性腫瘤的機率也較為升高。另外在地理資 訊應用中分析山坡植被影像時,也可利用群聚的凝聚力找尋山 坡植被產生病變或病蟲害的發源地,以利進行實地勘查。由以 上二例中可以得知當引用群聚適切性評估式進行評估群聚結果 時,必須將群聚凝聚力納入考量。

綜觀以上三點,本研究發現一個較佳的群聚評估式除了考量緊密 度與離散度以外,尚須考慮到群聚凝聚力與密度率 。

(一)密度率(Density rate)

本研究引用[29]中相對的密度來計算密度率的概念,本研究計算 單一群聚的密度與整體資料空間的密度之關係,如此才能顯現出相較 於整體密度而言,其某一群聚的資料密度程度為何。

單一群聚密度計算方法是先將資料集合內所有的資料點數除以 資料點所分佈的空間,而在我們的研究中則是以先計算出所有資料空 間,並將標準化成為1,接著計算出經過標準化的各單一群聚資料空 間,如圖 3-10 所示,假設整理空間經過標準化後的值為 1,則群聚 c1 的資料空間為 0.075,另外群聚 c2 的資料空間為 0.015。

圖3-10 群聚資料空間示意圖

由於本研究引用個別群聚密度與整體資料密度間的關係顯現出 相較於整體資料而言,其某一群聚的資料密度程度為何,其定義如公 式3-1 所示。

Density rate of ci =

0 Density rate of c 1

(3-1)

1 || ||i

ci

density of data c S

 

 

−  

 

 

其中||ci||為第 i 個群聚中所包含的資料點個數;Sci為第i 個群聚所 佔的資料空間大小;當Density rate of ci越大則表示該群聚相對於整 體群聚評估式流程中整體密度而言的密度是較高。

(二) 鑑別率(Discrimination rate)

有鑑於上節中群聚間的分離度因群聚半徑不同而造成判斷的瑕 疵,所以本研究不採用單一代表點方法計算群聚間的分離度,改為同 時採用重心點與最近點之雙代表點方法,用以鑑別群聚間的分離度。

本研究引用[29]中評估分離度的方法,採用雙代表點的方法計算 兩群聚分散程度,本研究定義鑑別率計算方式如公式3-2 所示。

0 Discrimination rate between ci, cj 1

其中n 為所有資料點數;k 為群聚數量;i 與 j 各為群聚 i 與群聚 j 中資料點;ui uj為群聚 i 的重心點與群聚 j 重心點;當 Discrimination rate 越接近 1 則代表鑑別效果越佳。以圖 3-11 為例,當以 sing1e link

為衡量群聚間的分離程度時,3-11(a)與 3-11(b)兩者分離程度皆 為2,則將兩者的離散程度視為相同,但這樣是不合理的,因為圖 3-11

(a)中群聚半徑較小,雖然兩者分散程度都為 2,但相對而言,圖

(3-2)

Discrimination rate between ci, cj =

{ ( , )}

i j

i j

Min DIS c c

uu

3-11(a)的分離程度應該是較圖 3-11(b)高;而採用本研究採用的 鑑別率評估式,則可以分別得到0.5 與 0.33,便可合理的表現出群聚 分離程度。

(a) (b)

圖 3-11 兩群聚最近點距離相等,但重心點距離不同

(三)凝聚率(Agglomerate rate)

凝聚率之目的在於評估群聚內資料點向內集中的程度;以圖 3-12 為例,有兩個資料空間與密度皆相等的群聚,可以觀察到群聚 c2 較 群聚c1 凝聚,其原因在於當兩群聚在相同的條件下,群聚 c2 靠近中 心點的資料點數較多,此時我們稱群聚c2 的凝聚率高於群聚 c1。

圖3-12 群聚凝聚率示意圖

2 2

4 6

圖3-13 群聚內資料點分佈圖

為了量測群聚內凝聚率的概念,本研究引用[29]中凝聚力與統計 中標準差與平均數觀念以評估群聚中的凝聚程度;首先定義一群聚內 資料點個數為n,接著計算資料點間彼此的平均距離為µ與標準差σ,

最後便可計算出落於平均距離加上一倍標準差內之資料點個數,如圖 3-13 所示藉由此資料點數的多寡,便可量測出群聚的凝聚率。本研究 將上述轉變為公式3-3 詳述如下

Agglomerate rate of ci =

0 Agglomerate rate of ci 1

其中||ci|| 為第 i 個群聚內的資料點個數;||ci||caliber=µ+σ 為落於第 i 個群聚內資料點間的平均距離加上一倍標準差內之資料點個數。

由上述公式中,可知當越多資料點落於群聚內平均距離加一倍標 準差的範圍內,表示其凝聚力越高。

(3-3)

caliber u i

|| ||

||C ||

C

i = +δ

µ

σ

(四)適應型群聚適切性評估式

本研究以群聚內部緊密度與群聚間分離度為基礎,加入群聚密度 率、鑑別率與凝聚率三種群聚特性指標,並提出一個適應性群聚適切 性評估式,其式如下公式3-4,詳述如下。

(

i

)

{ ( )i ( )i }

{ ( )

j

( )

j

}

Disc c , Agg c Den c Agg c Den c 2 11

1

j

adapt

c k

i kj k i j

I C e

+ × × ×

≤ ≤≤ ≤

= ∑

1 I adapt 7.389

其中k 為群聚數量,Disc(ci ,cj)為群聚 i 與群聚 j 之間的鑑別率,

Agg(ci)為群聚i 的凝聚率,Den(ci)為群聚i 的密度率;群聚結果 越合適時,即群聚間分離度越高且群聚內緊密度越高的準則之下,其

Iadapt值越大表示群聚結果越合適。

Iadapt 群聚適切性評估式係以群聚間分離程度與群聚內部緊密程

度兩者間相互關係作為基礎點;其指數中的 Disc(ci ,cj)是以群聚間 的鑑別率來辨識出群聚間的分離程度,而 Agg(ci)與Den(ci)則考 慮一對群聚間,各別凝聚力與密度之特性的總合,以此來評斷群聚內 部緊密的程度;再將分散程度與群聚緊密程度二者加總,最後將C2k組 的群聚結果評估值加總, 以此評估值評斷此次群聚結果的合適與否。

以圖 3-14 為例,當資料被區分為三個群聚時,先各別計算出每

(3-4)

個群聚之密度與凝聚率,再計算成對群聚間鑑別率,分別為群聚c1 與群聚c2 間、群聚 c2 與群聚 c3 間與群聚 c3 與群聚 c1 共 C23 = 3 組,

便可得到其此次分群結果評估值,並與其他分群結果進行評估,最終 選擇出一個最合適的分群結果。

圖3-14 適應型群聚適切性評估式示意圖

第肆章 實驗與結果

相關文件