第貳章中介紹之群聚相關技術及群聚適切性評估式中,不論群聚 演算法或適切性評估式皆具有共同目標,但是卻使用許多不同方法來 完成此目標,因此藉由第貳章詳細討論每種方法的優缺點及適用的環 境,本研究歸納出以下三點,敘述如下。
(1) 在比較群聚品質較佳與較差的群聚演算法後發現,其因在於品 質較差的群聚演算法均僅使用資料點中的幾何關係或統計為基 礎。而且在表 2-1 中,以幾何關係或統計為基礎的群聚演算法 僅能發現以圓型為基礎的資料分佈,但是唯有以密度為基礎的 群聚演算法能同時發現凸狀分佈與非凸狀分佈;原因於其衡量 群聚發生的準則並非單一歐式距離公式或統計觀點為主,尚加 入了密度或其他概念。由以上兩點可以推知,一個適應性較佳 的群聚適切性評估式,除了考慮緊密度與分離度之外;尚可加 入度量密度的量測準則。
(2) 在第貳章中介紹傳統量測群聚間分離度的方法分別為 Centroid link、Average 1ink、Complete link 與 Sing1e link,而此類方法 均僅選擇單一代表點來代表整個群聚,並且僅單純的考慮到群 聚與群聚間的距離;基於以上兩理由提出其不足之處,並詳述 如下[29]。在此考慮三種狀況分別如圖 3-7、圖 3-8 與圖 3-9,
當圖 a 與圖 b 中兩群聚之半徑大小均有明顯差異時,不論使用 Centroid 1ink、Complete link 或 Sing1e link 量測其群聚間離散 程度時其結果皆相同,但這卻是不客觀的。因為當群聚的半徑 不同時,其半徑的長度相對地會影響到群聚間的分散的程度,
(a)群聚半徑短 (b)群聚半徑長 圖3-7 兩群聚重心點距離相等,但群聚半徑不同
(a)群聚半徑短 (b)群聚半徑長 圖3-8 兩群聚最遠點距離相等,但群聚半徑不同
(a)群聚半徑短 (b)群聚半徑長 圖3-9 兩群聚最近點距離相等,但群聚半徑不同
所以在衡量群聚間分散程度時,也應該包含群聚半徑所涵蓋的 範圍。
(3) 以應用領域之觀點切入群聚技術時,如地理資訊、空間資料庫、
影像資料庫與醫療資料庫等..皆經常應用到群聚技術,但是當地 理資訊或醫療影像評估群聚結果時,僅利用群聚分散程度和緊 密程度是不實際地,因為當分析此群聚結果時,尚有一個重要 因素,即是群聚的凝聚程度。
以醫療影像與地理資訊應用為例,分析患者的斷層掃描影 像時,若發現群聚的產生即有可能在此處發生病變,但是要判 定其為良性或惡性腫瘤時,則需進一步進行切片。但是尚有另 一個方法為分析群聚結果是否向內凝聚,即越接近群聚中心的 密度越高時,則為惡性腫瘤的機率也較為升高。另外在地理資 訊應用中分析山坡植被影像時,也可利用群聚的凝聚力找尋山 坡植被產生病變或病蟲害的發源地,以利進行實地勘查。由以 上二例中可以得知當引用群聚適切性評估式進行評估群聚結果 時,必須將群聚凝聚力納入考量。
綜觀以上三點,本研究發現一個較佳的群聚評估式除了考量緊密 度與離散度以外,尚須考慮到群聚凝聚力與密度率 。
(一)密度率(Density rate)
本研究引用[29]中相對的密度來計算密度率的概念,本研究計算 單一群聚的密度與整體資料空間的密度之關係,如此才能顯現出相較 於整體密度而言,其某一群聚的資料密度程度為何。
單一群聚密度計算方法是先將資料集合內所有的資料點數除以 資料點所分佈的空間,而在我們的研究中則是以先計算出所有資料空 間,並將標準化成為1,接著計算出經過標準化的各單一群聚資料空 間,如圖 3-10 所示,假設整理空間經過標準化後的值為 1,則群聚 c1 的資料空間為 0.075,另外群聚 c2 的資料空間為 0.015。
圖3-10 群聚資料空間示意圖
由於本研究引用個別群聚密度與整體資料密度間的關係顯現出 相較於整體資料而言,其某一群聚的資料密度程度為何,其定義如公 式3-1 所示。
Density rate of ci =
0 ≤Density rate of c ≤ 1
(3-1)
1 || ||i
ci
density of data c S
−
其中||ci||為第 i 個群聚中所包含的資料點個數;Sci為第i 個群聚所 佔的資料空間大小;當Density rate of ci越大則表示該群聚相對於整 體群聚評估式流程中整體密度而言的密度是較高。
(二) 鑑別率(Discrimination rate)
有鑑於上節中群聚間的分離度因群聚半徑不同而造成判斷的瑕 疵,所以本研究不採用單一代表點方法計算群聚間的分離度,改為同 時採用重心點與最近點之雙代表點方法,用以鑑別群聚間的分離度。
本研究引用[29]中評估分離度的方法,採用雙代表點的方法計算 兩群聚分散程度,本研究定義鑑別率計算方式如公式3-2 所示。
0 ≤ Discrimination rate between ci, cj ≤ 1
其中n 為所有資料點數;k 為群聚數量;i 與 j 各為群聚 i 與群聚 j 中資料點;u、i uj為群聚 i 的重心點與群聚 j 重心點;當 Discrimination rate 越接近 1 則代表鑑別效果越佳。以圖 3-11 為例,當以 sing1e link
為衡量群聚間的分離程度時,3-11(a)與 3-11(b)兩者分離程度皆 為2,則將兩者的離散程度視為相同,但這樣是不合理的,因為圖 3-11
(a)中群聚半徑較小,雖然兩者分散程度都為 2,但相對而言,圖
(3-2)
Discrimination rate between ci, cj =
{ ( , )}
i ji j
Min DIS c c
u − u
3-11(a)的分離程度應該是較圖 3-11(b)高;而採用本研究採用的 鑑別率評估式,則可以分別得到0.5 與 0.33,便可合理的表現出群聚 分離程度。
(a) (b)
圖 3-11 兩群聚最近點距離相等,但重心點距離不同
(三)凝聚率(Agglomerate rate)
凝聚率之目的在於評估群聚內資料點向內集中的程度;以圖 3-12 為例,有兩個資料空間與密度皆相等的群聚,可以觀察到群聚 c2 較 群聚c1 凝聚,其原因在於當兩群聚在相同的條件下,群聚 c2 靠近中 心點的資料點數較多,此時我們稱群聚c2 的凝聚率高於群聚 c1。
圖3-12 群聚凝聚率示意圖
2 2
4 6
圖3-13 群聚內資料點分佈圖
為了量測群聚內凝聚率的概念,本研究引用[29]中凝聚力與統計 中標準差與平均數觀念以評估群聚中的凝聚程度;首先定義一群聚內 資料點個數為n,接著計算資料點間彼此的平均距離為µ與標準差σ,
最後便可計算出落於平均距離加上一倍標準差內之資料點個數,如圖 3-13 所示藉由此資料點數的多寡,便可量測出群聚的凝聚率。本研究 將上述轉變為公式3-3 詳述如下
Agglomerate rate of ci =
0 ≤Agglomerate rate of ci≤ 1
其中||ci|| 為第 i 個群聚內的資料點個數;||ci||caliber=µ+σ 為落於第 i 個群聚內資料點間的平均距離加上一倍標準差內之資料點個數。
由上述公式中,可知當越多資料點落於群聚內平均距離加一倍標 準差的範圍內,表示其凝聚力越高。
(3-3)
caliber u i
|| ||
||C ||
C
i = +δµ
σ
(四)適應型群聚適切性評估式
本研究以群聚內部緊密度與群聚間分離度為基礎,加入群聚密度 率、鑑別率與凝聚率三種群聚特性指標,並提出一個適應性群聚適切 性評估式,其式如下公式3-4,詳述如下。
(
i)
{ ( )i ( )i }{ ( )
j( )
j}
Disc c , Agg c Den c Agg c Den c 2 11
1
jadapt
c k
i kj k i j
I C e
+ × × ×
≤ ≤≤ ≤
≠
= ∑
1 ≤ I adapt ≤ 7.389
其中k 為群聚數量,Disc(ci ,cj)為群聚 i 與群聚 j 之間的鑑別率,
Agg(ci)為群聚i 的凝聚率,Den(ci)為群聚i 的密度率;群聚結果 越合適時,即群聚間分離度越高且群聚內緊密度越高的準則之下,其
Iadapt值越大表示群聚結果越合適。
Iadapt 群聚適切性評估式係以群聚間分離程度與群聚內部緊密程
度兩者間相互關係作為基礎點;其指數中的 Disc(ci ,cj)是以群聚間 的鑑別率來辨識出群聚間的分離程度,而 Agg(ci)與Den(ci)則考 慮一對群聚間,各別凝聚力與密度之特性的總合,以此來評斷群聚內 部緊密的程度;再將分散程度與群聚緊密程度二者加總,最後將C2k組 的群聚結果評估值加總, 以此評估值評斷此次群聚結果的合適與否。
以圖 3-14 為例,當資料被區分為三個群聚時,先各別計算出每
(3-4)
個群聚之密度與凝聚率,再計算成對群聚間鑑別率,分別為群聚c1 與群聚c2 間、群聚 c2 與群聚 c3 間與群聚 c3 與群聚 c1 共 C23 = 3 組,
便可得到其此次分群結果評估值,並與其他分群結果進行評估,最終 選擇出一個最合適的分群結果。
圖3-14 適應型群聚適切性評估式示意圖