第二章 文獻探討
第二節 模糊分群分析
分群分析亦稱群集分析或聚類分析、是一種非監督式多變量統計分析方法,
不同於監督式之分類分析,不須要考慮訓練集及測試集的問題。分群分析之目的 在有意義地將資料適當分群,係從樣本資料中擷取具有相同特徵的群體,依據資 料的相似性予以分群,使同一集群之間的資料必須盡可能擁有最大的相似性,而 不同集群的資料,則具有較大的差異性,其主要目的是「根據元素之間的類似或 相似程度,加以分類」,即相似程度高的元素歸為同一集群。所以,其終極目標,
是希望「集群內元素同質性高,而集群的元素異質性高」(Jain, Murty and Flynn, 1999)。
分群分析依其目的之不同,主要可概分為階層型分群法及分割型分群法兩大 類(Babuška, 2007),上述兩大類分群法,又各可依機率分配型及非機率分配型 分為兩大類,換言之,分群分析法可概分為四類,若另包含上四類之各種混合型,
則可概分為五大類。分群分析常以「距離」(distance)來表示元素之間的相似度
(張敏、于劍,2004),本研究所探討的議題是定義距離函數,透過不同的距離 函數以決定其對應之目標函數,因此本研究特別有興趣於模糊分割分群法中距離 函數之擴張改善之議題,因此所提出新的演算法主要以馬氏距離為基礎的目標函 數進行探討,改善GG分群演算法,透過給定的先驗機率值為 的限制,因此所 提出的新的演算法其變異數矩陣估計式是動態的,直接由目標函數導出,能有效 改進GK分群演算法的重要因素,如此的目標函數是動態性,必能靈敏的反應樣 本點的特質,預期在進行分群時應可獲得較佳的分群結果,因此新的演算法沒有 機率分配的限制。
pi
目標函數導向的分割分群法,可依樣本點與各群間隸屬度之規範分為硬分割 分群法與軟分割分群法兩種,兩者之主要差異在於各明確樣本點與各群間隸屬度 之規範,硬分割分群法為明確之「屬於」與「不屬於」關係,其對應之實數集為
{ }
0,1 ,軟分割分群法為硬分割分群法之擴張,其隸屬度值域為實數區間集[ ]
0,1 ,顯然
[ ]
0,1 ⊇{ }
0,1 ,換言之,本質上,軟分割分群法可以看成硬分割分群法之推廣Dunn(1974)首先以目標函數的極小值方法,引入模糊集群之概念,而 Bezdek(1973) 導出一般化公式並求得一般解。其後,致力於此領域研究的學者已導出多種不同
⎥⎥ 愈明確愈接近硬分割(Zimmermann, 1991)。 值是重疊程度,通常之預設值為
=2,並且從研究中證實(Pal & Bezdek, 1995)。
q q
q
以拉格朗日乘子的方法,求Jq(U,V)之極小值。令: