第二章 文獻探討
2.4 叢聚分析
在眾多的資料探勘技術中,針對不同的應用領域、資料庫型態及知識的類別,
目前已有許多不同的技術陸續被提出,每一種技術都有其特性及應用,其中主要 的幾個方法包括有關聯分析、描述、分類法、及決策樹等,因應用背景的不同,
不同的探勘技術所做的處理程序及分析結果也不相同,且因應需求的增加或改變,
這些技術或方法又各自發展出新的技術。其中的叢聚分析法可藉由資料群集的過 程,觀察資 料的群聚現象以找出其中有用的知識。本研究將於下說明所應用資料
17 探勘技術之理論基礎。
2.4.1 叢聚分析的分類
目前在叢聚分析法的相關研究與應用中,存在有許多 不同的演算法。每個演 算法本身都具有不一樣的特性,其中多數演算法都必須仰賴使用者事先給定某些 條件,以因應 不同領域中資料特性的差異。因此,根據演算法的不同性質可概分 為五類 Han & Kamber(2000),將其分述如下:
一、階層式(Hierarchical)叢聚分析法
階層式叢聚分析法主要為樹狀圖架構的建立,來進行資料的分析,一般 可分成聚合式(Agglomerative)與分裂式(divisive),而聚合式叢聚分 析法,為由樹狀分類圖中的分枝一直進行到根部的叢聚分析法,可以是 說一種由上到下的階層式叢聚分析法。依據分群時間的距離衡量方式,
分成為單一連結法以及完全連結法兩種。
1. 單一連結法
單一連結法,其兩個資料間新的距離,定義為兩個叢聚之間最小距 離。
2. 完全鏈結法
單一連結法,其兩個資料間新的距離,定義為兩個叢聚之間最大距 離。
而分裂式叢聚分析法,由根部分裂至樹葉的方法,一種由下到上的階層 式叢聚分析法。一般來說分 裂式叢聚分析法是比較少見的,以下就分 裂 式叢聚分析法的 DIANA 分析法進行介紹:
1. DIANA 分析法
DIANA 叢聚分析法是由上到下的階層式叢聚分析法。是較為罕見
18 所影響,會影響平均值的計算 MacQueen, J(1967)。
2. K-modes 演算法
有別於 K-mean,是針對分類的質來進行叢聚。為一種利用資料中 眾數為依據,來進行叢聚的演算法 Huang, Z(1998)。
3. PAM(Partitioning Around Medoids)演算法
跟前兩者演算法最大的不同在於 K-medoids 一開始選擇中心時,不 再以隨機方式選取,而是選擇較具代表性的 K 個點,當作起始中 心, K-medoids 對於雜訊或離群值的抵抗力較高,用於小型的資 料集合時可以得到不錯的結果Kaufman & Rousseeuw(1990)。 4. CLARA(Clustering LARge Applications)演算法
CLARA 演算法應用於大型資料庫中,在進行叢聚分析前,先利用 完全隨機的方法,從母體中抽取代表性的樣本,以減輕運算的負擔。
若一直未抽到最佳代表性的樣本,則叢聚結果必然不佳,樣本量太
19
少也失去代表性,因此抽樣的方法是影響叢聚品質的關鍵Kaufman
& Rousseeuw(1990)。
5. CLARANS(Clustering Large Applications based on RANdomized Search)演算法
CLARANS 演算法是整合了 PAM 與 CLARA 的特性,利用樹狀搜 索的方式,來尋找最合適的叢聚資料中心,適用於空間資 料庫,目 前已證明比 PAM 與 CLARA 更有效率。
三、密度基礎(Density Based)叢聚分析法
資料點分佈密集的點便形成一個叢聚,而叢聚內資料分佈密度大於叢聚
代表性的分析方法有 STING、CLIQUE。
1. STING(Statistical Information Grid-Based Method)分析法
20
STING 叢聚分析法主要利用階層式的方格結構,在方格內儲存資 料的數值性統計參數,分析查詢速度快,但叢聚邊緣呈水平或垂直 狀,品質及正確率較低 Wang et al., (1997)。
2. CLIQUE(Clustering In QUEst)分析法
CLIQUE 叢聚分析法整合了以密度基礎及方格基礎的兩種叢聚方 法,對於大型空間數據的叢聚分析具有很高的效率,能得到優質的 叢聚結果Agrawal et al.,(1998)。
五、類神經網路(Neural Network)叢聚分析法
類神經網路叢聚分析法主要利用無監督式學習網路為主,其從問題領域 中得到訓練範例,並從中學習範例的內在行為規則,以 類似人腦方式進 行群聚動作。最常使用的就是自我組織圖(Self Organizing Map;SOM)
的技術。