• 沒有找到結果。

第二章 文獻探討

2.4 叢聚分析

在眾多的資料探勘技術中,針對不同的應用領域、資料庫型態及知識的類別,

目前已有許多不同的技術陸續被提出,每一種技術都有其特性及應用,其中主要 的幾個方法包括有關聯分析、描述、分類法、及決策樹等,因應用背景的不同,

不同的探勘技術所做的處理程序及分析結果也不相同,且因應需求的增加或改變,

這些技術或方法又各自發展出新的技術。其中的叢聚分析法可藉由資料群集的過 程,觀察資 料的群聚現象以找出其中有用的知識。本研究將於下說明所應用資料

17 探勘技術之理論基礎。

2.4.1 叢聚分析的分類

目前在叢聚分析法的相關研究與應用中,存在有許多 不同的演算法。每個演 算法本身都具有不一樣的特性,其中多數演算法都必須仰賴使用者事先給定某些 條件,以因應 不同領域中資料特性的差異。因此,根據演算法的不同性質可概分 為五類 Han & Kamber(2000),將其分述如下:

一、階層式(Hierarchical)叢聚分析法

階層式叢聚分析法主要為樹狀圖架構的建立,來進行資料的分析,一般 可分成聚合式(Agglomerative)與分裂式(divisive),而聚合式叢聚分 析法,為由樹狀分類圖中的分枝一直進行到根部的叢聚分析法,可以是 說一種由上到下的階層式叢聚分析法。依據分群時間的距離衡量方式,

分成為單一連結法以及完全連結法兩種。

1. 單一連結法

單一連結法,其兩個資料間新的距離,定義為兩個叢聚之間最小距 離。

2. 完全鏈結法

單一連結法,其兩個資料間新的距離,定義為兩個叢聚之間最大距 離。

而分裂式叢聚分析法,由根部分裂至樹葉的方法,一種由下到上的階層 式叢聚分析法。一般來說分 裂式叢聚分析法是比較少見的,以下就分 裂 式叢聚分析法的 DIANA 分析法進行介紹:

1. DIANA 分析法

DIANA 叢聚分析法是由上到下的階層式叢聚分析法。是較為罕見

18 所影響,會影響平均值的計算 MacQueen, J(1967)。

2. K-modes 演算法

有別於 K-mean,是針對分類的質來進行叢聚。為一種利用資料中 眾數為依據,來進行叢聚的演算法 Huang, Z(1998)。

3. PAM(Partitioning Around Medoids)演算法

跟前兩者演算法最大的不同在於 K-medoids 一開始選擇中心時,不 再以隨機方式選取,而是選擇較具代表性的 K 個點,當作起始中 心, K-medoids 對於雜訊或離群值的抵抗力較高,用於小型的資 料集合時可以得到不錯的結果Kaufman & Rousseeuw(1990)。 4. CLARA(Clustering LARge Applications)演算法

CLARA 演算法應用於大型資料庫中,在進行叢聚分析前,先利用 完全隨機的方法,從母體中抽取代表性的樣本,以減輕運算的負擔。

若一直未抽到最佳代表性的樣本,則叢聚結果必然不佳,樣本量太

19

少也失去代表性,因此抽樣的方法是影響叢聚品質的關鍵Kaufman

& Rousseeuw(1990)

5. CLARANS(Clustering Large Applications based on RANdomized Search)演算法

CLARANS 演算法是整合了 PAM 與 CLARA 的特性,利用樹狀搜 索的方式,來尋找最合適的叢聚資料中心,適用於空間資 料庫,目 前已證明比 PAM 與 CLARA 更有效率。

三、密度基礎(Density Based)叢聚分析法

資料點分佈密集的點便形成一個叢聚,而叢聚內資料分佈密度大於叢聚

代表性的分析方法有 STING、CLIQUE。

1. STING(Statistical Information Grid-Based Method)分析法

20

STING 叢聚分析法主要利用階層式的方格結構,在方格內儲存資 料的數值性統計參數,分析查詢速度快,但叢聚邊緣呈水平或垂直 狀,品質及正確率較低 Wang et al., (1997)。

2. CLIQUE(Clustering In QUEst)分析法

CLIQUE 叢聚分析法整合了以密度基礎及方格基礎的兩種叢聚方 法,對於大型空間數據的叢聚分析具有很高的效率,能得到優質的 叢聚結果Agrawal et al.,(1998)

五、類神經網路(Neural Network)叢聚分析法

類神經網路叢聚分析法主要利用無監督式學習網路為主,其從問題領域 中得到訓練範例,並從中學習範例的內在行為規則,以 類似人腦方式進 行群聚動作。最常使用的就是自我組織圖(Self Organizing Map;SOM)

的技術。

相關文件