叢聚分析

第二章文獻探討

2.4 叢聚分析

在眾多的資料探勘技術中，針對不同的應用領域、資料庫型態及知識的類別，

目前已有許多不同的技術陸續被提出，每一種技術都有其特性及應用，其中主要的幾個方法包括有關聯分析、描述、分類法、及決策樹等，因應用背景的不同，

不同的探勘技術所做的處理程序及分析結果也不相同，且因應需求的增加或改變，

這些技術或方法又各自發展出新的技術。其中的叢聚分析法可藉由資料群集的過程，觀察資料的群聚現象以找出其中有用的知識。本研究將於下說明所應用資料

17 探勘技術之理論基礎。

2.4.1 叢聚分析的分類

目前在叢聚分析法的相關研究與應用中，存在有許多不同的演算法。每個演算法本身都具有不一樣的特性，其中多數演算法都必須仰賴使用者事先給定某些條件，以因應不同領域中資料特性的差異。因此，根據演算法的不同性質可概分為五類 Han & Kamber（2000），將其分述如下：

一、階層式（Hierarchical）叢聚分析法

階層式叢聚分析法主要為樹狀圖架構的建立，來進行資料的分析，一般可分成聚合式（Agglomerative）與分裂式（divisive），而聚合式叢聚分析法，為由樹狀分類圖中的分枝一直進行到根部的叢聚分析法，可以是說一種由上到下的階層式叢聚分析法。依據分群時間的距離衡量方式，

分成為單一連結法以及完全連結法兩種。

1. 單一連結法

單一連結法，其兩個資料間新的距離，定義為兩個叢聚之間最小距離。

2. 完全鏈結法

單一連結法，其兩個資料間新的距離，定義為兩個叢聚之間最大距離。

而分裂式叢聚分析法，由根部分裂至樹葉的方法，一種由下到上的階層式叢聚分析法。一般來說分裂式叢聚分析法是比較少見的，以下就分裂式叢聚分析法的 DIANA 分析法進行介紹：

1. DIANA 分析法

DIANA 叢聚分析法是由上到下的階層式叢聚分析法。是較為罕見

18 所影響，會影響平均值的計算 MacQueen, J（1967）。

2. K-modes 演算法

有別於 K-mean，是針對分類的質來進行叢聚。為一種利用資料中眾數為依據，來進行叢聚的演算法 Huang, Z（1998）。

3. PAM（Partitioning Around Medoids）演算法

跟前兩者演算法最大的不同在於 K-medoids 一開始選擇中心時，不再以隨機方式選取，而是選擇較具代表性的 K 個點，當作起始中心， K-medoids 對於雜訊或離群值的抵抗力較高，用於小型的資料集合時可以得到不錯的結果Kaufman & Rousseeuw（1990）。 4. CLARA（Clustering LARge Applications）演算法

CLARA 演算法應用於大型資料庫中，在進行叢聚分析前，先利用完全隨機的方法，從母體中抽取代表性的樣本，以減輕運算的負擔。

若一直未抽到最佳代表性的樣本，則叢聚結果必然不佳，樣本量太

少也失去代表性，因此抽樣的方法是影響叢聚品質的關鍵Kaufman

& Rousseeuw（1990）。

5. CLARANS（Clustering Large Applications based on RANdomized Search）演算法

CLARANS 演算法是整合了 PAM 與 CLARA 的特性，利用樹狀搜索的方式，來尋找最合適的叢聚資料中心，適用於空間資料庫，目前已證明比 PAM 與 CLARA 更有效率。

三、密度基礎（Density Based）叢聚分析法

資料點分佈密集的點便形成一個叢聚，而叢聚內資料分佈密度大於叢聚

代表性的分析方法有 STING、CLIQUE。

1. STING（Statistical Information Grid-Based Method）分析法

STING 叢聚分析法主要利用階層式的方格結構，在方格內儲存資料的數值性統計參數，分析查詢速度快，但叢聚邊緣呈水平或垂直狀，品質及正確率較低 Wang et al., (1997)。

2. CLIQUE（Clustering In QUEst）分析法

CLIQUE 叢聚分析法整合了以密度基礎及方格基礎的兩種叢聚方法，對於大型空間數據的叢聚分析具有很高的效率,能得到優質的叢聚結果Agrawal et al.,（1998）。

五、類神經網路（Neural Network）叢聚分析法

類神經網路叢聚分析法主要利用無監督式學習網路為主，其從問題領域中得到訓練範例，並從中學習範例的內在行為規則，以類似人腦方式進行群聚動作。最常使用的就是自我組織圖（Self Organizing Map；SOM）

的技術。

在文檔中顧客叢聚分析於合約書資料之研究-防火門公司實例探討 (頁 28-32)

第二章 文獻探討

2.4 叢聚分析

第二章文獻探討