集群分析法

第三章評估模式構建

3.3 研究方法的選擇

3.3.3 集群分析法

(十) DEA 方法在評估單位的效率時，未存在一些理想的投入、產出組合，

表示事實上的理想組合是找不到的，所以所謂的效率只能用相對的方法比較。

(十一) DEA 方法給予各 DMU 效率值是對各 DMU 最有利的效率值。

四、DEA 之應用程序：【15】

步驟1.確定受評估單位

DEA 主要是在比較各個 DMU 的相對效率，所以 DMU 的選擇必需要有相同的比較基礎，而DMU 的個數為越多越好，Ali 在 1988 年建立原則認為DMU 的個數至少需為投入產出項個數和之兩倍。

步驟2.投入項和產出項的選擇

進行 DEA 評估時，投入項和產出項資料必需符合等幅擴張性 (Isotonicity)，投入項的數量增加時產出項的數量不得減少。

步驟3.評估模式的選擇和計算

運用DEA 模式來進行評估加以運算，求出各項 DMU 之效率。

步驟4.結果分析

根據DEA 模式運算結果，可將其所得效率評估結果加以分析解釋。

量空間的點予以歸類，使歸類後的集群具有最大的相似性。

二、CA 之基本概念

目前集群的技術大致上可分為下面幾類：【10】

( 一 ) 將其資料庫內的資料分為 K 群的切割式集群演算法 (Partition clustering algorithms)：而此種演算方法最重要的先決定其要分割的集群數目，透過這樣的模式進行後，再以重心點基礎(Centroid-based) 或中心點基礎(Medoid-based)的方式來進行集群。而談到切割式集群演算法則是以距離 (Distance)作為評估準則，通常評估的方法可以分為為曼哈頓距離(Manhattan distance)及歐幾里得距離 (Euclidean distance)，這些重要的理論發展至今，較為重要的方法有 K-means、

PAM、CLARA 及 CLARANS 等。

(二)將資料庫內的資料以樹狀架構整理的階層式集群演算法(Hierarchical clustering algorithms)：階層式集群演算法呈現一種樹狀的架構，可分成凝聚法(Agglomerative)及分裂法(Divisive)，如圖 3.6 所示。

凝聚法是透過由下而上(Bottom-up)的模式建構而成，而談到演算法則是在開始先將資料庫內每一筆資料表示成一個集群，接著按照其資料不同的屬性的依據其相似度開始做合併，透過每次合併兩個相似度最高的集群，直到所設定的終止集群數目為止。然而，分裂法與凝聚法則恰好相反，其透過為由上而下(Top-down)分裂模式而成，演算法在剛開始的時候將資料庫內所有的資料看成為同一個集群，之後將其資料相似度低的分裂成不同集群，至集群數目為所設定之終止數目為止。然而最重要的是，大部分階層式演算法是透過由下而上凝聚這種模式來進行，此相關理論發展至今，目前最為重要的方法有 BIRCH、CURE、ROCK、CHAMELEON、AMOEBA、AUTOCLUST 等。

圖3.6 凝聚法及分裂法階層集群演算法資料來源：吳舜如【10】

(三)當資料庫內的資料在分類時，即將密度高於一個門檻值的鄰居區域 (Neighborhood) 聚集成一個集群的密度基礎集群演算法 (Density-based Clustering algorithms)：理論基礎建立在一個資料集合內，其中假設有某些資料點分佈密度相當密集，再將這些資料點形成一個集群，便是基於以上的觀念所發展出的集群方法，目前較重要的方法有DBSCAN、OPTICS 由於資料庫交易的資料不斷地增加，

企業組織必須要定時去更新資料庫或資料倉儲內的資料，這時候需要面對的是動態的資料集合而不是靜態的資料集合。大部份以往的集群演算法在討論的都是有關於靜態的資料庫的集群，但是動態資料庫的集群處理更為複雜，此種演算法便是針對在資料倉儲的環境下處理集群問題的密度基礎集群演算法，因為所要處理的資料集合不再是固定的，所以此時必須考慮到當有資料加入時，對原來集群的影響。若在刪除資料的情況中，我們也要考慮集群是否會因為刪除的資料點而分裂成兩個或多個集群。

(四)將其資料空問量化成許多格子 (Grid cells)的格子基礎集群演算法 (Grid-based clustering)：格子基礎集群演算法將資料空間量化成許多格子，從上到下利用廣度搜尋將格子內的集群作合併，大量的減少處理集群的時間。在這類演算法中，較具代表性的 STING 、 Wave-Cluster。

三、CA 之應用程序【40】

在階層式集群分析法中，因用於小樣本之研究，所以使用華德法較不易受到極端值的影響，較適合用於小樣本之研究，將以N 個樣本為例，

將華德法之分群步驟列舉如下：

步驟1：將各樣本視為一集群，開始時集群數為 N。

步驟2：計算 N 個集群中，兩兩成對之組合C 種情形之組內變數^N₂ S ，將_i 兩個集群合併後，造成組內總變異數S 增加最少，則將此兩群合併，_i 成為N-1 個集群。

n 2

i ij i

j 1 k

i i 1

S (X X ) ,i 1, 2,..., k S S

= − =

∑

設X 為第 i 群中第 j 個樣本 _ij X 為第 i 群的樣本平均數 _i n 為第 i 群的樣本個數 _i k 為集群數目

步驟3：重複步驟 2，直到全部特性相似的樣本合併為同一集群為止。

在文檔中中華大學碩士論文 (頁 52-55)

第三章 評估模式構建

3.3 研究方法的選擇

3.3.3 集群分析法

∑

∑

第三章評估模式構建