集群分析法(Cluster analysis)

三、研究方法

3.4 資料分析方法

3.4.2 集群分析法(Cluster analysis)

因素分析中我們研究目的是要將變數項目（本研究為財務指標）加以分類，而運用群集分析雲端產業觀察體（146 家上市企業）而加以分類進而分析最終的策略集群命名及分析。本研究採兩階段法，第一階段為階層式分層法(Hierarchical) 之華德 (Wards) 最小變異法，決定群組個數。第二階段為非階層式法 (Nonhierarchical)，運用 K-means 進行群集命名及分析。

3.5 財務指標之敘述性統計

敘述性統計分析主要目的，是要將原始資料加以組織、彙整並描述其特性，從而使資料有系統的呈現出來。敘述性統計分析欲了解分析資料「中央趨勢情況」可採平均數、中位數與眾數用以表示資料的中心位置，但中位數與眾數缺點為容易受到極端值(extreme value)的影響或研究資料排列當中資料漏掉幾筆時，中位數即失去代表性，如有資料呈現分散情形將會影響分析結果。本研究將對於資料離散程度、形狀及對稱分配、常態分配作其敘述性統計分析。

3.5.1「檢定研究資料是否為常態分配」之敘述性統計方法

統計方法中通常假設資料來自於常態母體，故需檢測資料的常態性，以確保分析的結果是「可信的」。本研究以 Kolmogorov-Smirnov 來統計檢定的顯著水準, 若是達到顯著水準 p-value <0.001 則符合常態分配。

3.5.2 「資料分散程度」或「離散程度」之敘述性統計

「資料分散程度」或「離散程度」可知資料變異的原因和性質，目前常見分析資料分散情形有:

全距(Range, R)，資料中的最大值與最小值之差即為全距(range)，通常以 R 來表示，通常研究資料尚未分組時候全距計算如(1)式，

R =Max. value - Min. Value (1) 如果研究資料進行分組齊全距如(2)式，

R =upper limit -lower limit (2)

四分位差(Quartile Deviation)，是將四分位距(Inter-Quartile Range；IQR) 將資料去掉兩端最大( )及最小值( )各 25%的觀察值，只剩中間 50%部分的資料，

之後再求這 50%資料的全距，如(3)式的代表第一個四分位數，代表第二個四分位數而 =IQR 稱為四分位距(Inter-Quartile Range)

(3)

平均絕對離差(Mean Absolute Deviation；MAD)，將研究資料各觀察值與平均數的距離總和取其算術平均數，而不討論離均差之正負號，稱為平均絕對離差 (mean absolute deviation)，如下列未分組資料的平均絕對差如(4)式所示，n 為觀察值個數，^x為 n 各觀察值加總後取其絕對值。

標準差(Standard Deviation)，研究資料未被分組資料的母體標準差σ及樣本標準差，如(9)式和(10)式所示，其中，N、n 分別代表母體及樣本的資料個數。

資料之組數，^m為樣本資料之組數， ^N

變異係數(Coefficient of Variation,CV)，變異係數為標準差與平均數比值的百分數且變異係數值的大小，顯現出研究觀察值變動的大小，數值越大其變動

3.5.3「資料形狀及對稱分配」之敘述性統計

偏度分配(Skewness Distribution)和峰度分配(Kurtosis Distribution)常被用來描述一個「分佈」的形狀特徵，也用於在常態驗證(Joanes、Gill，1998)[20]，

研究資料的「資料形狀及對稱分配」最常用採用參考為偏態係數(coefficient of skewness,SK) 及峰態係數 (coefficient of kurtosis; ) 。有關偏度分配 (Skewness Distribution)分布可分三種型態，參考圖 12。

資料來源:本研究整理

圖 12 偏度分配 Skweness Distribution

其中偏度係數（Coefficient of Skewness, SK）用來度量分佈是否對稱，如對稱分佈左右是對稱的，偏度係數為 0。偏態分為負偏態 (Negative Skewed) 與正偏態 (Positively Skewed) 二種表示，都是屬於單峰分配偏態的一種係數，如(15)式所示主要觀察值為母體，如(16)式所示主要觀察值為樣本，其中與x分別代表母體平均數與樣本平均數，^Me是中位數， 與s 分別代表母體標準差與樣本標準差。



 )

(

3 Me

S_k   (15)

s Me

S_k  3(x ) (16)

 對稱分佈(No Skew)：SK=0，左右是對稱的，其眾數=中位數=平均值之對稱分佈，參考圖 13。

資料來源:本研究整理

圖 13 對稱分配 No Skwen Distribution

 正偏態(Positive Skew)：尾部拖向右側的分佈，含極大值 (maximum)，主峰偏向左邊，眾數<中位數<平均值，參考圖 14。

資料來源:本研究整理

圖 14 正偏態分配 Positively Skwed Distribution

 負偏態(Negative Skew)：SK>0，尾部拖向左側的分佈，含有極小值 (minimum)，

主峰偏向右邊，眾數 > 中位數 > 平均值偏右分佈，較大的負值表明有左側較長尾部，參考圖 15。

資料來源:本研究整理

圖 15 負偏態分配 Negative Skwed Distribution

峰度分配(Kurtosis Distribution)

如圖 16 所示，測量峰度高低的量數稱為峰度係數(coefficient of kurtosis)通常採用表示度量數據在分配中心聚集頻率程度，而峰度可分三種型態:

 > 3，資料分布呈現高狹峰（Lepto kurtosis）。

 = 3，資料分布呈現常態峰（Normal kurtosis）。

 < 3，資料分布呈現低闊峰（Platy kurtosis）。

資料來源:本研究整理

圖 16 峰度分配 Kurtosis Distribution

峰度的頻率分佈不能描述實際物理特性的頻率(Pearson，1905)[28]，峰度及偏度可應用分析資料形狀及頻率、對稱性分配之特性。

第四章資料分析與結果

4.1 各財務指標敘述性統計分析

本研究以 2008 年金融風暴為界分前後兩個時期，前期為西元 2005 年至 2008 年共 4 年，後期為西元 2009 年至 2012 年共 4 年。並以變異係數(Coefficient of Variation, CV)分析整體產業，以平均值為基準看其變動大小幅度(%)，以偏態係數 (coefficient of skewness)及峰態係數(coefficient of kurtosis)觀察整體產業之分配輪廓。

而財務指標分別為 ROIC(投入資本報酬率)、CH_S（現金／銷售淨額）、DPACT_S

（折舊及攤銷／銷售淨額）、COGS_S（銷貨成本／銷售淨額）、FA_S（固定資產／銷售淨額）、XSGA_S（管銷費用／銷售淨額）、XRD_S（研究及開發費用／銷售淨額）、INVCH_S

（存貨／銷售淨額）、RECCH_S（應收帳款／銷售淨額）、TXT_S（營業所得稅／銷售淨額）及 AP_S（應付帳款／銷售淨額）綜合彙整以上分析結果參考表 4。

表 4 財務指標敘述統計彙整總表

資料來源:本研究整理

變異係數(CV)之前後期比較:

變異係數(CV)可顯現出資料變動的大小，彙整前後期之變異系數對應分析參考圖 17，後期相較於前期之變異係數%敘述性統計分析參考表 5。

資料來源:本研究整理

圖 17 前期及後期之變異係數 CV(%)比較

表 5 後期相較於前期之變異係數% (CV=σ/μ)敘述性統計分析

資料來源:本研究整理

峰態係數 ( )之前後期比較:

如圖 18，峰度係數之 = 3 為基準點(常態峰)，分析資料分布度量數據在分配中心聚集頻率程度由圖可知雲端產業趨向於低闊峰，詳細分布敘述如下:

 > 3，資料分布呈現高狹峰之財務指標為

TXT_S 營業所得稅/銷售淨額。並且包含後期之 AP_S 應付帳款/銷售淨額。

 = 3，資料分布呈現常態峰: 前期之 XRD_S(研究及開發費用/銷售淨額)。

 < 3，資料分布呈現低闊峰: 包含前後期之 DPACT_S(折舊及攤銷/銷售淨額) 、 INVCH_S(存貨/銷售淨額)、RECCH_S(應收帳款/銷售淨額) 、FA_S(固定資產/銷售淨額)、CH_S(現金/銷售淨額)、XRD_S(研究及開發費用/銷售淨額)、XSGA_S(管銷費用/銷售淨額)、ROIC(投資報酬率)

資料來源:本研究整理

圖 18 前期及後期峰態系數(Bk)比較

偏態係數 (SK)之前後期比較:

如圖 19 所示，偏態係數之 SK= 0 為基準點對稱分佈(No Skew)，由圖各財務指標偏態係數可知，雲端產業趨向於正偏態(Positive Skew)。

資料來源:本研究整理

圖 19 前期及後期偏態系數(SK)比較

雲端產業之 Distribution 分析:

綜合以前後期之正偏態及低闊峰結果參考圖 20，並對照其正常分佈圖( = 3 為常態峰和 SK=0 為正偏態)可知雲端產業呈現穩定成長趨勢。

資料來源:本研究整理

圖 20 雲端產業之分配(Distribution)概似圖

4.2 因素分析(Factory Analysis)

本研究採因素分析其萃取方法採主成分分析法(PRINCIPAL)，並採用複相關係數平方法(SCM)，採用此法可用變數中的一個變數最為基礎變數，用此基礎變數和其他變數之複相關係數的平方之值做為變數共通性，其好處為被分析變數與其他變數間的關係都會考量在內。

4.2.1 因素取樣適當性分析

本研究進行因素分析前，先確定各變數分數間具有共同變異之存在，如此才值得做因素分析。本研究運用 KMO 判斷資料是否適合進行因素分析， KMO 是 Kaiser-Meyer-LOkin 的取樣適當性量數 (Kaiser-Meyer-Olkin measure of sampling adequacy)，當 KMO 值越大，代表變數間的共同因素愈多，越適合進行因素分析。根據 Kaiser 的觀點(Gazzaz et al.，2012)[13]，可以了解變數進行因素分析可行性程度，若 KMO＞0.8 表示很好(meritorious)，KMO＞0.7 表示中等 (middling)，KMO＞0.6 表示普通（mediocre），若 KMO＜0.5 則表示不能接受

（unaccept）。由表 6 及表 7 可看出本研究採用前後期財務指標其取樣適當性量數 (MSA)係數皆大於 0.6，表示該資料分析結果可接受進行因素分析。

前期由表 6 可知其取樣適當性量數(MSA)為 0.709 並符合 KMO>0.5 之條件表示本研究採取財務變數適合並且可接受做進一步的因素分析。

表 6 因素分析之 Kaiser 取樣適當性量數-前期

資料來源:本研究整理

後期由表 7 可知，其取樣適當性量數(MSA)為 0.65 並符合 KMO>0.5 之條件表示本研究採取財務變數適合並且可接受做進一步的因素分析。

表 7 因素分析之 Kaiser 取樣適當性量數-後期

資料來源:本研究整理

4.2.2 決定因素個數

前期如圖 21 所示，前 3 個因素以特徵值大於 1 予以保留，3 個因素累積解釋率為 59%，期代表意義為此 3 個因素可以解釋整體因素能力達 59%可供本研究分析。

資料來源:本研究整理

圖 21 因素分析相關矩陣的特徵值-前期

後期如圖 22 所示，前 3 個因素以特徵值大於 1 予以保留，3 個因素累積解釋率為 59%，期代表意義為此 3 個因素可以解釋整體因素能力達 59%可供本研究分析。

資料來源:本研究整理

圖 22 因素分析相關矩陣的特徵值-後期

4.2.3 因素命名

如表 8 所示，本研究運用因素分析（Factor analysis）進行構面縮減分析，

旋轉方法採因素轉軸法中 Varimax 最大變異數轉換法，它使因素負荷表中變異最大，其目的是將因素負荷矩陣的行做簡化，並將相關係數及因素負荷量的值相乘再做四捨五入後可得大於 0.4 以上的因素用旗標「*」表示做為因素歸納分析參考 (Ford et al.，1986)[11]。

表 8 因素分析經最大變異數法(Varimax)之前期與後期比較表

資料來源:本研究整理

參考表 9 及表 10，本研究將前後期之 3 個因素整理如下:

「知識管理能力」 :因素 1 在前後期有相同顯著變數 XSGA_S(管銷費用／銷售淨額)、

XRD_S(研究及開發費用／銷售淨額)、AP_S(應付帳款／銷售淨額)、COGS_S(銷售成本／銷售淨額)、 CH_S(現金／銷售淨額)，本研究將此因素命名為知識管理能力。

「運用資產管理能力」:前後期之因素 2 有顯著的共同之變數有 DPACT_S(折舊及攤銷／銷售淨額)、FA_S(固定資產／銷售淨額)，本研究將此因素命名為運用資產管理能力。

「供應商與客戶管理能力」:因素 3 之顯著的共同之變數 INVCH_S(存貨／銷售淨額)、

TXT_S(營業所得稅／銷售淨額)，本研究將此因素命名為供應商與客戶管理能力，

RECCH_S(應收帳款／銷售淨額)在前後期有明顯差別，在前期歸納在「運用資產管

理能力」因素上，而後期歸納在「供應商與客戶管理能力」。表 9 前期因素命名

資料來源:本研究整理表 10 後期因素命名

資料來源:本研究整理

4.3 集群分析(Cluster Analysis)

4.3.1 階層式分層法(Hierarchical)-決定群集個數

運用群集分析之華德法最小變異數分析法，判斷 R-Squared、CCC（Cubic clustering criterion）和 Pseudo-F 結果決定群集個數之準則：

Pseudo-F：

Pseudo-F 公式，其中 G 是群集數，T 是平方的總和，

和 PG 是組內的平方總和。由公式可知，集群中 Pseudo-F 數值較大的可以表示較好的集群個數選擇條件。

R-Squared：

代表集群間相異性程度，R-Squared 值大一點較佳。

CCC（Cubic Clustering Criterion）：

立方集群準則主要判別方法為均勻分布值中取出其偏差值較明顯值。

在文檔中巨量資料生態雲端策略集群分析-以財務績效指標探討 (頁 33-0)

三、 研究方法

3.4 資料分析方法

3.4.2 集群分析法(Cluster analysis)

3.5 財務指標之敘述性統計

3.5.1「檢定研究資料是否為常態分配」之敘述性統計方法

3.5.2 「資料分散程度」或「離散程度」之敘述性統計

3.5.3「資料形狀及對稱分配」之敘述性統計

峰度分配(Kurtosis Distribution)

第四章 資料分析與結果

4.1 各財務指標敘述性統計分析

4.2 因素分析(Factory Analysis)

4.2.1 因素取樣適當性分析

4.2.2 決定因素個數

4.2.3 因素命名

4.3 集群分析(Cluster Analysis)

4.3.1 階層式分層法(Hierarchical)-決定群集個數

三、研究方法

第四章資料分析與結果