• 沒有找到結果。

非階層集群分析 集群分群結果 (K-Means)

研究設計

rvey) 所觀察到東西,是基於 因素,因此可能並不完整。

。本研究有別於上述傳統統計方法 tion),參考 Tang & Liou(2010)

數和其背後的管理意涵萃取出多個因素構面,再透過二階段集群分析,將觀察樣本 數國家分為相關群組的策略族群,進而瞭解與預測台灣雲端產業定位,同時可以預測其 它群組國家行為與策略,以提升產業策略制定與國家競爭力。

資料收集 收集雲端運算電子準備度相關變數資料

因素分析 因素構面縮減,萃取特徵值>1

集群分析 決定集群分群數 (華德法)

圖 2 研究方法架構流程圖 資料來源:本研究整理

3.2 雲端運算產業電子化準備度指標建構:

3.2.1 雲端運算電子化準備度指標建構

由前面的文獻探討,本研究以電子準備度(e-readiness)來衡量各國雲端運算產業量化 指標,之所以選擇主要是其電子準備度的架構是依造基本定義「能夠追求價值創造機

,另建立在下列的假設條件下:如果能建立存取(access) 和能力(capacity)的環境下,

產生追求其價值創造。透過其電子準備度的研究架構可以突顯出特別應用意義,藉 算特別機會(Choucri, 3.2.2

市場導向的價值評估方式,主要原因為雲端運算服務價值提供取代過去代工思維,

端一樣也只政府對政府(G-G:government to ent to business)、政府對民眾(G-C:government to citize

含有新指標以因應環境的變化 1.網際網路主機 (internet host) 2.經濟自由 omic Freedom) 3.政治自由度 (political freedom) 4.國家風險 (country risk

會」

可以

由特別存取(access) 和能力(capacity)相關條件下,能夠產生雲端運 et al., 2003)。

變數選擇:

如硬體只是消費者最想得服務工具之一,和雲 government)、政府對企業(G-B: governm

n)最得服務的工具平台,在應用在 G-G、G-B、G-C 思維中思考能提供什麼價值和 創新模式。(Cavusgil, et al., 2004)提到什麼市場是吸引產業最佳的環境?由於國際市場不 同的經濟和商業環境、成長率、政治穏定度和不同消費能力將造成不同的市場吸引力,

本研究採用此 29 個變數分類 (如表 3-1) ,主要的原因為 29 個變數含概電子準備度 105 變數的次指標以便於資料的收集,加上而這 29 個變數來源是經過相關學者文獻探討的 實證研究,同時

度 (index of econ

survey)等變數而成。本研究主要研究變數共有存取(access) 和能力(capacity) 二大變 數產生雲端運算機會(opportunities),而二大變數下又分為基礎建設、服務、社會、經濟 和政治等五大變數。而基礎建設、服務、社會、經濟和政治之下又有不同子項目:

表 7 雲端運算產業電子準備度變數表 基礎

建設

1.收音機數目(RDIOSETS) 2.電視機數目(TVSETS) 3.鐵路長度 (RAILWAYS) 4.網際網路主機(INTENET) 5.電話線數

(PHONEDEN) 6.機場數目(AIRPORTS) 7.鋪設道路(PAVDROAD) 存取管道

服務 1.電力提供(ELECPROD) 2.加值服務業(SRVCGDP) 3.報紙發行量 (NEWSCIRC) 4.電信投資(TLCOMINV)

社會

1.總人口數(POPULATION) 2.都市人口數(URBANPOP) 3.都市化 (URBANPOP) 4.教育占公共經費支出比重(PUBEXPED) 5.平均壽 命(LIEFXPCT) 6.高等教育比重(COLLGEDU) 7.成人識字率 (LITERACY) 8.失業率(UNEMPLOY)

經濟

RITAGE) 2.人均 GDP(GDPPC) 3.GDP 成長率 (GD

(CEN

1.經濟自由度(HE

PGRWTH) 4.能源消耗(ENRGYCON) 5.商用能源消耗 RGCNCON) 6. 投資占國內生產毛額比重(INVSTGDP) 能力

政策 1.政 .貿易開放

度(O 均美國進口(USIMPPC)

治自由度(FRDMHOUS) 2.國家風險(CNTRYRSK) 3 PENNESS) 4.人

資料來源:本研究整理

3.3 資料分析方法

的兩種方法是: 探索性因素分析(Exploratory factor analysis, EFA)

,也不知因素與變數之間的關係或數目,是

與驗證性因素分析 (confirmatory factor analysis,CFA),說明如下:

(1)探索性因素分析: 通常無明確的理論依據 在

析(principal component analysis ,

將資料精簡以便後續的集群分析。本研究也採取此法,藉由萃取變數之間的共同因 素來縮減構面,並進一步對這些共同因素進行命名,來解釋其與原始變數之間的關係。

(2)驗證性因素分析: 通常有一定理論(theory)或前人的研究(past research)、研究成果判斷 (judgment of the researcher)為依據,先對因素數量和因素與變數之間的關係做出合理的假 設,再依收集到的資料,檢驗這種假設驗證模型是否與前人研究有相同因素或其有效

(2) 模式適合性評估: Kaiser MSA(Measure of sampling adequacy) 分析,當 MSA>0.5 表 示適合因素分析。

(3) 決定共同因素的數目: 選取因素個數的準則是以特徵植大於 1 來選取。

(4) 最大變異法的正交轉軸 : 而轉軸方法可以分為正交轉軸(orthogonal rotations) 和斜 交轉軸(oblique rotations)兩種:1.正交轉軸的方法因素間没有相關 2.斜交轉軸因素間 有關聯性,其缺點為,透過假設知道之間關係,這是比較大問題所在,故此方法存 在極大爭議點。

而為了方便命名,本研究進行最大變異法的正交轉軸,轉軸後將因素負荷量大於 0.50 的變數給予保留。

(5) 共同因素代表的意涵與命名: 在做因素命名時,每一個變數解釋與每個因素之間的

(一 (Euclidean Distance) (二

(三 ity-Block Distance) 二、

第一步將距離近的兩個合成一群後,再加以計算群組與群組的距離,方法如下:

ingle linkage):最近法。

plete linkage):最遠距離的方法。

s minimum variance ) :以變異數方法來定義各群組之間的

、非分層法(Nonhierarchical)

認定,決定要將群體分成幾群,最常用的方法為 K 平均數法

) 歐式距離平方法(Squared Euclidean Distance) ) 城市街道距離(C

(三) 平均法(average linkage):平均距離法。

(四) 中心法(centroid)

性為程式執行速度較快;優點為可以避免偏遠樣本誤差對整體分群影響,但缺點為需要

配所有的資料點。此步驟會反覆執行到每一個 機選擇的初始中心點不恰當時,會造成分群效率不佳,降低分群可靠

。其群聚結果很容易被雜訊(Noises)或是離群值(Outliers)所影響 。 三、

統計分析軟體 SAS 提供「擬似 (Pseudo F Statistic 、「R-square」、「立 (Cubic Clustering Criterion,CCC)和分群之後的樣本數等作為集群個數判斷 標準。

2.「R-square」為集群之間的變異與總變異的比例。指標的判斷方式是觀察在各個集 群個數下指標的改變量,改變量大,適合分群。

3),區域 CCC 值最高點所指的集群個數為最 域值,有區域極值的位置適合分群,而集群 決定之。

先指定集群個數。非分層分析法適合大樣本的分析。在使用此方法之前,必須先決定分 群結果的群聚數量,也就是定義 K 的值,當 K-means 初始化時,會先任意選擇 K 個資 料點做為群聚的中心點,接著依據所有資料點與每一個群聚中心點的距離,將所有的資 料點分配到各自最接近的群聚,然後再從新產生的每一個群聚中,找出新的群聚中心 點,並依照新產生的群聚中心點來重新分

群聚中心都不再改變為止。K-means 以群聚的中心點來代表所有資料點,所以能減少大 量的計算,但是隨

兩階段法 (two step)

為結合分層法與非分層法二種方式,可以用任何一種分層法判斷集群數目,再用非 分層法進行集群分析,主要的目的是改善第一階段華德法的缺點,若二個個體分在同一 群,之後就會永遠分在同一群,進而採用第二階段的 K-mean 法可以彌補這種缺點。以 本研究為例:希望可以將樣本資料做最合適的分群,而且群組的特性在事前是未知,而 能將有同樣特性、有同樣潛力為雲端運算產業的競爭者分在同一群組,因此採用集群分 析法做為本研究的分群統計方法。

第一階段:華德法分群,決定分群數目。

第二階段:以 k-mean 法進行集群分析。

3.3.4 集群個數評量指標

F 值」 ,PFS)

方集群準則」

1.「擬似 F 值」為集群間變異均方與集群內變異均方的比例(sharma 1996) ; 觀察在 各個集群下指標的區域值,有區域極值的位置適合分群。

3.「CCC 集群準則」(CCC)為(Sarle 198 佳的分群個數,觀察在各個集群下指標的區 個數通常以 CCC 集群準則

4.分群之後的樣本數:分群之後的樣本數是有意義的( cluster without a lot of small clusters)。

相關文件