• 沒有找到結果。

第三章 研究方法

3.1 主成分分析(Principal Component Analysis; PCA)

3.1.3 主成分分析法之計算步驟

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3.1.3 主成分分析法之計算步驟

以下即介紹主成分分析之計算步驟,假設原始資料中存有m 個原始變數與 n 個 觀測樣本,則計算步驟如下:

l 步驟一:整理原始數據變數,將其標準化。

依據原始資料構成一個矩陣X 如下:

𝑋 = $

𝒳&& ⋯ 𝒳&(

𝒳+& ⋯ 𝒳+(, (1)

為避免計算誤差,先將原始數據之平均值化為0 與變異數化為 1,亦可表示為 -µ,𝜎01 = (0,1) 。其標準化如下:

𝒳678 = 9:;><9̅:

: (2)

(2)式其中平均值為 𝑥̅ =A;BC+9:;,標準差為 𝑆6 = EA;BC(9+<&:;<9̅:)F。 l 步驟二:計算並求得相關係數矩陣。

依據變數間之相關係數r ,構成一個相關係數矩陣𝑅 如下:

𝑅 =

⎣⎢

⎢⎢

⎡ 1 𝑟9C9F ⋯ 𝑟9C9N 𝑟9F9C 1 ⋯ 𝑟9F9N

⋮ ⋮ ⋱ ⋮

𝑟9N9C 𝑟9N9F ⋯ 1 ⎦⎥⎥⎥⎤

(3)

(3)式其中的𝑟9N9C為變數𝑥R及變數𝑥&之相關係數,且𝑟9N9C = 𝑟9C9N。 l 步驟三:計算並求得特徵值與特徵向量

將相關係數矩陣R 代入公式如下:

|𝑅 − 𝜆𝐼| = 0 (4)

其中𝐼 為單位矩陣。

可求得特徵值為 𝜆&, 𝜆0, 𝜆Y, ⋯ , 𝜆(,且 𝜆& ≥ 𝜆0 ≥ 𝜆Y ≥ ⋯ ≥ 𝜆(。 (5)

將特徵值帶入(4)式可算得相對應之特徵向量如下:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

𝑎& = \ 𝑎&&

𝑎&(] , 𝑎0 = \ 𝑎0&

𝑎0(] , ⋯ , 𝑎R= \ 𝑎R&

𝑎((] (6)

特徵向量又稱為主成分負荷(Component Loading),其若大於 0.75 代表相關性較 強,若介於0.50 到 0.75 間代表相關性普通,在 0.30 到 0.50 間則代表相關性較弱 (Liu et al., 2003)。林曉芳 (2014) 提出可用陡坡圖做為參考,保留特徵值大於一 知主成份個數,若第一主成份能解釋60%以上即可認定為總指標,或是前幾項主 成份能累積解釋超過70%,亦可足以代表縮減後之行為變數。

l 步驟四:求得特徵型模態 (Eigen mode),與各模態之解釋貢獻率

因為原始變數共有 𝑚 個,故運算後可得到 𝑚 個主成份個數。為簡化大量原始 資料且用較少之變數去解釋原始資料中大部分的變異,篩選出 𝑞 個新變數取代 原先之 𝑚 個變數(q ≤ m)。這 𝑞 個主成份用來解釋原先 𝑚 個變數之變異數 比例,稱為解釋貢獻率如下所示:

𝑅0 = cCdcFd⋯dce

cCdcFd⋯dcf (7)

l 步驟五:選擇最關鍵之主成分

篩選幾個主成分之標準,則依據研究目的作為評估。若目的將原變數轉換成 彼此無相關之主成分,則主成分變數與原變數數量將一致 ;若目的為簡化資料,

則主成分變數數量將小於原變數之個數。主成分分析目標以最少數目之新成分,

使解釋原始資料變異之能力達到最有效。通常選取主成分之方式有以下兩種:

(一) 𝑅0超過某一水準:如果已篩選的主成分能解釋超過75%,則後續篩選的主成 分對變異數的解釋小於5%就不再選取。

(二) 選取特徵值大於 1 的主成份,再藉由特徵值對主成分之個數畫陡坡圖(Scree Plot),若其斜率明顯變化時之點位即為所求。

經篩選後所保留之 𝑞 個新主成分中,特徵值最大之新成分即稱為第一主成分,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

特徵值次大者則稱為第二主成分,依此類推,即可取得對原始資料變異解釋能力 較高之 𝑞 個主成份。

若將(6)式之特徵向量代入原始資料中得線性方程式,各主成份形式如下所示。

第一主成份:𝑃𝐶&= 𝑎&&𝑥&+ 𝑎&0𝑥0+ ⋯ + 𝑎&(𝑥( 第二主成份:𝑃𝐶0 = 𝑎0&𝑥&+ 𝑎00𝑥0+ ⋯ + 𝑎0(𝑥(

第 𝑚 主成份:𝑃𝐶( = 𝑎(&𝑥&+ 𝑎(0𝑥0+ ⋯ + 𝑎((𝑥( (8)

其中𝑃𝐶6為主成分分數 (Component Score)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y