統計方法

第四章研究設計與方法

第三節統計方法

本研究將運用 SAS 9.3 進行資料處理，以 SPSS 22 進行群聚分析及敘述統計，以 Stata 12 軟體進行計量模型分析。本研究除了基本的描述性統計之外，亦運用群聚分析法，分析成年初顯期群聚類別，另外，亦運用多元羅吉斯迴歸分析社會人口學變項與健康行為群聚現象之關係，運用 ordered probit regression 分析健康行為群聚類別與自覺健康狀態之關係，最後運用羅吉斯迴歸分析群聚類別與醫療利用使用與否之關係，以零膨脹負二項迴歸模型 (Zero-inflated negative binomial regression model) 分析與醫療利用次數之關係，以下簡述欲使用之統計方法。

一、描述性統計

根據研究對象在社會人口學變項（年齡、性別、教育程度、居住安排、

婚姻狀況、籍貫、宗教信仰、家戶收入）、疾病狀況、疾病預防知識及自覺健康狀態、個人危害健康行為（交通安全、喝酒、吸菸、嚼檳榔、運動、久坐行為，洗手習慣、體重控制、飲食型態、食物攝取以及飲食習慣）以及醫療利用情形（有無利用急診、西醫門診、住院及其次數）等變項，類別變項以「次數分配」與「百分比」描述，連續變項以「平均值」、「標準差」、「最大值」、「最小值」等加以描述。

二、群聚分析

(一) 群聚分析的意義

本研究將使用二階段群聚分析 (two-step cluster)進行危害健康行為之群聚分群。群聚分析是一種多變量統計分析(Multivariate Statistical

Analysis)的方法，主要是使用一組計量資料，並加以計算個觀察體之相似性 (similarity)或相異性 (dissimilarity)，然後運用各種分析的方法，將這

些觀察體加以分類，依據個體間的相似性將樣本分成數群彼此沒有交集的群聚 (cluster) ，使得同群聚內的個體相似性高，不同群聚的個體相似性低。透過分群後的結果，我們可以分析資料的分佈情形、群聚的形狀或特性等，達到分類、分群的目標。進行群聚分析時，必須先測量個體間的距離(相異性或相似性)和群體間距離兩個步驟（李佩隃，2010；陳正昌，2011）：

1. 測量個體間距離

根據分析目的的差異或變項尺度的不同，用來計算兩個資料點相似性的距離函數(Distance Function)也有所差異，如果距離值越大，表示兩個個體間距離越遠。以下介紹常用來衡量兩變數(X，Y)差異程度的距離量度，並假設每個變數皆觀測 i 個資料點，X={ x1,x2…xi }，Y={ y1,y2…

yi }。

(1) 歐幾里得距離(Euclidean Distance)：

d(X，Y)= ，為最常用的歐氏幾何空間上之

距離定義，惟此量度容易受到變相的單位尺度影響而造成不同的分群結果。

(2) 街道距離（或稱曼哈頓距離Manhattan Distance）：

d(X，Y)= ，與歐氏距離相似，但可以減緩偏離

值(Outliers)的影響。

(3) 坎培拉距離(Canberra Distance)：

d(X，Y)= ，此量度主要測量個資料點差異比例的總和，對於靠近 0 的資料點影響較為劇烈。

(4) 相關係數：以皮爾森績差相關或斯皮曼等級相關等相關係數來衡量

兩個變數的線性關係，再透過（1-相關係數）表示個資料點之間的距離。

2. 群體間距離的量測

將距離相近的個體群聚成一組之後，接下來便可進行合併後群體間距離或組內誤差的計算，並重複以上的程序，直到所有觀察體合併為同一群聚為止。下面介紹常用來計算群間距離的方法，假設有 A 與 B 兩個群聚，表示兩群之間的距離，d_ij表示兩個資料點 i 與 j 之間的距離。

(1) 單一連結法(Single linkage method)，又稱近鄰法(nearest neighbor method)：

d_ab= ，為兩個群聚最靠近對方的兩點之間的距離。

(2) 完全連結法(Complete linkage method) ，又稱遠鄰法(farthest neighbor method)：

d_ab= ，為兩個群聚最遠離對方的兩點之間的距離。

(3) 平均連結法：

d_ab= ，為群聚 A 所有資料點與群

聚 B 所有資料連結的平均距離，nA與 nB分別表示群聚 A 與群聚 B 的樣本數。

(4) 華德法(Ward’s method)，或稱華德最小變異數法(Ward’s minimun variance method)：

d_ab= ，以變異數分析

來定義群間距離，在每一個分群步驟中試圖找出兩群，使這兩群的組

內變異平方和最小。

(二) 群聚分析的型式

群聚分析透過不同的相似性原則，把相似的資料點群聚在一起，接著再透過計算群間差異程度，決定最後的分群數目。基於對相似性的不同定義和不同的群間距離計算方法的選擇，最常見的群聚分析方法大致上可分為：分割式分群演算法與階層式分群演算法以及二階段群聚分析三類類（陳正昌，2011）。

1. 分割式分群演算法

分割式分群演算法最常用的為 K 平均法(k-mean method)，主要將資料分為 K 群，使用者必須先決定所要分割的群聚數目 K，接著進行分群，

遂以資料間的距離作為評估標準。其步驟如下：

(1) 依預先假定的群聚個數k，選擇K個中心點（種子點，seed）。

(2) 計算每個觀察體到各中心點的距離，並將其分派到最近的一群。

(3) 重新計算新的中心點，並重新分派每個觀察體到適當的群聚。

(4) 重複步驟 2、3，直到無法重新分派為主。

K-means 以群聚的中心點來代表所有資料點，所以能減少大量的計算。然而 K-means 除了受限於必須先知道群聚數目才能進行運算，亦只能運用在連續變項的探討。

2. 階層式分群演算法

階層式分群法是將資料透過合併或分離的過程，以樹狀架構呈現出來的演算法，分為聚合法 (Agglomerative) 與分裂法 (Divisive) 兩種。前者由下而上，先將每一筆資料視為一個群聚，然後每次將特性最相近的兩個群聚合而為一，使群聚數目越來越少，直到聚合成一個群聚為止。分裂法則採由上而下的方式，先把全部資料集看成一個大的群聚，然後逐次分裂，切割相似度最低的連結，成為兩個較小的群聚，直到將所有資

料分裂到單獨一個群聚為止。

階層式分群演算法雖然不需事先知道群聚數即可進行分群分析，但一旦資料數目過於龐大，其運算成本也隨之增加，對於已歸併錯誤的樣本也無法再進行變動與調整，為其主要的限制之一。

3. 二階段群聚分析

考量前述兩種分群方法的優點與限制，二階段群聚分析的出現便能結合兩者的優點與彌補其不足，二階段群聚分析藉由兩階段的方式完成將資料分群的動作，包含：準群聚步驟 (Per-Cluster step) 以及群聚分析。

(1) 準群聚步驟

此步驟使用階層式分群演算法中針對大樣本產生的

BIRCH(Balance Iterative Reducing and Clustering using Hierarchies)演算法，將原始資料分成許多子群聚(Sub-Cluster)。

(2) 群聚分析

此階段以對數函數(log)作為距離測量公式，利用階段一的結果對每個樣本再次進行群聚分析，對在一定範圍內的每個群聚成員計算 AIC 或 BIC 值，幫助決定群聚數目，然後使用具合法將一開始的子群聚逐漸合併成較大的群聚。

相較於階層群聚法只能始於小型資料庫，而 K-means 只能用在連續變數的限制，二階段群聚分析可以處理大樣本資料，其所使用之演算法亦能同時處理連續變項與類別變項，另外還能自動選擇最佳的群聚數目（李佩隃，2010；陳正昌，2011）。

本研究將成年初顯期族群依其健康行為從事型態進行分類，因探討之危害健康行為包含類別以及連續變項，故採用二階段群聚分析 (Two-Step Cluster Analysis) 並以 BIC (Bayesian Information Criterion) 距離測量值之比例數值大者來決定群聚個數。在群聚類別之命名上，本研究選取二階

段群聚分析中變數重要性大於 0.50 之危害健康行為，將危害健康行為依從事程度之健康傾向將其排序，統一定義為分數越高表示從事越健康之行為傾向，並將行為標準化，並使用標準化數值之平均值進行危害健康行為標準化分數折線圖之繪製，觀察不同群聚類別在危害健康行為之從事傾向，以進行命名之動作。

三、獨立樣本 T 檢定

因本研究主要探討健康行為群聚與醫療利用次數及自覺健康狀況之關係，故在進行群聚分析前，會將危害健康行為之遺漏值予以刪除。待統計分析完成時，本研究使用獨立樣本 T 檢定，探討危害健康行為遺漏值與否，其社會人口學變項、醫療利用次數及自覺健康狀況是否存在差異。獨立樣本 T 檢定適用於欲分析變項為連續變項，若為類別變項，則使用卡方檢定進行分析及探討。

四、雙變項分析

為了驗證群聚分析之群聚在危害健康行為間是否具有異質性，本研究將危害健康行為經過群聚分析將人分群之後，接著對不同群聚在各項危害健康行為間進行相關性驗證。因危害健康行為之變項類型有所不同，

故將行為依變項類型而進行不同的統計方式：對於名目尺度 (nominal) 之變項，將會使用卡方檢定進行相關性驗證；對於序位尺度 (ordinal) 以及等距尺度 (interval)，使用 Kruskal-Wallis Test (K-W 檢定) 進行驗證，

對於等比尺度 (ratio)，則使用變異數分析 (ANOVA) 進行分析。此外，

因卡方檢定適用於探討兩個類別變數的相關，本研究也使用卡方檢定來驗證社會人口學變項與不同健康行為群聚是否存在關係。

五、羅吉斯迴歸與多元羅吉斯迴歸 (Multinomial Logistic Regression) 本研究將運用羅吉斯迴歸或多元羅吉斯迴歸探討為健康行為群聚之相關因素。羅吉斯迴歸分析適用於依變項為二元類別資料的情形，若依

變數的類別超過兩個以上，則稱為多元羅吉斯迴歸分析，本研究使用羅吉斯迴歸來探討有無醫療利用的因素，依變項為醫療利用（急診、西醫門診以及住院），自變項為社會人口學變項，並將結果為顯著之變項放入零膨脹負二項迴歸模型之 inflate 變項中進行探討。因健康行為群聚為三類，故本研究使用多元邏輯斯迴歸分析社會人口學變項對於健康行為群聚之關係。

六、 Ordered probit regression model

在探討健康行為群聚對自覺健康狀況之關係時，因自覺健康狀況為三類之序位 (ordinal) 變項，故使用 Ordered probit regression model 進行分析，其中自變項為健康行為群聚及社會人口學變項，依變項為自覺健康狀況，控制變項為社會人口學變項。

七、零膨脹負二項迴歸模型 (Zero-inflated negative binomial regression model)

本研究將運用計數資料模型分析健康行為群聚現象與醫療利用（急

在文檔中健康行為群聚類別與自覺健康狀況及醫療利用之關係—以臺灣18~25歲成年初顯期族群為例 (頁 80-87)

第四章 研究設計與方法

第三節 統計方法

第四章研究設計與方法

第三節統計方法