統計分析(Statistical analysis)

第二章研究方法

2.5 統計分析(Statistical analysis)

本研究使用 SPSS19.0 進行統計分析，分析方法主要分為兩大類，描述性統計與推論性統計。

2.5.1 描述性統計分析(Descriptive analysis)

當我們的實驗結果資料得到後，欲做進一步的統計分析前，尚須了解資料的長相，方可選擇適當推論性統計方法進行分析，資料的長相分佈如何觀察判定，

靠的就是描述性統計分析的工作，隨著資料的不同，資料也會有不同的測量尺度，

當然描述資料的方法也就有所不同，下表 2.3 簡單列出本實驗之變數類型。

表 2.3 本實驗變數類型

變數名稱 變數類型

依變數

是否罹患梅尼爾氏症 類別, 名目尺度 (nominal scale)

自變數

性別類別, 名目尺度 (nominal scale)

年紀連續, 等比尺度 (ratio scale)

年紀區間 (自定區間) 類別, 等比尺度 (ratio scale)

居住都市化程度 類別, 名目尺度 (nominal scale)

居住地區 類別, 名目尺度 (nominal scale)

月收入 (自定區間) 類別, 等比尺度 (ratio scale)

合併症 類別, 名目尺度 (nominal scale)

實驗組及對照組在各社會人口特徵及合併症上的分佈情形以及追蹤三年罹患梅尼爾氏症的分佈情況都是使用描述性統計進行分析，由表 2.3 可以看到，變數形態幾乎皆是類別形式，因此以最普遍使用的「個數」及「百分比」說明在實驗組及對照組中基本社會人口特徵中的變數分佈和各合併症的罹患分佈情況，至於年紀變數由於是連續變數，因此採用「平均數」以及「標準差」來了解資料的集中和分散趨勢。

2.5.2 推論性統計分析(Inferential analysis)

1. 卡方檢定(Chi-square test)

通常用於檢定兩個類別(名目)變數之間是否有關聯性，卡方檢定(Chi-square test)是實務上最常使用的方法之ㄧ，1900 年由 Karl Pearson 所提出，卡方檢定的主要原理是觀察樣本資料的「觀察次數」分佈與「期望次數」分佈是否相符合，

因此針對這樣的檢定結果只會有「是」、「否」兩種情形，所以一般都使用單尾檢定來判斷是否接受虛無假設。

卡方檢定的用途很廣，大致分為「適合度檢定」以及「獨立性檢定」兩大類，

適合度檢定是檢驗某組資料是否符合某種分配，而獨立性檢定則是驗證兩組資料是否有所關聯，獨立性檢定中會令 H₀ 虛無假設表示兩變數間互相獨立，而 H₁ 對立假設則是假設兩變數間有所關聯，當觀察次數與期望次數之間的差異越大時，

其檢定的統計量坐落於拒絕域的機會就越高，表示接受 H₁的機會就越高，兩組變數有所關聯的機會越高；反之當觀察次數與期望次數之間的差異越小時，檢定統計量坐落於拒絕域的機會就越低，兩組變數獨立性就越高。由於此種方法的檢定通常會將資料列示為列聯表(contingency table)或交叉表(cross table)的形式呈現，因此又稱為列聯表檢定(test of contingency table)。

本研究使用此方法檢定了實驗組與對照組在各社會人口特徵變項、不同合併症以及有無罹患梅尼爾氏症之間的相關性。

2. 存活分析(Survival analysis )

存活分析是醫學上常被廣泛使用的統計分析方法，其結果主要為時間變項 (time)，存活分析的資料主要有兩個特質，首先，若探討的資料為手術後的存活時間，那麼這類型的資料通常不會呈現對稱的常態分佈，這是由於手術後數月內，

病人常會處於高危險期，死亡率相對較高，因此通常呈現的是右斜的資料分佈型態，次之的資料特性在於這類型的資料經常有些是無法獲知的，按事件的發生與否而將資料分為兩類，完整資料(complete data)以及設限資料(censored data)，完整資料定義為事件已發生的個案，其計算方式是從起始點(initial point)到事件 (event)發生點的時間，在本研究中即為 2003 年初至 2007 年底這段時間，第一次診斷出患有慢性腎臟病的病患即設為起始點時間，事件發生點則為追蹤三年間第一次觀察到患有梅尼爾氏症的時間，設限資料則定義為觀察其間事件位發生的個案，其計算方式同樣是以起始點開始至追蹤到的時間(follow-up time)，假若這期間內事件都未發生即定義為設限資料，這類的資料常見於失去追蹤者(例如轉院) 或是直到研究結束仍未患有疾病的患者。因此，這類型的追蹤資料各有其特色，

不論在分佈與存活時間上，所以需要使用存活分析來處理這類資料偏斜以及不完整觀察值的問題。

圖 2.2 存活分析之完整資料及設限資料示意圖。

圖片說明：每名個案自 2003/1/1 至 2007/12/31 期間開始追蹤，各別追滿三年，

個案 A 自 2003 年初開始追蹤至 2005 年底滿三年事件剛好發生，個案 B 自 2005 年開始追蹤至 2008 年滿三年事件尚未發生，個案 C 自 2006 年開始追蹤尚未滿三年即失蹤，個案 D 自 2004 年開始追蹤 2007 年事件發生，個案 E 自 2006 年開始追蹤至 2009 年滿三年事件發生，個案 F 自 2004 年開始追蹤至 2005 年事件發

生，故此示意圖中共 4 名個案(A、D、E、F)的存活資料為完整資料，2 名(B、

C)為設限資料。

3. Kaplan-Meier 及對數等級檢定(Log-rank test)

Kaplan-Meier 為常用來估計存活曲線的方法，其利用每件事件發生的時間點及設限點來設定區間並計算存活率、死亡率及涉險率並製作存活曲線，於本研究中事件的發生則是罹患梅尼爾氏症的時間，其所繪製的存活曲線能讓我們了解在實驗組及對照組兩種不同組別之間的存活曲線分佈，當繪製出這兩組組別的存活曲線後，更期望可以比較這兩組不同組別的存活狀況是否有差異，若以肉眼直接對所繪製出的圖表進行比較，不但有失專業更失去了準確性，因此使用對數等級檢定(Log-rank test)對兩組(有、無慢性腎臟病)間是否具有差異性進行檢定。

而統計假設設定虛無假設 H0為兩條存活曲線相同，對立假設 H1為兩條存活曲線不相同，在第一天時會得到有、無慢性腎臟病的病患存活與死亡個數，相當於一張 2*2 的卡方分析表，進而得到一個卡方數值，代表著在第一天時兩組在死亡上是否有差異，第二天亦會得到有、無慢性腎臟病的病患之存活個數及死亡個數，代表著在第二天時兩組在死亡上是否有所差異，以此類推會得到觀察時間三年的 1200 張卡方分析表及 1200 個卡方數值，此時使用 Cochran-Mantel-Haenszel 統計方法將這些列聯表結合並得到一個卡方數值，當組別為兩組時，這個卡方數值須服從自由度為 1 的卡方分配，此時假如算出的卡方數值大於 3.84，意識在雙 尾情況下 p value 小於 0.05，那麼即有充分的證據可以推翻虛無假設，說明兩條 存活曲線有顯著差異。

4. Cox proportional hazard regression model

在做存活分析時，Kaplan-Meier 的使用常會針對最重要的影響因素繪製存活曲線並使用對數等級檢定比較在此因素影響下，兩存活曲線是否有顯著的不同，

套用於本研究中即是探討有慢性腎臟病的病患與沒有慢性腎臟病的病患在存活 (沒有罹患梅尼爾氏症)曲線上是否有所不同，然而，Kaplan-Meier 方法的使用只針對了單一類別型的解釋變數進行分析，若當解釋變數大於兩個以上或是解釋變數不為類別型態時，Kaplan-Meier 即不適用，在真實情況下，解釋變數大於兩個的情況其實相當的多，以本研究為例，欲探討是否罹患慢性腎臟病的病患相較於沒有罹患慢性腎臟病的病患有更高的風險罹患梅尼爾氏症，在探討兩個疾病之間的風險關係時，其間必會有許多因素亦會影響梅尼爾氏症的罹患，這些因素即為干擾因素，礙於這個原因，多個干擾因素須一併進行考量時，則會利用統計模式將這些關係使用數學方程式連結起來，Cox model 即為最常見的一種存活分析模式，亦為本研究所使用的重點統計方法，其數學方程式如下：

由上列的公式可以知道 h0(t) 代表在某個時間點下，所有解釋變數皆為 0 時，

即 x1 =x2 = … = x k = 0 時，做為模式建構的基準，並隨著時間變動保持著相同的 值，也就是不受到任何共變數影響下病人的風險值，而 h(t)則代表在某個時間點 下，給定解釋變數的事件風險比(hazards ratio)。

在文檔中慢性腎臟病患罹患梅尼爾氏症的風險: 台灣健保資料庫研究 (頁 43-47)

第二章 研究方法

2.5 統計分析(Statistical analysis)

第二章研究方法