醫學研究部 生統小組 徐倩儀
研究統計分析的介紹與應用 (進階)
1
統計方法-1
資料 屬性
兩群 獨立樣本
三群以上
獨立樣本 相關 前後測 比較
連續
資料 Independent t test ANOVA Pearson
Correlation Paired t test 序位
資料
(連續無 母數)
Wilcoxon Rank Sum test (Mann- Whitney U test)
Kruskal- Wallis test
Spearman's rho
Wilcoxon signed-rank
test
類別 資料
Chi-square (χ2 ) test
Fisher’s exact
Yate’s 校正數
Chi-square (χ2 ) test
McNemar’s test
自變項/依變項
3
預測
自變項 推論
Independent variable
研究者操弄的變數
研究差異來源
因 果
依變項
Dependent variable
被觀察記錄的變數
被預測的變項
隨自變項改變而改變
結果變項(Outcome variable)
統計方法-2
資料屬性 統計方法
自變項(X)
依變項(Y)
連續資料 類別資料
連續資料
線性回歸(Linear regression)
類別資料
邏輯回歸(Logistic regression)
連續資料 類別資料
存活率分析
(Cox Proportional Hazard Regression Model, Cox.
Model)
迴歸分析(Regression)
5
Linear Regression
Logistic Regression
依變項
(Y) 連續資料 類別資料
自變項 (X)
1個自變項 多個自變項 1個自變項 多個自變項 簡單迴歸分
析 (Simple Regression
Analysis)
複迴歸分析 (Multiple Regression
Analysis)
單變數邏輯 斯迴歸分析 (Univariate
Logistic Regression)
複邏輯斯迴 歸分析 (Multivariate
Logistic Regression)
可為連續或類別資料 可為連續或類別資料
類別資料需設定虛擬變數
(Dummy variable) 類別資料需設定參考組
Linear Regression-1
簡單迴歸分析
範例一:年齡與舒張壓的相關性(連續 vs 連續)
範例二:性別與舒張壓的相關性(類別 vs 連續)
範例三:年齡分層與舒張壓的相關性(類別 vs 連續)
年齡分層共三組,需設定虛擬變數
複迴歸分析
範例四:年齡、性別及BMI值與舒張壓的相關性
Linear Regression-2
簡單迴歸分析
範例一:年齡與舒張壓的相關性(連續 vs 連續)
自變項(X)與依變項(Y)皆為連續資料
» 可互換,但分析結果模式不同
7
範例一:年齡與舒張壓之相關性
B 95%CI p value age 0.49 0.33 0.66 <0.001**
Regression. *p<0.05, **p<0.01
範例一(A):舒張壓與年齡之相關性 B 95%CI p value DBP 0.76 0.51 1.00 <0.001**
Regression. *p<0.05, **p<0.01 ID age DBP
01 70 96 02 76 86 03 84 86 04 85 82 05 47 80
… … …
… … …
61 52 85 62 55 97 63 71 94 64 56 87 65 70 96
範例一SPSS步驟-1
1
範例一SPSS步驟-2
9
3 2
範例一SPSS步驟-3
4
範例一SPSS步驟-4
11
範例一SPSS步驟-5
範例一:年齡與舒張壓之相關性
B 95%CI
p value
constant 58.87 49.56 68.18age 0.49 0.33 0.66 <0.001**
Regression. *p<0.05, **p<0.01
範例一SPSS步驟-6
13
簡單迴歸分析(連續 vs 連續)
自變項、依變項互換,但分析結果模式不同
1
2 依變數
自變數 互換
範例一SPSS步驟-7
範例一(A):舒張壓與年齡的相關性(連續 vs 連續)
範例一(A):舒張壓與年齡之相關性
B 95%CI
p value
DBP 0.76 0.51 1.00 <0.001**Regression. *p<0.05, **p<0.01
範例一SPSS步驟- 8
15
範例一:年齡與舒張壓之相關性 B 95%CI p value age 0.49 0.33 0.66 <0.001**
Regression. *p<0.05, **p<0.01
範例一(A):舒張壓與年齡之相關性 B 95%CI p value DBP 0.76 0.51 1.00 <0.001**
Regression. *p<0.05, **p<0.01
年齡每增加1歲、
舒張壓增加 0.49mmHg
舒張壓每增加1mmHg、
年齡增加0.76歲
Linear Regression-3
簡單迴歸分析
範例二:性別與舒張壓的相關性(類別 vs 連續)
16
ID sex DBP
01 0 96
02 1 86
03 1 86
04 1 82
05 1 80
… … …
… … …
61 0 85
62 0 97
63 0 94
64 0 87
65 0 96
二元類別變項
(0 & 1)
範例二SPSS步驟-1
17
範例二SPSS步驟-2
範例二SPSS步驟-3
19
範例二:性別與舒張壓之相關性
B 95%CI
p value
sex -10.77 -14.96 -6.59 <0.001**Regression. *p<0.05, **p<0.01
類別資料與連續資料解釋方式不同
1.sex設定值,sex=0(女性)、sex=1(男性) 2.男性相較於女性,舒張壓低10.77mmHg
Linear Regression-4
簡單迴歸分析
範例三:年齡分層與舒張壓的相關性
(類別 vs 連續)年齡分層共三組,需設定虛擬變數
ID age_gp DBP
01 2 96
02 2 86
05 0 86
04 2 82
… … …
… … …
62 1 97
63 2 94
64 1 87
65 2 96
age_du1 age_du2
0 1
0 1
0 0
0 1
… …
… …
1 0
0 1
1 0
0 1
Dummy variable 只能用 2 個數字
(0 & 1)
範例三SPSS步驟-1
21
2 1
範例三SPSS步驟-2
範例三SPSS步驟-3
23
範例三:年齡分層與舒張壓之相關性
B 95%CI p value age<49
49-63 12.56 7.94 17.19 <0.001**
age>63 15.92 10.56 21.28 <0.001**
Regression. *p<0.05, **p<0.01
範例三:年齡分層與舒張壓的相關性
(類別 vs 連續)年齡分層共三組,需設定虛擬變數
Linear Regression-5
複迴歸分析
範例四:年齡、性別及BMI值與舒張壓的相關性
ID age sex BMI DBP 01 70 0 23.2 96 02 76 1 23.3 86 03 84 1 23.4 86 04 85 1 23 82 05 47 1 23.6 80
… … … … …
… … … … …
61 52 0 23.2 85 62 55 0 24.4 97 63 71 0 24.6 94 64 56 0 23.7 87 65 70 0 24 96
範例四:年齡、性別、BMI等因子與舒張壓之相關性 Univariate
Regression Analysis
Multiple Regression Analysis
B 95%CI p value B 95%CI p value
age 0.49 0.33 0.66 <0.001** 0.31 0.19 0.42 <0.001**
sex -10.77 -14.96 -6.59 <0.001** -4.50 -7.50 -1.51 <0.001**
BMI 9.88 7.66 12.11 <0.001** 6.63 4.53 8.73 <0.001**
Regression. *p<0.05, **p<0.01
範例四SPSS步驟-1
25
2 1
範例四SPSS步驟-2
範例四SPSS步驟-3
27
範例四:年齡、性別及BMI值與舒張壓的相關性
範例四:年齡、性別、BMI等因子與舒張壓之相關性
Univariate Regression Analysis Multiple Regression Analysis B 95%CI p value B 95%CI p value age 0.49 0.33 0.66 <0.001** 0.31 0.19 0.42 <0.001**
sex -10.77 -14.96 -6.59 <0.001** -4.50 -7.50 -1.51 <0.001**
BMI 9.88 7.66 12.11 <0.001** 6.63 4.53 8.73 <0.001**
Regression. *p<0.05, **p<0.01
標準化係數:
1.解釋不同
調整年齡及性別後,BMI 每增加一個標準差、舒張 壓增加0.501個標準差
2.可比較影響力
BMI值影響最大
調整年齡及性別後,BMI 每增加1個單位(kg/m2)、
舒張壓增加6.63mmHg
Logistic
Regression
Logistic Regression-1
勝算比(Odds Ratio, OR)
相關強度
依變項(Y)
二元類別變項-0&1
自變項(X)個數不同
單變數邏輯斯迴歸分析
範例五:年齡與高血壓的相關性
範例六:性別與高血壓的相關性
複邏輯斯迴歸分析
範例七:年齡、性別及BMI值與高血壓的相關性
29
Logistic Regression-2
單變數邏輯斯迴歸分析
範例五:年齡與高血壓的相關性
30
ID age HT 01 70 1 02 76 0 03 84 0 04 85 0
… … …
… … … 62 55 1 63 71 0 64 56 0 65 70 1
依變項
二元類別變項
(0 & 1)
範例五SPSS步驟-1
31 1
範例五SPSS步驟-2
2
3
範例五SPSS步驟-3
33
4
5
範例五SPSS步驟-4
範例五:年齡與高血壓的相關性
範例五:年齡與高血壓之相關性
B OR 95%CI
p value
age 0.05 1.05 1.004 1.099 0.034*Logistic regression. *p<0.05, **p<0.01
Logistic Regression-3
單變數邏輯斯迴歸分析
範例六:性別與高血壓的相關性
35
ID sex HT 01 0 1 02 1 0 03 1 0 04 1 0
… … …
… … … 62 0 1 63 0 0 64 0 0 65 0 1
類別資料
範例六SPSS步驟-1
1
範例六SPSS步驟-2
37
2
3
4
範例六SPSS步驟-3
38
範例六:性別與高血壓之相關性
B OR 95%CI p value sex
male ref.
female -0.26 0.77 0.29 2.09 0.612 Logistic regression. *p<0.05, **p<0.01
範例六:性別與高血壓的相關性
Logistic Regression-4
複邏輯斯迴歸分析
範例七:年齡、性別及BMI值與高血壓的相關性
39
ID age sex BMI HT 01 70 0 23.2 1 02 76 1 23.3 0 03 84 1 23.4 0 04 85 1 23 0
… … … … …
… … … … …
62 55 0 24.4 1 63 71 0 24.6 0 64 56 0 23.7 0 65 70 0 24 1
範例七SPSS步驟-1
範例七SPSS步驟-2
41
範例七:年齡、性別、BMI等因子與高血壓之相關性
Univariate Regression Analysis Multiple Regression Analysis OR 95%CI p value OR 95%CI p value age 1.05 1.00 1.10 0.034* 1.02 0.97 1.08 0.374 sex
male ref. ref.
female 0.77 0.29 2.09 0.612 5.33 1.02 27.8 0.047 BMI 5.60 2.19 14.34 <0.001** 11.18 2.75 45.4 0.001**
Logistic regression. *p<0.05, **p<0.01
範例七SPSS步驟-3
42
存活分析
43
概論-1
依變項(Dependent variable, Outcome variable)
事件發生時間(time-to-event)的資料
時間長度
時間原點(起始時間點)
進入研究時間點、確診癌症時間點
事件發生時間點
疾病發生時間點、死亡時間點
事件(event)
死亡
罹病
復發
提早退出試驗
概論-2
完整資料(Complete data)
45
設限資料(Censored data)
Subject
A B C D E
2000 2002 2004 2006 2008 2010
Dead
Dead Dead
Dead Dead
Calendar Years
Subject
A B C D E
2000 2002 2004 2006 2008 2010
Dead Dead
Calendar Years
Lost to follow-up alive
Lost to follow-up
概論-3 時間計算
46
Subject
A B C D E F G
80 81 82 83 84 85 86 87 88 89 90
Calendar Years
日曆時間(Calendar Time):
從1980到1990追蹤7位有肺癌的個體情況
(●initial follow-up, × death, ○ alive)
7+
6 11+
9 5 6+
7+
Survival Time
病患研究時間(Patient time):
從1980到1990追蹤7位有肺癌的個體情況
(●initial follow-up, × death, ○ alive)
計算自第0天(時間零 點,Day zero)至最後追蹤 的時間長度
Subject
A B C D E F G
0 1 2 3 4 5 6 7 8 9 10
Years
資料輸入&核對
資料輸入
時間設定(統一格式)
資料核對
計算存活(或追蹤)時間-必大於0
年/月/日
確認狀態變項
死亡或罹病-類別型(0 /1)
47
資料輸入-Excel
研究結束日期
事件發生 時間點 起始時間點
沒有發生事件的
『結束時間』呢?
資料輸入-SPSS( Variable )
49
資料輸入-SPSS( Data )
計算存活(或追蹤)
時間必大於0
資料特性
非常態分布(右偏分佈)
無母數方法
Kaplan-Meier Survival Analysis
Log rank test
Cox Proportional Hazards Model
51
Kaplan-Meier 1
1
2
3 4
Kaplan-Meier 2
53
5 6
7
Kaplan-Meier 3
8 8
9
Kaplan-Meier 4
55
Kaplan-Meier 5
設限資料發生的時間點
估計存活函數
遞減階梯函數(Step function)Step-發生事件的時間點
比對各時間點的存活率
Kaplan-Meier 6
57
時間 狀態 在時間存活的累積百分比 累積事 件數量
剩餘的觀 估計 標準誤差 察值個數
14 .973 death .989 .003 14 1260
156 1.998 death .893 .009 136 1118
355 2.990 death .761 .012 298 919
578 3.995 death .625 .014 457 696
884 4.998 death .423 .015 663 390
1154 5.998 death .212 .014 825 120 1269 6.537 death .067 .020 867 5 1274 6.578 non-death . . 867 0
時間 狀態 在時間存活的累積百分比 累積事 件數量
剩餘的觀 估計 標準誤差 察值個數
14 .973 death .989 .003 14 1260
時間 狀態 在時間存活的累積百分比 累積事 件數量
剩餘的觀 估計 標準誤差 察值個數
14 .973 death .989 .003 14 1260
156 1.998 death .893 .009 136 1118
時間 狀態 在時間存活的累積百分比 累積事 件數量
剩餘的觀 估計 標準誤差 察值個數
14 .973 death .989 .003 14 1260
156 1.998 death .893 .009 136 1118
355 2.990 death .761 .012 298 919
時間 狀態 在時間存活的累積百分比 累積事 件數量
剩餘的觀 估計 標準誤差 察值個數
14 .973 death .989 .003 14 1260
156 1.998 death .893 .009 136 1118
355 2.990 death .761 .012 298 919
578 3.995 death .625 .014 457 696
時間 狀態 在時間存活的累積百分比 累積事 件數量
剩餘的觀 估計 標準誤差 察值個數
14 .973 death .989 .003 14 1260
156 1.998 death .893 .009 136 1118
355 2.990 death .761 .012 298 919
578 3.995 death .625 .014 457 696
884 4.998 death .423 .015 663 390
Kaplan-Meier 7
完整資料(Complete data)-1
Kaplan-Meier 8
完整資料(Complete data)-2
59
時間 狀態 在時間存活的累積百分比 累積事 件數量
剩餘的觀 估計 標準誤差 察值個數
14 .973 death .984 .004 14 853 136 1.998 death .843 .012 136 731 298 2.990 death .656 .016 298 569 457 3.995 death .473 .017 457 410 663 4.998 death .235 .014 663 204 825 5.998 death .048 .007 825 42 867 6.537 death .000 .000 867 0
Kaplan-Meier 9
Log rank test
單變量概念
找出個別與存活狀態(或某事件)的顯著危險因子(
考慮時間的因素)
檢定兩條(或多條)存活曲線是否相同
僅能提供p value
Kaplan-Meier 10
61
1
2
3
Kaplan-Meier 11
Cox model-1
Cox Proportional Hazards Model
評估多個共變量同時存在同一個模型中
多變量概念
單變量p值顯著的變數
p值不顯著,但對研究主題重要的變數
年齡、性別等等
自變項-連續型或類別型
估計危險比(Hazards Ratio)
63
Cox model-2
1
2
3 4
Cox model-3
65
5 6
7
Cox model-4
8
9
10
範例: ex01_sur.sav
Cox model-5
67
11
範例: ex01_sur.sav
Cox model-6
68
年齡、性別或抽菸 (等自變項)有遺漏
值
參考組
以相對於存活來 說,風險最低的 當參考組(0)
Cox model-7
69
HR (95%CI) p value 年齡 1.01 (1.00-1.01) 0.053
性別
Female ref.
Male 1.87 (1.30-2.71) 0.001**
抽菸
No ref.
Yes 2.05 (1.71-2.46) <0.001**
討論
範例
依變項(Outcome)
有無肺癌
自變項
吸菸年數、疾病史、性別等等變項
Logistic Regression or
Cox Regression ?!
新增研究變項:
收案時間 確診肺癌時間 研究結束時間
Logistic regression
沒有考慮時間
Cox regression
考慮時間(Censored data)
HR含有baseline風險概念
71