• 沒有找到結果。

(進階

N/A
N/A
Protected

Academic year: 2022

Share "(進階"

Copied!
71
0
0

加載中.... (立即查看全文)

全文

(1)

醫學研究部 生統小組 徐倩儀

研究統計分析的介紹與應用 (進階)

1

(2)

統計方法-1

資料 屬性

兩群 獨立樣本

三群以上

獨立樣本 相關 前後測 比較

連續

資料 Independent t test ANOVA Pearson

Correlation Paired t test 序位

資料

(連續無 母數)

Wilcoxon Rank Sum test (Mann- Whitney U test)

Kruskal- Wallis test

Spearman's rho

Wilcoxon signed-rank

test

類別 資料

Chi-square (χ2 ) test

Fisher’s exact

Yate’s 校正數

Chi-square (χ2 ) test

McNemar’s test

(3)

自變項/依變項

3

預測

自變項 推論

Independent variable

 研究者操弄的變數

 研究差異來源

因 果

依變項

Dependent variable

 被觀察記錄的變數

 被預測的變項

 隨自變項改變而改變

 結果變項(Outcome variable)

(4)

統計方法-2

資料屬性 統計方法

自變項(X)

依變項(Y)

連續資料 類別資料

連續資料

線性回歸

(Linear regression)

類別資料

邏輯回歸

(Logistic regression)

連續資料 類別資料

存活率分析

(Cox Proportional Hazard Regression Model, Cox.

Model)

(5)

迴歸分析(Regression)

5

Linear Regression

Logistic Regression

依變項

(Y) 連續資料 類別資料

自變項 (X)

1個自變項 多個自變項 1個自變項 多個自變項 簡單迴歸分

析 (Simple Regression

Analysis)

複迴歸分析 (Multiple Regression

Analysis)

單變數邏輯 斯迴歸分析 (Univariate

Logistic Regression)

複邏輯斯迴 歸分析 (Multivariate

Logistic Regression)

可為連續或類別資料 可為連續或類別資料

類別資料需設定虛擬變數

(Dummy variable) 類別資料需設定參考組

(6)

Linear Regression-1

 簡單迴歸分析

範例一:年齡與舒張壓的相關性(連續 vs 連續)

範例二:性別與舒張壓的相關性(類別 vs 連續)

範例三:年齡分層與舒張壓的相關性(類別 vs 連續)

年齡分層共三組,需設定虛擬變數

 複迴歸分析

範例四:年齡、性別及BMI值與舒張壓的相關性

(7)

Linear Regression-2

 簡單迴歸分析

範例一:年齡與舒張壓的相關性(連續 vs 連續)

自變項(X)與依變項(Y)皆為連續資料

» 可互換,但分析結果模式不同

7

範例一:年齡與舒張壓之相關性

B 95%CI p value age 0.49 0.33 0.66 <0.001**

Regression. *p<0.05, **p<0.01

範例一(A):舒張壓與年齡之相關性 B 95%CI p value DBP 0.76 0.51 1.00 <0.001**

Regression. *p<0.05, **p<0.01 ID age DBP

01 70 96 02 76 86 03 84 86 04 85 82 05 47 80

… …

… …

61 52 85 62 55 97 63 71 94 64 56 87 65 70 96

(8)

範例一SPSS步驟-1

1

(9)

範例一SPSS步驟-2

9

3 2

(10)

範例一SPSS步驟-3

4

(11)

範例一SPSS步驟-4

11

(12)

範例一SPSS步驟-5

範例一:年齡與舒張壓之相關性

B 95%CI

p value

constant 58.87 49.56 68.18

age 0.49 0.33 0.66 <0.001**

Regression. *p<0.05, **p<0.01

(13)

範例一SPSS步驟-6

13

 簡單迴歸分析(連續 vs 連續)

自變項、依變項互換,但分析結果模式不同

1

2 依變數

自變數 互換

(14)

範例一SPSS步驟-7

範例一(A):舒張壓與年齡的相關性(連續 vs 連續)

範例一(A):舒張壓與年齡之相關性

B 95%CI

p value

DBP 0.76 0.51 1.00 <0.001**

Regression. *p<0.05, **p<0.01

(15)

範例一SPSS步驟- 8

15

範例一:年齡與舒張壓之相關性 B 95%CI p value age 0.49 0.33 0.66 <0.001**

Regression. *p<0.05, **p<0.01

範例一(A):舒張壓與年齡之相關性 B 95%CI p value DBP 0.76 0.51 1.00 <0.001**

Regression. *p<0.05, **p<0.01

年齡每增加1歲、

舒張壓增加 0.49mmHg

舒張壓每增加1mmHg、

年齡增加0.76歲

(16)

Linear Regression-3

 簡單迴歸分析

範例二:性別與舒張壓的相關性(類別 vs 連續)

16

ID sex DBP

01 0 96

02 1 86

03 1 86

04 1 82

05 1 80

61 0 85

62 0 97

63 0 94

64 0 87

65 0 96

二元類別變項

(0 & 1)

(17)

範例二SPSS步驟-1

17

(18)

範例二SPSS步驟-2

(19)

範例二SPSS步驟-3

19

範例二:性別與舒張壓之相關性

B 95%CI

p value

sex -10.77 -14.96 -6.59 <0.001**

Regression. *p<0.05, **p<0.01

類別資料與連續資料解釋方式不同

1.sex設定值,sex=0(女性)、sex=1(男性) 2.男性相較於女性,舒張壓低10.77mmHg

(20)

Linear Regression-4

 簡單迴歸分析

範例三:年齡分層與舒張壓的相關性

(類別 vs 連續)

年齡分層共三組,需設定虛擬變數

ID age_gp DBP

01 2 96

02 2 86

05 0 86

04 2 82

62 1 97

63 2 94

64 1 87

65 2 96

age_du1 age_du2

0 1

0 1

0 0

0 1

1 0

0 1

1 0

0 1

Dummy variable 只能用 2 個數字

(0 & 1)

(21)

範例三SPSS步驟-1

21

2 1

(22)

範例三SPSS步驟-2

(23)

範例三SPSS步驟-3

23

範例三:年齡分層與舒張壓之相關性

B 95%CI p value age<49

49-63 12.56 7.94 17.19 <0.001**

age>63 15.92 10.56 21.28 <0.001**

Regression. *p<0.05, **p<0.01

範例三:年齡分層與舒張壓的相關性

(類別 vs 連續)

年齡分層共三組,需設定虛擬變數

(24)

Linear Regression-5

 複迴歸分析

範例四:年齡、性別及BMI值與舒張壓的相關性

ID age sex BMI DBP 01 70 0 23.2 96 02 76 1 23.3 86 03 84 1 23.4 86 04 85 1 23 82 05 47 1 23.6 80

… … …

… … …

61 52 0 23.2 85 62 55 0 24.4 97 63 71 0 24.6 94 64 56 0 23.7 87 65 70 0 24 96

範例四:年齡、性別、BMI等因子與舒張壓之相關性 Univariate

Regression Analysis

Multiple Regression Analysis

B 95%CI p value B 95%CI p value

age 0.49 0.33 0.66 <0.001** 0.31 0.19 0.42 <0.001**

sex -10.77 -14.96 -6.59 <0.001** -4.50 -7.50 -1.51 <0.001**

BMI 9.88 7.66 12.11 <0.001** 6.63 4.53 8.73 <0.001**

Regression. *p<0.05, **p<0.01

(25)

範例四SPSS步驟-1

25

2 1

(26)

範例四SPSS步驟-2

(27)

範例四SPSS步驟-3

27

範例四:年齡、性別及BMI值與舒張壓的相關性

範例四:年齡、性別、BMI等因子與舒張壓之相關性

Univariate Regression Analysis Multiple Regression Analysis B 95%CI p value B 95%CI p value age 0.49 0.33 0.66 <0.001** 0.31 0.19 0.42 <0.001**

sex -10.77 -14.96 -6.59 <0.001** -4.50 -7.50 -1.51 <0.001**

BMI 9.88 7.66 12.11 <0.001** 6.63 4.53 8.73 <0.001**

Regression. *p<0.05, **p<0.01

標準化係數:

1.解釋不同

調整年齡及性別後,BMI 每增加一個標準差、舒張 壓增加0.501個標準差

2.可比較影響力

BMI值影響最大

調整年齡及性別後,BMI 每增加1個單位(kg/m2)、

舒張壓增加6.63mmHg

(28)

Logistic

Regression

(29)

Logistic Regression-1

 勝算比(Odds Ratio, OR)

相關強度

 依變項(Y)

二元類別變項-0&1

 自變項(X)個數不同

單變數邏輯斯迴歸分析

範例五:年齡與高血壓的相關性

範例六:性別與高血壓的相關性

複邏輯斯迴歸分析

範例七:年齡、性別及BMI值與高血壓的相關性

29

(30)

Logistic Regression-2

 單變數邏輯斯迴歸分析

範例五:年齡與高血壓的相關性

30

ID age HT 01 70 1 02 76 0 03 84 0 04 85 0

… … …

… … … 62 55 1 63 71 0 64 56 0 65 70 1

依變項

二元類別變項

(0 & 1)

(31)

範例五SPSS步驟-1

31 1

(32)

範例五SPSS步驟-2

2

3

(33)

範例五SPSS步驟-3

33

4

5

(34)

範例五SPSS步驟-4

範例五:年齡與高血壓的相關性

範例五:年齡與高血壓之相關性

B OR 95%CI

p value

age 0.05 1.05 1.004 1.099 0.034*

Logistic regression. *p<0.05, **p<0.01

(35)

Logistic Regression-3

 單變數邏輯斯迴歸分析

範例六:性別與高血壓的相關性

35

ID sex HT 01 0 1 02 1 0 03 1 0 04 1 0

… … …

… … … 62 0 1 63 0 0 64 0 0 65 0 1

類別資料

(36)

範例六SPSS步驟-1

1

(37)

範例六SPSS步驟-2

37

2

3

4

(38)

範例六SPSS步驟-3

38

範例六:性別與高血壓之相關性

B OR 95%CI p value sex

male ref.

female -0.26 0.77 0.29 2.09 0.612 Logistic regression. *p<0.05, **p<0.01

範例六:性別與高血壓的相關性

(39)

Logistic Regression-4

 複邏輯斯迴歸分析

範例七:年齡、性別及BMI值與高血壓的相關性

39

ID age sex BMI HT 01 70 0 23.2 1 02 76 1 23.3 0 03 84 1 23.4 0 04 85 1 23 0

… … … … …

… … … … …

62 55 0 24.4 1 63 71 0 24.6 0 64 56 0 23.7 0 65 70 0 24 1

(40)

範例七SPSS步驟-1

(41)

範例七SPSS步驟-2

41

(42)

範例七:年齡、性別、BMI等因子與高血壓之相關性

Univariate Regression Analysis Multiple Regression Analysis OR 95%CI p value OR 95%CI p value age 1.05 1.00 1.10 0.034* 1.02 0.97 1.08 0.374 sex

male ref. ref.

female 0.77 0.29 2.09 0.612 5.33 1.02 27.8 0.047 BMI 5.60 2.19 14.34 <0.001** 11.18 2.75 45.4 0.001**

Logistic regression. *p<0.05, **p<0.01

範例七SPSS步驟-3

42

(43)

存活分析

43

(44)

概論-1

 依變項(Dependent variable, Outcome variable)

事件發生時間(time-to-event)的資料

 時間長度

時間原點(起始時間點)

進入研究時間點、確診癌症時間點

事件發生時間點

疾病發生時間點、死亡時間點

 事件(event)

死亡

罹病

復發

提早退出試驗

(45)

概論-2

 完整資料(Complete data)

45

 設限資料(Censored data)

Subject

A B C D E

2000 2002 2004 2006 2008 2010

Dead

Dead Dead

Dead Dead

Calendar Years

Subject

A B C D E

2000 2002 2004 2006 2008 2010

Dead Dead

Calendar Years

Lost to follow-up alive

Lost to follow-up

(46)

概論-3 時間計算

46

Subject

A B C D E F G

80 81 82 83 84 85 86 87 88 89 90

Calendar Years

日曆時間(Calendar Time):

從1980到1990追蹤7位有肺癌的個體情況

(initial follow-up, × death, alive)

7+

6 11+

9 5 6+

7+

Survival Time

病患研究時間(Patient time):

從1980到1990追蹤7位有肺癌的個體情況

(initial follow-up, × death, alive)

計算自第0天(時間零 點,Day zero)至最後追蹤 的時間長度

Subject

A B C D E F G

0 1 2 3 4 5 6 7 8 9 10

Years

(47)

資料輸入&核對

 資料輸入

時間設定(統一格式)

 資料核對

計算存活(或追蹤)時間-必大於0

年/月/日

確認狀態變項

死亡或罹病-類別型(0 /1)

47

(48)

資料輸入-Excel

研究結束日期

事件發生 時間點 起始時間點

沒有發生事件的

『結束時間』呢?

(49)

資料輸入-SPSS( Variable )

49

(50)

資料輸入-SPSS( Data )

計算存活(或追蹤)

時間必大於0

(51)

資料特性

 非常態分布(右偏分佈)

 無母數方法

Kaplan-Meier Survival Analysis

Log rank test

Cox Proportional Hazards Model

51

(52)

Kaplan-Meier 1

1

2

3 4

(53)

Kaplan-Meier 2

53

5 6

7

(54)

Kaplan-Meier 3

8 8

9

(55)

Kaplan-Meier 4

55

(56)

Kaplan-Meier 5

設限資料發生的時間點

估計存活函數

遞減階梯函數(Step function)

Step-發生事件的時間點

比對各時間點的存活率

(57)

Kaplan-Meier 6

57

時間 狀態 在時間存活的累積百分比 累積事 件數量

剩餘的觀 估計 標準誤差 察值個數

14 .973 death .989 .003 14 1260

156 1.998 death .893 .009 136 1118

355 2.990 death .761 .012 298 919

578 3.995 death .625 .014 457 696

884 4.998 death .423 .015 663 390

1154 5.998 death .212 .014 825 120 1269 6.537 death .067 .020 867 5 1274 6.578 non-death . . 867 0

時間 狀態 在時間存活的累積百分比 累積事 件數量

剩餘的觀 估計 標準誤差 察值個數

14 .973 death .989 .003 14 1260

時間 狀態 在時間存活的累積百分比 累積事 件數量

剩餘的觀 估計 標準誤差 察值個數

14 .973 death .989 .003 14 1260

156 1.998 death .893 .009 136 1118

時間 狀態 在時間存活的累積百分比 累積事 件數量

剩餘的觀 估計 標準誤差 察值個數

14 .973 death .989 .003 14 1260

156 1.998 death .893 .009 136 1118

355 2.990 death .761 .012 298 919

時間 狀態 在時間存活的累積百分比 累積事 件數量

剩餘的觀 估計 標準誤差 察值個數

14 .973 death .989 .003 14 1260

156 1.998 death .893 .009 136 1118

355 2.990 death .761 .012 298 919

578 3.995 death .625 .014 457 696

時間 狀態 在時間存活的累積百分比 累積事 件數量

剩餘的觀 估計 標準誤差 察值個數

14 .973 death .989 .003 14 1260

156 1.998 death .893 .009 136 1118

355 2.990 death .761 .012 298 919

578 3.995 death .625 .014 457 696

884 4.998 death .423 .015 663 390

(58)

Kaplan-Meier 7

完整資料(Complete data)-1

(59)

Kaplan-Meier 8

完整資料(Complete data)-2

59

時間 狀態 在時間存活的累積百分比 累積事 件數量

剩餘的觀 估計 標準誤差 察值個數

14 .973 death .984 .004 14 853 136 1.998 death .843 .012 136 731 298 2.990 death .656 .016 298 569 457 3.995 death .473 .017 457 410 663 4.998 death .235 .014 663 204 825 5.998 death .048 .007 825 42 867 6.537 death .000 .000 867 0

(60)

Kaplan-Meier 9

 Log rank test

單變量概念

找出個別與存活狀態(或某事件)的顯著危險因子(

考慮時間的因素)

檢定兩條(或多條)存活曲線是否相同

僅能提供p value

(61)

Kaplan-Meier 10

61

1

2

3

(62)

Kaplan-Meier 11

(63)

Cox model-1

 Cox Proportional Hazards Model

 評估多個共變量同時存在同一個模型中

多變量概念

單變量p值顯著的變數

p值不顯著,但對研究主題重要的變數

年齡、性別等等

 自變項-連續型或類別型

 估計危險比(Hazards Ratio)

63

(64)

Cox model-2

1

2

3 4

(65)

Cox model-3

65

5 6

7

(66)

Cox model-4

8

9

10

(67)

範例: ex01_sur.sav

Cox model-5

67

11

(68)

範例: ex01_sur.sav

Cox model-6

68

年齡、性別或抽菸 (等自變項)有遺漏

參考組

以相對於存活來 說,風險最低的 當參考組(0)

(69)

Cox model-7

69

HR (95%CI) p value 年齡 1.01 (1.00-1.01) 0.053

性別

Female ref.

Male 1.87 (1.30-2.71) 0.001**

抽菸

No ref.

Yes 2.05 (1.71-2.46) <0.001**

(70)

討論

 範例

依變項(Outcome)

有無肺癌

自變項

吸菸年數、疾病史、性別等等變項

Logistic Regression or

Cox Regression ?!

新增研究變項:

收案時間 確診肺癌時間 研究結束時間

Logistic regression

沒有考慮時間

Cox regression

考慮時間(Censored data)

HR含有baseline風險概念

(71)

71

參考文獻

相關文件

• A language in ZPP has two Monte Carlo algorithms, one with no false positives and the other with no

Repeated Measure ANOVA / Friedman test McNemar test / Cochran’s Q

D Global warming causes less precipitation, thus causing the glaciers to retreat.. •

3.2 Rolle’s Theorem and the Mean Value Theorem 3.3 Increasing and Decreasing Functions and the First Derivative Test.. 3.4 Concavity and the Second Derivative Test 3.5 Limits

Tokamak Fusion Test Reactor 1982 - 1997. JET

 name common laboratory apparatus (e.g., beaker, test tube, test-tube rack, glass rod, dropper, spatula, measuring cylinder, Bunsen burner, tripod, wire gauze and heat-proof

For HSK: If a test taker is late and the listening test has not begun, test takers can enter the test room and take the test; if a test taker is late and the listening test has

YCT (Levels I-IV)Test: If a test taker is late and the listening test has not begun, test takers can enter the test room and take the test; if a test taker is late and the listening