第一章 資料的收集與描述
1.1 資料的收集
樣 本 數 少導致樣本代表性不足,或如取樣偏差 導 致 所 取 樣 本 未能反映母群體的分布 ;此時,即使 運 用 了 更 複 雜 的統計方法或數學技巧也未必能得到 更肯定、正確的分析結論。
1.1.1 輻射屋對人體淋巴細胞之染色體影響研究
個案-對照的研究(case-control study)
對照組 個案組
獨立性的假設
表 1.1 國人暴露於輻射屋之個案組與未暴露者之對照組資料
個體代碼 性別
年齡 暴露時間 累積暴露
劑 量
觀察細胞
數 目
有染色體變異 之 細 胞 數
(歲) (年) (mSv) 數 目 (%)
個 案 組 第一組家庭
1 2 3 4 5 6 7 8 第二組家庭
9 10 11 第三組家庭
12 13 14 15 第四組家庭
16 17 18 19 20
M F M M M M F M
M F M
M F M M
M M M F M
38 31 11 10 7 33 30 3
46 41 13
30 60 61 23
43 15 48 45 19
9.3 9.3 9.3 9.3 5.8 3.8 3.8 1.7
9.5 5.3 5.3
11.6 11.6 11.6 11.6
4.4 2.2 2.2 0.3 2.3
182.33 182.33 182.33 182.33 86.67 49.15 49.15 19.63
280.50 152.11 152.11
162.36 162.36 162.36 162.36
133.53 58.42 58.42 21.04 58.72
500 500 567 531 500 500 500 500
500 245 500
500 500 500 502
500 500 500 500 500
18 21 8 22 31 17 40 11
27 3 13
23 31 26 34
26 30 19 34 15
3.60 4.20 1.41 4.14 6.20 3.40 8.00 2.20
5.40 1.22 2.60
4.60 6.20 5.20 6.79
5.20 5.80 3.80 6.80 3.00
個體代碼 性別
年齡 暴露時間 累積暴露
劑 量
觀察細胞
數 目
有染色體變異 之 細 胞 數
(歲) (年) (mSv) 數 目 (%)
工作場所 21 22 23 24 25 26 27 28 29 30 對 照 組
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
F F F F M
F F F F M
F M
F M M F F F M M M M F M
F 41 34 45 42 46 42 39 40 41 78
26 22 23 23 42 35 45 39 64 37 39 73 54 11 36
10.0 10.0 10.0 10.0 10.0 4.9 10.0 8.6 10.0 5.1
167.47 167.47 167.47 167.47 167.47 53.31 167.47 123.43 167.47 56.29
500 500 500 500 500 500 500 511 500 500
525 669 577 780 524 500 500 500 500 500 500 687 500 500 500
12 30 12 23 31 18 10 28 32 26
9 26 18 15 14 24 30 19 23 31 19 11 14 18 15
2.40 6.00 2.40 4.60 6.20 3.60 2.00 5.48 6.40 5.20
1.71 3.89 3.12 1.92 2.67 4.80 6.00 3.80 4.60 6.20 3.80 1.60 2.80 3.60 3.00
Reprinted from Mutation Research, Vol. 377, pp. 247-254, 1997 with kind permission from Elsevier Science-NL, Sara Burgerhartstraat 25, 1055 KV Amsterdam, The Netherlands.
1.1.2 apoB 脂蛋白與冠狀動脈阻塞心臟病間 關係
表 1.2 三種限制酶切割出 apoB 基因為短(+)或長()在國 人之 CHD 個案組和對照組之資料分布
限 制 酶 CHD 個案組 對照組
+ 283 290
EcoRI - 13 16
+ 4 2
XbaI - 292 304
+ 296 302
MspI - 0 4
Reprinted from Clinical Chemistry 41/3, pp. 424-429, 1995 with kind permission from the American Association for Clinical Chemistry, Inc.
1.1.3 由臨床試驗而來的存活資料
臨床試驗一般可分為四期:
(1).第一期試驗 (phase I study)
藥物動力學 (pharmacokinetics) 藥物效應學 (pharmacodynamics)
(2).第二期試驗(phase II study)
完全緩解 (complete remission,簡稱為 CR) 部分緩解 (partial remission, PR)
穩定狀態 (stable disease, SD)
繼續惡化 (progressive disease, PD)
(3).第三期試驗(phase III study)
就第二期試驗後所認可藥品,進行比較試驗
不同地區的醫院來共同收集病人 (multi-center study)
隨機分派(allocation)
表 1.3 一臨床試驗所觀察到處理組和對照組存活期資料 存活期(月)
處 理 組 20, 35, 45, 16+, 37+, 40+ 對 照 組 12, 20, 29, 34, 10+ 37+
註:數字上加「+」符號,代表存活期大於該數字,稱為 設限資料,將於「存活資料分析」一章中再詳細說明。
(4). 第四期試驗(phase IV study)
上市後之後續療效、副作用監測
1.1.4 百 脂 脫 喜 對 原 發 性 高 血 脂 症 和 糖 尿 病 合 併高血脂症療效比較試驗
二療程交換合併設計
(two-period change-over design)
平行式設計(parallel design)
平衡設計(balanced design)
延遞作用(carry-over effect)
二處理組交換合併設計圖
試驗期別
第一期 第二期
第一個療程次序組 A B
第二個療程次序組 B A
A(對照組):安慰劑 B(處理組):百脂脫喜
每 一 個 體 可 依 隨機抽樣進入第一或第二個療程次序 組
表 1.4 二療程交換合併設計百脂脫喜試驗之 TG 資料(Ho et al., 985) 病 人 原 發 性 高 血 脂 症 ( H B L ) 糖 尿 病 合 併 高 血 脂 症 (DHBL)
序 號 試 驗 前 第 一
療 程 後
第 二
療 程 後 試 驗 前 第 一
療 程 後
第 二
療 程 後
第一 次序 組 (A,B)
1 2 3 4 5 6
316 217 1475 912 1760 413
460 349 1510 734 1456 433
380 231 1300 1057 1132 168
1480 446 2808 630 184 53
2215 285 979 492 378 51
2016 231 758 542 668 65
第二 次序 組 (B, A)
1 2 3 4 5 6
248 252 99 145 139 384
213 122 72 119 148 659
188 224 87 179 207 789
1498 1655 176 578 156 517
556 2435 332 803 179 686
643 1511 232 996 227 221 註:感謝何橈通教授授權使用其研究資料
1.1.5 家庭中生男、生女比例模擬資料
以家庭為單位的隨機樣本 以模擬方法產生下表之資料
表 1.5 每個家庭中都有三個小孩的 80 個家庭分布
(三個女孩)
(二個女孩、
一個男孩)
(二個男孩、
一個女孩)
(三個男孩) 總 計 (3F) (2F, 1M) (1F, 2M) (3M)
家庭數 10 38 26 6 80
註:F 代表女孩,M 代表男孩;資料產生是依據男、女 1:
1 比例模擬出來的 。
(1)在男、女是 1:1 比例出生情形下(這符合遺傳 學上孟德爾分離率),發生 3F、(2F,1M)、(1F,
2M)和 3M 的機率分布,如下之二項分布規律
(將在下一章中說明):
0 3 3
1 2 2
3 1
( 0)
0 8
3 3
( 1) 3
1 8
P x p q q
P x p q pq
2 1 2
3 0 3
3 3
( 2) 3
2 8
3 1
( 3)
3 8
P x p q p q
P x p q p
其中,x = 0, 1, 2, 3 代表三個小孩家庭中出現男孩 數目,即代表了 3F、(2F,1M)、(1F,2M)和 3M 這四種情形。
(2)由隨機數字表或由自製 100 個 00 到 99 的數字條 中 , 歸 還 隨 機 取 樣 , 或 由 計 算 機 中之隨機數字 產生器(random number generator)獲得 80 個 自 00 至 99 的二位數隨機數字如下:
25, 79, 77, 87, 76, 29, 52, 69, 44, 28, 98, 02, 97, 77, 13, 51 72, 09, 38, 62, 99, 82, 14, 68, 59, 28, 44, 04, 02, 71, 78, 70 37, 29, 34, 48, 71, 47, 25, 75, 16, 09, 24, 82, 76, 19, 20, 07 74, 27, 84, 62, 59, 50, 35, 85, 42, 42, 95, 99, 84, 34, 10, 95 63, 39, 73, 20,25, 97, 10, 00, 64, 97, 41, 42, 59, 45, 90, 30
(3)將 每 個 二 位 數 隨 機 數 字 除 以 8, 所 得 餘 數 為 1 者,歸之於 x = 0,為(2,3,4)者歸之於 x = 1,
(5,6,7)者歸之於 x = 2,為 0 者(即整除者)
歸之於 x = 3。如此分配 80 個隨機數字,則符合 x = 0,1,2,3 四個家庭分類的機率分布約為 1
8, 3
8, 3 8,1
8( 註 : 要 完 全 依 1 8:3
8:3 8:1
8比例產生數 字,原應取 00 到 95 數字,這裏刻意取 00 到 99,
會使得 x = 0、x = 1 和 x=3 所產生家庭數略高,
讓 家 庭 觀 測 數 中 女 性 的 比 例 略 高 一些 ,符合一 般 了 解 , 在 第 二 章 中 的 第 四 節 推 論出這樣資料 的男女比為 55:45)。80 個餘數為:
1, 7, 5, 7, 4, 5, 4, 5, 4, 4, 2, 2, 1, 5, 5, 3 0, 1, 6, 6, 3, 2, 6, 4, 3, 4, 4, 4, 2, 7, 6, 6 5, 5, 2, 0, 7, 7, 1, 3, 0, 1, 0, 2, 4, 3, 4, 7 2, 3, 4, 6, 3, 2, 3, 5, 2, 2, 7, 3, 4, 2, 2, 7 7, 7, 1, 4, 1, 1, 2, 0, 0, 1, 1, 2, 3, 5, 2, 6
則由上模擬 x = 0,1,2,3 的理論分布所得 80 個 家庭的可能觀察到的一種情形為表 1.5 中所列。
1.1.6 光線對總膽紅素數值的體外影響
樣本暴露在不同光線源和時間長度的變化分析
表 1.6 三種光源組在六種採血後時間長度測得之新生兒膽紅素數值
(單位:mg∕dl)
個 體 採 血 後 間 隔 時 間 (小時)
代碼 組別 0 2 4 6 24 48
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3
6.7 10.4 6.3 7.0 13.5 7.4 11.5 11.7 6.0 8.1 9.3 10.0 11.9 6.3 12.8 11.6 5.6 8.7 9.9 8.1 5.1 9.8 5.1 11.7 7.9 8.8 10.8 10.0 9.7 5.5
5.1 8.5 5.1 5.4 10.4 5.4 9.8 9.6 4.1 7.5 9.2 10.0 12.0 6.1 12.2 11.5 5.3 7.9 9.7 7.7 5.0 9.6 4.5 11.5 7.5 8.7 10.7 10.0 10.6 6.0
4.6 7.7 4.4 4.9 8.9 4.6 8.5 8.6 3.6 6.0 9.2 9.9 11.5 5.8 12.3 10.9 4.1 8.9 9.4 7.6 5.1 9.6 4.8 11.9 7.4 8.9 10.9 9.9 9.9 5.6
4.4 7.1 4.0 4.2 8.7 4.0 7.0 7.7 4.5 5.7 9.0 9.7 11.8 5.5 12.5 10.8 3.6 8.1 7.9 7.1 4.9 9.5 4.6 11.9 8.0 8.7 10.7 9.9 10.9 5.8
2.5 3.7 1.9 2.4 4.4 1.8 2.2 2.0 0.6 2.9 6.3 6.2 9.3 4.3 8.8 6.8 1.0 5.3 5.8 5.0 4.8 9.3 5.0 11.7 7.1 8.7 10.7 9.4 9.6 5.4
1.2 1.0 0.7 0.7 1.1 0.4 0.4 0.6 0.1 0.3 4.3 4.2 6.2 3.1 6.0 3.6 0.6 3.6 3.6 2.8 4.8 8.8 4.7 11.8 7.0 8.0 10.5 9.3 11.2 5.4 註:1. 感謝梁翔醫師授權使用其研究資料
2. 組別 1、2 和 3 分別代表照光組 、室光組和黑暗組
1.1.7 正常妊娠胎兒兩側側腦室間距離之測量
表 1.7 正常妊娠胎兒之兩側頂骨間距與妊娠齡的資料
胎 兒 編 號 1 2 3 4 5 6 7 8 9 10
妊 娠 齡 26.29 35.71 34.29 30.29 36.57 29.71 23.43 28.00 35.43 29.71
頂 骨 間 距 68 91 88 81 91 78 59 70 87 78
胎 兒 編 號 11 12 13 14 15 16 17 18 19 20
妊 娠 齡 35.43 24.85 29.29 22.00 33.14 33.57 31.43 16.00 38.00 25.29
頂 骨 間 距 91 65 78 56 78 85 81 33 87 66
胎 兒 編 號 21 22 23 24 25 26 27 28 29 30
妊 娠 齡 38.43 36.57 31.71 32.29 19.00 27.57 35.00 34.85 17.43 34.14
頂 骨 間 距 92 94 80 76 44 67 89 86 38 89
胎 兒 編 號 31 32 33 34 35 36 37 38 39 40
妊 娠 齡 37.29 39.43 39.43 35.57 31.43 21.71 33.57 24.57 36.29 35.00
頂 骨 間 距 91 89 94 91 80 62 86 56 96 93
胎 兒 編 號 41 42 43 44 45 46 47 48 49 50
妊 娠 齡 33.29 35.00 34.29 30.14 31.71 27.71 38.86 39.57 38.14 17.00
頂 骨 間 距 86 84 86 75 83 71 88 92 94 36
註 : 1. 感 謝 洪 正 修 醫 師 授 權 使 用 其 研 究 資 料
2. 妊 娠 齡 單 位 為 週 (wks), 頂 骨 間 距 單 位 為 毫 米 (mm)
1.2 資料的描述方法
表 1.1.1 30 人之發生染色體變異的細胞百分比
單位:%
編 號 1 2 3 4 5 6 7 8 9 10
異 常 % 3.60 4.20 1.41 4.14 6.20 3.40 8.00 2.20 5.40 1.22
編 號 11 12 13 14 15 16 17 18 19 20
異 常 % 2.60 4.60 6.20 5.20 6.79 5.20 5.80 3.80 6.80 3.00
編 號 21 22 23 24 25 26 27 28 29 30
異 常 % 2.40 6.00 2.40 4.60 6.20 3.60 2.00 5.48 6.40 5.20
定義符號
連續變數(continuous variable)
分立變數(discrete variable)。
樣本(sample)
群體或母體(population)
1.2.1 趨中性描述統計量
(1)算術平均(average, arithmatic mean):
算術平均為 30 個數值總和除以樣本數 30 3.60 4.20 5.20
4.468 30
符號的表示為
30
1
1
30
i ix x
定義 n 為樣本的數目,樣本平均為
1
1
ni i
x x
n
(2) 中位數(median):
median 的意思是 of or in the middle,故指樣本 內變值位居中間(middle)者。例如由小到大重 排 30 個數值:
大小次序 1 2 3 4 5 6 7 8 9 10
數 值 1.22 1.41 2.00 2.20 2.40 2.40 2.60 3.00 3.40 3.60
大小次序 11 12 13 14 15 16 17 18 19 20
數 值 3.60 3.80 4.14 4.20 4.60 4.60 5.20 5.20 5.20 5.40
大小次序 21 22 23 24 25 26 27 28 29 30
數 值 5.48 5.80 6.00 6.20 6.20 6.20 6.40 6.79 6.80 8.00
此時中位數為 4.60。以 m 表示中位數,則 m 滿足 下列左、右機率相等原則
( ) 14 ( )
i 30 i
P x m P x 〔在第 15 和 16 位置之m 4.6 因和中位數相等不 計入〕
在 存 活 分 析 中 半 存 活 期 (median survival time)是 很 常用的表示法
在 某 些 特 殊 情 形用中位數去代表一組資料要比用平 均來得理想、清楚。如以下 15 個樣本資料,其中絕 大部份人的數值在 3.5 以下:
大小次序 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 數 值 3.0 3.0 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 5.0 5.5 5.5 6.0 6.0
則平均值 x= 4.133,這個數字顯然不好,因為樣本中 的前 10 個數值的平均為
3.0 3.0 3.5
' 3.4 4.133
x 10
(距離平均值 4.133 太遠,不準確度大)
此 時 採 用 中 位 數 就 比較合理。因為位置在中的第 8 個數字是 3.5,但在其上有二個 3.5,在其下有 5 個 3.5 和它相等,直接取 3.5 做中位數,則 2
( 3.5)
i 15
P x
(2 個 3.0 而已)
( 3.5) 5
i 15
P x ,二者不相等,不符定義。
故算中位數的方法調整如下:
將第 8 個位置前後的 3.5 都拿出來,得:
第 8 個位置
1 2 3 4 5 6 7 8 9
︵ ︵ ︵ ︵ ︵ ︵ ︵ ︵ ︵
3.25 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.75
由減間距 0.5 的一 由加間距 0.5 的一
半 0.25 得到下限 半 0.25 得到上限
間距的取法,可斟酌數值大小分布,這裡取 3.5 與其 下一個數值 3.0 之差 0.5 為間距,使得下限 3.25 大於 3.0。 此 時 用 內 插 法 重 算 第 8 個 位 置 數 值 作 為 中 位
數: 6
3.25 (3.75 3.25) 3.583
9
用同樣的內插方法,以上 15 個數值可改為:
3.0, 3.0, 3.306, 3.361, 3.415, 3.472, 3.528, 3.583, 3.639, 3.694, 5.0, 5.5, 5.5, 6.0, 6.0
以 m=3.583 為中位數,則大於及小於此數值的比率 都成為 7
15,符合了中位數的定義。注意現在中位數 3.583 更能反映樣本數值
(3) 眾數(mode)
最常出現的數
表 1.1.1 之資料,以 1.0 為起點,每隔 1.5 為一分組 第一組:1.0~2.5(含 2.5)出現 1.22,…, 2.40(6 次)
第二組:2.5~4.0(含 4.0)出現 2.60,…, 3.80(6 次)
第三組:4.0~5.5(含 5.5)出現 4.14,…, 5.48(9 次)
第四組:5.5~7.0(含 7.0)出現 5.80,…, 6.80(8 次)
第五組:7.0~8.5(含 8.5)出現 8.00 (1 次)
眾數出現在具有 9 次之第三組,以該組中點表示,
並定義眾數符號為 M 4.0 5.5
2 4.75
M
1.2.2 離中性描述統計量
(1) 標準差(standard deviation, SD)
21
1
n i i
x x
SD n
SD 表示是由樣本得到的 SD,用來估計群體的 SD。 式中原該除以 n 表示對「離樣本平均差平方和取平 均」(故 SD 也 是 平 均 的 丈 量 ) , 現 在 除 以 (n1), 是在估計 SD 時無法利用下式
2' 1
n
i i
x
SD n
其中 是群體資料的平均:
1 ( )
N i i
x N E X
導 致 由 樣 本 平 均 算 得 之 SD 期 望 值 不 等 於 群 體 之'2 SD2,即
2 2
2 1 1 2 2
( ) ( )
( ' )
n N
i i
i i
x x x
E SD E SD
n N
'2
SD 改為
2 1
( )
1
n i i
x x
SD n
,此時
E( SD )=2 SD2 = 2 , SD 稱 為2 2 的 無 偏 估 計 式 (unbiased)。
發 生 染 色 體 變 異 之 細 胞 百 分 比 的 SD 經 計 算 為 1.784,結合 SD 和平均一起表示這 30 個資料,成為 一般習慣形式 x ± SD ,得 4.4680±1.7840。
若群體資料可用常態分布(normal distribution)來 描 述 , 則 x ± SD 可 以 如 下 類 推 出 群 體 的 大 致 分 布 狀 態,
x ± SD 可以估計涵蓋群體 68%的資料 x ±2 SD 可以估計涵蓋群體 95%的資料 x ±3 SD 可以估計涵蓋群體 99.7%的資料
注意 x 2SD 中的 2,是大眾熟悉對應常態分布雙尾 機率為 0.05 邊界值 1.96 的近似值。68%、95%和 99.7
%的範圍是群體具常態分布時,資料距平均 1 個、2 個和 3 個 SD 的特性。
(2) 變異係數(coefficient of variation, CV)
沒有單位的變異量 公式如下:
100%
CV SD
x
將二組之 SD 轉換為 CV 後,列於下表
組別 染色體異常之 CV 值 年齡之 CV 值 個案組 39.93% 48.52%
對照組 39.36% 43.53%
x 之值:SD
染色體異常百分比:
個案組:4.4680±1.7840 對照組:3.5673±1.4040 年齡:
個案組:35.17±17.06 對照組:37.93±16.51
1.3 資料的品質管制
(1) 雙重核對
(2) 隨機抽取核對
(3) 交叉比對
(4) 信賴區間核對 管制圖
p 圖(p-chart)
c 圖(c-chart)
(5) 分析後核對