7-3: 假设检验

(1)

7-3: 假设检验

张伟平

(2)

第七讲: 假设检验

7.3 拟合优度检验

. . . . 1

7.3.1 离散总体情形

. . . . 2

7.3.2 列联表的独立性和齐一性检验

. . . . . 8

7.3.3 连续总体情形

. . . 12

(3)

7.3 拟合优度检验

前面的假设检验基本上是在假定总体是正态的条件下做的, 但是 这个假设本身不一定成立, 需要收集样本 (X1,· · · , Xⁿ) 来检验它. 一般地, 检验

H0: X服从某种分布F 可以采用 Karl Pearson 提出的 χ² 拟合优度检验.

基本想法: 基于样本得到 F 的估计 ˆFn, 计算某种偏差 D( ˆFn, F ), 例如 supx∈R| ˆFn(x)− F (x)|. 当 H⁰ 正确时, 由于 ˆFn 是 F 的相合估 计, 偏差 D( ˆFn, F ) 应该很小.

Karl Pearson 对离散分布 F 提出一种检验方法, 即拟合优度 检验方法或者称为 Pearson 卡方检验方法.

(4)

7.3.1 离散总体情形

(1) 理论总体分布不含未知参数的情形 设某总体 X 服从一个离散分布,

X a1 . . . ak

P p1 . . . pk

p1,· · · , p^k 完全已知. 现从该总体抽得一个样本量为 n 的样本, 其落 在类别 a1,· · · , a^k 的观测数分别为 n1,· · · , n^k. 感兴趣的问题是检验理论频率是否正确, 即下面假设是否正确:

H0: P (X = a1) = p1,· · · , P (X = a^k) = pk.

这类问题只提零假设而不提对立假设, 相应的检验方法称为拟合优度 检验. 显然, 在零假设下, 各类别的理论频数分别为 np1,· · · , np^k, 将理论频数和观测频数列于下表:

(5)

类别 a1 a2 · · · ak

理论频数 np1 np2 · · · npk

观测频数 n1 n2 · · · nk

由大数定律知, 在零假设成立时, ni/n 依概率收敛于 pi, 故理论 频数 npi与观测频数 ni接近. Pearson 提出检验统计量

T =

∑k i=1

(ni− npⁱ)² npi

=∑ (O − E)²

E .

可以严格地证明, 在一定的条件下, 当 H0 成立时, T 的极限分布 就是自由度为 k− 1 的 χ² 分布.

拒绝域: T > χ²_α(k− 1)

(6)

下面给出一个例子来说明拟合优度检验的应用.

↑Example

有人制造一个含 6 个面的骰子, 并声称是均匀的. 现设计一个实验来检验此命题: 连续投掷 600 次, 发现出现六面的频数分别为 97, 104, 82, 110, 93, 114. 问能否在显著性水平 0.2 下认为骰子是均匀

的? _↓Example

解: 该问题设计的总体是一个有 6 个类别的离散总体, 记出现六个面 的概率分别为 p1,· · · , p⁶, 则零假设可以表示为

H0: pi= 1/6, i = 1,· · · , 6.

在零假设下, 理论频数都是 100, 故检验统计量 χ² 的取值为

(97−100)2

100 +^(104−100)2₁₀₀ +^(82−100)2₁₀₀ +^(110−100)2₁₀₀ +^(93−100)2₁₀₀ +^(114−100)2₁₀₀ =6.94,

跟自由度为 6− 1 = 5 的 χ²分布的上 0.05 分位数 χ²₅(0.2)≈ 7.29 比 较, 不能拒绝零假设, 即可在显著性水平 0.2 下认为骰子是均匀的.

(7)

↑Example

孟德尔 (Mendel) 豌豆杂交试验。纯黄和纯绿品种杂交，因为黄色对绿色是显性的，在 Mendel 第一定律 (自由分离定律) 的假设下，二 代豌豆中应该有 75％是黄色的，25％是绿色的。在产生的 n = 8023 个二代豌豆中，有 n1= 6022 个黄色，n2= 2001 个绿色。我们的问题是检验这些这批数据是否支持 Mendel 第一定律，要检验的假设是

H0: π1= 0.75, π2= 0.25 _↓Example 解: 在 Mendel 第一定律 (H₀) 下，黄色和绿色的个数期望值为

µ1= nπ1= 8023∗0.75 = 6017.25, µ²= nπ2= 8023∗0.25 = 2005.75 则 Pearson χ² 统计量为

Z=∑_(O−E)2

E =(6022−6017.25)²/6017.25+(2001−2005.75)²/2005.75=0.015

自由度 df = 1，p− value 为 0.903. 因此可以认为这些数据服从 Mendel 第一定律。Fisher 基于 Mendel 试验的所有数据，发现其数

(8)

据与理论值符合的太好，p− value = 0.99993，但这么好的拟合在几 万次试验中才发生一次，因而 Fisher 断定数据可能有伪造的嫌疑¹。

(2) 理论总体分布含若干未知参数的情形设某总体 X 服从一个离散 分布,

X a1 . . . ak

P p1 . . . pk

pi= pi(θ1, . . . , θr), i = 1, . . . , k 依赖于 r 个未知参数 θ1, . . . , θr. 此 时理论频数 npi 一般也与这些参数有关, 从而使用最大似然估计代替 这些参数以得到 pi的最大似然估计 ˆpi, 得到的统计量记为

χ²=

∑k i=1

(ni− nˆpⁱ)² nˆpi

.

1https://arxiv.org/pdf/1104.2975.pdf

(9)

拟合优度检验的提出者 Karl Pearson 最初认为在零假设下, 检验统计 量的 χ² 的极限分布仍等于自由度为 k− 1 的 χ² 分布, R. A. Fisher 发现自由度应该等于 k−1 减去估计的独立参数的个数 r, 即 k−1−r.

↑Example

从某人群中随机抽取 100 个人的血液, 并测定他们在某基因位点处的基因型. 假设该位点只有两个等位基因 A 和 a, 这 100 个基因型中 AA, Aa 和 aa 的个数分别为 30, 40, 30, 则能否在 0.05 的水平下

认为该群体在此位点处达到 Hardy-Weinberg 平衡态? _↓Example

解: 取零假设为

H0: Hardy-Weinberg 平衡态成立.

设人群中等位基因 A 的频率为 p, 则该人群在此位点处达到 Hardy- Weinberg 平衡态指的是在人群中 3 个基因型的频率分别为 P (AA) =

(10)

p², P (Aa) = 2p(1− p) 和 P (aa) = (1 − p)², 即零假设可等价地写成 H0: P (AA) = p², P (Aa) = 2p(1− p), P (aa) = (1 − p)². 在 H0 下, 3 个基因型的理论频数为 100× ˆp², 100× 2 × ˆp²(1− ˆp) 和 100×(1− ˆp)², 其中 ˆp 等于估计的等位基因频率 0.5, 代入 χ²统计量表达式, 得统计量的值等于 4. 该统计量的值大于自由度为 3− 1 − 1 = 1 (恰好一个自由参数被估计) 的 χ² 分布上 0.05 分位数 3.84, 故可在 0.05 的水平下认为未达到 Hardy-Weinberg 平衡态.

7.3.2 列联表的独立性和齐一性检验

(1) 独立性检验

下面考虑很常用的列联表. 列联表是一种按两个属性作双向分类的表. 例如肝癌病人可以按所在医院 (属性 A) 和是否最终死亡 (属性 B) 分类. 目的是看不同医院的疗效是否不同. 又如婴儿可按喂养方式 (属性 A, 分两个水平: 母乳喂养与人工喂养) 和小儿牙齿发育状况

(11)

(属性 B, 分两个水平: 正常与异常) 来分类. 这两个例子中两个属性都只有两个水平, 相应的列联表称为 “四格表”, 一般地, 如果第一个属 性有 a 个水平, 第二个属性有 b 个水平, 称为 a×b 表 (见教材 p268) . 实际应用中, 常见的一个问题是考察两个属性是否独立. 即零假设是

H0: 属性 A 与属性 B 独立.

这是列联表的独立性检验问题.

假设样本量为 n, 第 (i, j) 格的频数为 nij. 记

pij= P (属性 A, B 分别处于水平i, j), (7.1) ui= P (属性 A 有水平i), (7.2) vi= P (属性 B 有水平j) (7.3) 则零假设等价于

H0: pij= uivj ∀i, j

(12)

将 ui 和 vj 看成参数, 则总的独立参数有 a− 1 + b − 1 = a + b − 2 个. 它们的极大似然估计为

ˆ ui= ni·

n , ˆvj=n_·j n .

正好是它们的频率 (证明参看教材) . 其中 ni· = ∑b

j=1nij, n_·j =

∑a

i=1nij. 在 H0 下, 第 (i, j) 格的理论频数为 nˆpij= ni·n_·j/n, 因此 在 H0 下,∑a

i=1

∑b

j=1(nij− nˆp^ij) 应该较小. 故取检验统计量为 χ² =

∑a i=1

∑b j=1

(nij− nⁱ·n_·j/n)² (ni·n_·j/n) .

在零假设下 χ² 的极限分布是有自由度为 k− 1 − r = ab − 1 − (a + b− 2) = (a − 1)(b − 1) 的 χ²分布. 对于四格表, 自由度为 1.

(2) 齐一性检验

跟列联表有关的另一类重要的检验是齐一性检验, 即检验某一个属性 A 的各个水平对应的另一个属性 B 的分布全部相同, 这种检验

(13)

跟独立性检验有着本质的区别. 独立性问题中两属性都是随机的; 而齐一性问题中属性 A 是非随机的, 这样涉及到的分布实际上是条件分布. 虽然如此, 所采用的检验方法跟独立性检验完全一样.

↑Example

下面表是甲乙两医院肝癌病人生存情况. 需要根据这些数据判断两医院的治疗效果是否一样.

甲、乙两院肝癌的近期疗效

生存死亡合计

甲院 150(n11) 88(n12) 238(n1·) 乙院 36(n21) 18(n22) 54(n2·) 合计 186(n_·1) 106(n_·2) 292(n)

↓Example

(14)

解: 这是一个齐一性检验问题. 检验统计量 χ²的观测值为 0.2524, 远 远小于自由度为 1 的 χ² 分布的上 0.05 分位数, 故可以接受零假设, 即在水平 0.05 下可以认为两个医院的疗效无差别的.

7.3.3 连续总体情形

设 (X1,· · · , Xⁿ) 是取自总体 X 的一个样本, 记 X 的分布函数 为 F (x), 需要检验的那种分布中含有 r 个总体参数 θ1,· · · , θ^r. 我们 要在显著性水平 α 下检验

H0: F (x) = F0(x; θ1,· · · , θ^r),

其中 F₀(x; θ1,· · · , θr) 表示需要检验的那种分布的分布函数. 例如, 当我们要检验

H0: X∼ N(µ, σ²)

(15)

时, r = 2, θ1= µ, θ2= σ².

F0(x; µ, σ²) =

∫ x

−∞

√1

2πσ²exp {

− 1

2σ²(t− µ)² }

dt.

上述假设可以通过适当的离散化总体分布, 采用拟合优度法来做 检验. 首先把实数轴分成 k 个子区间 (aj−1, aj], j = 1,· · · , k, 其中 a0 可以取−∞, ak 可以取∞. 这样构造了一个离散总体, 其取值就 是这 k 个区间. 记

pj = PH₀(aj−1< X ≤ a^j)

= F0(aj; θ1,· · · , θ^r)− F⁰(aj−1; θ1,· · · , θ^r), j = 1,· · · , k.

如果 H0成立, 则概率 pj应该与数据落在区间 (aj−1, aj] 的频率 fj= nj/n 接近, 其中 nj 表示相应的频数. 当 pi 的取值不含未知参数时, 取检验统计量

χ²=

∑k j=1

(nj− np^j)² npj

,

(16)

否则取

χ²=

∑k j=1

(nj− nˆp^j)² nˆpj

,

其中 ˆpi是将 pi中的未知参数换成适当的估计后得到的 pi的估计. 拒

绝域取为 {

χ²> χ²_k_−r−1(α)} . 如果 pi 中不含未知参数, 则 r = 0.

使用 χ² 进行拟合优度检验时一般要求 n ≥ 50, nˆp^j ≥ 5, j = 1,· · · , k, 如果不满足这个条件, 最好把某些组作适当合并.

↑Example

从某连续总体中抽取一个样本量为 100 的样本, 发现样本均值和样本标准差分别为 −0.225 和 1.282, 落在不同区间的频数如下表所 示:

(17)

区间 (−∞, −1) [−1, −0.5) [−0.5, 0) [0, 0.5) [0.5, 1) [1,∞)

观测频数 25 10 18 24 10 13

理论频数 27 14 16 14 12 17

可否在显著性水平 0.05 下认为该总体服从正态分布? _↓Example

解: 设理论正态分布的均值和方差分别为 µ 和 σ², 记第 i 个区间 为 (ai−1, ai, i = 1,· · · , 6, 则样本落在第 i 个格子的理论概数为 100P (a_i−1 < X ≤ ai), 其中 X ∼ N(µ, σ²). 将 µ = −0.225 和 σ²= ₁₀₀⁹⁹ × 1.282²= 1.622 代入得到估计的理论频数, 列于上表中.

H0: 总体服从正态分布

由此算得检验统计量 χ² 的值约为 9.25, 与自由度为 6-1-2=3 的 χ² 分布的上 0.05 分位数 χ²₃(0.05)≈ 7.81 比较可以拒绝零假设, 即可以 在显著性水平 0.05 下认为该总体不服从正态分布.

(18)

P 值 若检验的拒绝域为 T (X) > τ , 对两组不同的样本 X1 和 X2, 若它们均落在拒绝域:

T (X1) > τ, T (X2) > τ 则它们否定原假设的程度一样吗? 如何区分这个差异?

P 值 = P (在H0�,得到如检验统计量T (X)的值T (x)这么大或者更极端) 从而可以通过 P 值来比较样本的支持程度.

对不同的水平 α 检验方法, 可以通过比较它们的功效 (二型错误) 来评比优劣.