拟合优度检验

前面的假设检验基本上是在假定总体是正态的条件下做的, 但是这个假设本身不一定成立, 需要收集样本 (X₁, · · · , Xn) 来检验它. 一般地, 检验

H0: X服从某种分布可以采用 Karl Pearson 提出的 χ² 拟合优度检验.

7.3.1 离散总体情形

(1) 理论分布不含未知参数的情形

设某总体 X 服从一个离散分布, 且根据经验得知总体落在类别 a₁, · · · , ak 的理论频率分别为 p₁, · · · , p_k, 现从该总体抽得一个样本量为 n 的样本, 其落在类别 a₁, · · · , a_k 的观测数分别为 n₁, · · · , n_k. 感兴趣的问题是检验理论频率是否正确, 即下面假设是否正确:

H0: P (X ∈ a1) = p1, · · · , P (X ∈ ak) = pk.

这类问题只提零假设而不提对立假设, 相应的检验方法称为拟合优度检验. 显然, 在零假设下, 各类别的理论频数分别为 np₁, · · · , npk, 将理论频数和观测频数列于下表:

类别 a₁ a₂ · · · a_k 理论频数 np₁ np₂ · · · np_k 观测频数 n₁ n₂ · · · n_k

由大数定律知, 在零假设成立时, n_i/n 依概率收敛于 pi, 故理论频数 npi 与观测频数 n_i 接近.

而检验统计量取为

χ² =

i=1

(n_i− np_i)² np_i . 简单地, 就是

χ² =X(O − E)² E , 其中 O 为观测频数, E 为期望频数.

这个统计量中每项的分母的选取有点讲究, 我们可以这样粗略地解释: 假设 n_i 服从 Poisson 分布, 则 n_i 的均值和方差均为 np_i, 从而 (ni− np_i)/√

npi 的极限分布为标准正态分布, 因此 χ² 近似为 k 个服从自由度为 1 的 χ² 分布的随机变量之和, 由于 P^k_i=1(ni− np_i) = 0, 故这 k 个随机变

量满足一个约束, 从而 χ² 的自由度为 k − 1. 事实上, 可以严格地证明, 在一定的条件下, χ² 的极限分布就是自由度为 k − 1 的 χ² 分布, 但其证明超出本课程的要求范围.

下面给出一个例子来说明拟合优度检验的应用.

例

例例 7.3.1. 有人制造一个含 6 个面的骰子, 并声称是均匀的. 现设计一个实验来检验此命题: 连续投掷 600 次, 发现出现六面的频数分别为 97, 104, 82, 110, 93, 114. 问能否在显著性水平 0.2 下认为骰子是均匀的?

解: 该问题设计的总体是一个有 6 个类别的离散总体, 记出现六个面的概率分别为 p₁, · · · , p6, 则零假设可以表示为

H₀ : p_i = 1/6, i = 1, · · · , 6.

在零假设下, 理论频数都是 100, 故检验统计量 χ² 的取值为 (97 − 100)²

100 +(104 − 100)²

100 +(82 − 100)²

100 +(110 − 100)²

100 + (93 − 100)²

100 +(114 − 100)²

100 = 6.94, 跟自由度为 6 − 1 = 5 的 χ² 分布的上 0.05 分位数 χ²₅(0.2) ≈ 7.29 比较, 不能拒绝零假设, 即可在显著性水平 0.2 下认为骰子是均匀的.

例

例例 7.3.2. 孟德尔(Mendel)豌豆杂交试验。纯黄和纯绿品种杂交，因为黄色对绿色是显性的，在Mendel第一定律(自由分离定律)的假设下，二代豌豆中应该有75％是黄色的，25％是绿色的。在产生的n = 8023个二代豌豆中，有n₁ = 6022个黄色， n₂ = 2001个绿色。我们的问题是检验这些这批数据是否支持Mendel第一定律，要检验的假设是

H₀ : π₁= 0.75, π₂= 0.25 解: 在Mendel第一定律(H₀)下，黄色和绿色的个数期望值为

µ1= nπ1= 8023 ∗ 0.75 = 6017.25, µ2= nπ2= 8023 ∗ 0.25 = 2005.75 则Pearson χ²统计量为

Z =X(O − E)²

E = (6022 − 6017.25)²/6017.25 + (2001 − 2005.75)²/2005.75 = 0.015

自由度df = 1，p−value为0.903. 因此可以认为这些数据服从Mendel第一定律。 Fisher基于Mendel试验的所有数据，发现其数据与理论值符合的太好，p − value = 0.99993，但这么好的拟合在几万次试验中才发生一次，因而Fisher断定数据可能有伪造的嫌疑^[注1]。

[注1]https://arxiv.org/pdf/1104.2975.pdf

(2) 理论分布含若干未知参数的情形

当理论总体总含有未知的参数时, 理论频数 np_i 一般也与这些参数有关, 此时应该用适当的估计如极大似然估计代替这些参数以得到 p_i 的估计 ˆpi, 得到的统计量记为

χ² =

i=1

(n_i− nˆp_i)² nˆp_i .

拟合优度检验的提出者 Karl Pearson 最初认为在零假设下, 检验统计量的 χ² 的极限分布仍等于自由度为 k − 1 的 χ² 分布, R. A. Fisher 发现自由度应该等于 k − 1 减去估计的独立参数的个数 r, 即 k − 1 − r.

例

例例 7.3.3. 从某人群中随机抽取 100 个人的血液, 并测定他们在某基因位点处的基因型. 假设该位点只有两个等位基因 A 和 a, 这 100 个基因型中 AA, Aa 和 aa 的个数分别为30, 40, 30, 则能否在 0.05 的水平下认为该群体在此位点处达到 Hardy-Weinberg 平衡态?

解: 取零假设为

H₀: Hardy-Weinberg 平衡态成立.

设人群中等位基因 A 的频率为 p, 则该人群在此位点处达到 Hardy-Weinberg 平衡态指的是在人群中 3 个基因型的频率分别为 P (AA) = p², P (Aa) = 2p(1 − p) 和 P (aa) = (1 − p)², 即零假设可等价地写成

H₀: P (AA) = p², P (Aa) = 2p(1 − p), P (aa) = (1 − p)².

在 H₀ 下, 3 个基因型的理论频数为 100 × ˆp², 100 × 2 × ˆp²(1 − ˆp) 和 100 × (1 − ˆp)², 其中 ˆp 等于估计的等位基因频率 0.5, 代入 χ² 统计量表达式, 得统计量的值等于 4. 该统计量的值大于自由度为 3 − 1 − 1 = 1 (恰好一个自由参数被估计) 的 χ² 分布上 0.05 分位数 3.84, 故可在 0.05 的水平下认为未达到 Hardy-Weinberg 平衡态.

7.3.2 列联表的独立性和齐一性检验

(1) 独立性检验

下面考虑很常用的列联表. 列联表是一种按两个属性作双向分类的表. 例如肝癌病人可以按所在医院 (属性 A) 和是否最终死亡 (属性 B) 分类. 目的是看不同医院的疗效是否不同. 又如婴儿可按喂养方式 (属性 A, 分两个水平: 母乳喂养与人工喂养) 和小儿牙齿发育状况 (属性 B, 分两个水平: 正常与异常) 来分类. 这两个例子中两个属性都只有两个水平, 相应的列联表称为“四格表”, 一

般地, 如果第一个属性有 a 个水平, 第二个属性有 b 个水平, 称为 a × b 表 (见教材 p268) . 实际应

解: 这是一个齐一性检验问题. 检验统计量 χ² 的观测值为 0.2524, 远远小于自由度为 1 的 χ² 分

如果 p_i 中不含未知参数, 则 r = 0.

使用 χ² 进行拟合优度检验时一般要求 n ≥ 50, nˆp_j ≥ 5, j = 1, · · · , k, 如果不满足这个条件, 最好把某些组作适当合并.

例

例例 7.3.5. 从某连续总体中抽取一个样本量为 100 的样本, 发现样本均值和样本标准差分别为

−0.225 和 1.282, 落在不同区间的频数如下表所示:

区间 (−∞, −1) [−1, −0.5) [−0.5, 0) [0, 0.5) [0.5, 1) [1, ∞)

观测频数 25 10 18 24 10 13

理论频数 27 14 16 14 12 17

可否在显著性水平 0.05 下认为该总体服从正态分布?

解: 设理论正态分布的均值和方差分别为 µ 和 σ², 记第 i 个区间为 (ai−1, ai, i = 1, · · · , 6, 则样本落在第 i 个格子的理论概数为 100P (a_i−1 < X ≤ ai), 其中 X ∼ N (µ, σ²). 将 µ = −0.225 和 σ²= ₁₀₀⁹⁹ × 1.282²= 1.622 代入得到估计的理论频数, 列于上表中.

H₀ : 总体服从正态分布

由此算得检验统计量 χ²的值约为 9.25, 与自由度为 6-1-2=3 的 χ²分布的上 0.05 分位数 χ²₃(0.05) ≈ 7.81 比较可以拒绝零假设, 即可以在显著性水平 0.05 下认为该总体不服从正态分布.

在文檔中目录 (頁 16-21)