• 沒有找到結果。

离散总体情形

在文檔中 7-3: 假设检验 (頁 4-10)

7.3 拟合优度检验

7.3.1 离散总体情形

(1) 理论总体分布不含未知参数的情形 设某总体 X 服从一个离散分布,

X a1 . . . ak

P p1 . . . pk

p1,· · · , pk 完全已知. 现从该总体抽得一个样本量为 n 的样本, 其落 在类别 a1,· · · , ak 的观测数分别为 n1,· · · , nk. 感兴趣的问题是检验 理论频率是否正确, 即下面假设是否正确:

H0: P (X = a1) = p1,· · · , P (X = ak) = pk.

这类问题只提零假设而不提对立假设, 相应的检验方法称为拟合优度 检验. 显然, 在零假设下, 各类别的理论频数分别为 np1,· · · , npk, 将 理论频数和观测频数列于下表:

类别 a1 a2 · · · ak

理论频数 np1 np2 · · · npk

观测频数 n1 n2 · · · nk

由大数定律知, 在零假设成立时, ni/n 依概率收敛于 pi, 故理论 频数 npi与观测频数 ni接近. Pearson 提出检验统计量

T =

k i=1

(ni− npi)2 npi

=∑ (O − E)2

E .

可以严格地证明, 在一定的条件下, 当 H0 成立时, T 的极限分布 就是自由度为 k− 1 的 χ2 分布.

拒绝域: T > χ2α(k− 1)

下面给出一个例子来说明拟合优度检验的应用.

↑Example

有人制造一个含 6 个面的骰子, 并声称是均匀的. 现设计一个实 验来检验此命题: 连续投掷 600 次, 发现出现六面的频数分别为 97, 104, 82, 110, 93, 114. 问能否在显著性水平 0.2 下认为骰子是均匀

的? ↓Example

解: 该问题设计的总体是一个有 6 个类别的离散总体, 记出现六个面 的概率分别为 p1,· · · , p6, 则零假设可以表示为

H0: pi= 1/6, i = 1,· · · , 6.

在零假设下, 理论频数都是 100, 故检验统计量 χ2 的取值为

(97−100)2

100 +(104−100)2100 +(82−100)2100 +(110−100)2100 +(93−100)2100 +(114−100)2100 =6.94,

跟自由度为 6− 1 = 5 的 χ2分布的上 0.05 分位数 χ25(0.2)≈ 7.29 比 较, 不能拒绝零假设, 即可在显著性水平 0.2 下认为骰子是均匀的.

↑Example

孟德尔 (Mendel) 豌豆杂交试验。纯黄和纯绿品种杂交,因为黄色 对绿色是显性的,在 Mendel 第一定律 (自由分离定律) 的假设下,二 代豌豆中应该有 75%是黄色的,25%是绿色的。在产生的 n = 8023 个二代豌豆中,有 n1= 6022 个黄色,n2= 2001 个绿色。我们的问 题是检验这些这批数据是否支持 Mendel 第一定律,要检验的假设是

H0: π1= 0.75, π2= 0.25 ↓Example 解: 在 Mendel 第一定律 (H0) 下,黄色和绿色的个数期望值为

µ1= nπ1= 8023∗0.75 = 6017.25, µ2= nπ2= 8023∗0.25 = 2005.75 则 Pearson χ2 统计量为

Z=(O−E)2

E =(6022−6017.25)2/6017.25+(2001−2005.75)2/2005.75=0.015

自由度 df = 1,p− value 为 0.903. 因此可以认为这些数据服从 Mendel 第一定律。Fisher 基于 Mendel 试验的所有数据,发现其数

据与理论值符合的太好,p− value = 0.99993,但这么好的拟合在几

拟合优度检验的提出者 Karl Pearson 最初认为在零假设下, 检验统计 量的 χ2 的极限分布仍等于自由度为 k− 1 的 χ2 分布, R. A. Fisher 发现自由度应该等于 k−1 减去估计的独立参数的个数 r, 即 k−1−r.

↑Example

从某人群中随机抽取 100 个人的血液, 并测定他们在某基因位点 处的基因型. 假设该位点只有两个等位基因 A 和 a, 这 100 个基因型 中 AA, Aa 和 aa 的个数分别为 30, 40, 30, 则能否在 0.05 的水平下

认为该群体在此位点处达到 Hardy-Weinberg 平衡态? ↓Example

解: 取零假设为

H0: Hardy-Weinberg 平衡态成立.

设人群中等位基因 A 的频率为 p, 则该人群在此位点处达到 Hardy-Weinberg 平衡态指的是在人群中 3 个基因型的频率分别为 P (AA) =

p2, P (Aa) = 2p(1− p) 和 P (aa) = (1 − p)2, 即零假设可等价地写成 H0: P (AA) = p2, P (Aa) = 2p(1− p), P (aa) = (1 − p)2. 在 H0 下, 3 个基因型的理论频数为 100× ˆp2, 100× 2 × ˆp2(1− ˆp) 和 100×(1− ˆp)2, 其中 ˆp 等于估计的等位基因频率 0.5, 代入 χ2统计量表 达式, 得统计量的值等于 4. 该统计量的值大于自由度为 3− 1 − 1 = 1 (恰好一个自由参数被估计) 的 χ2 分布上 0.05 分位数 3.84, 故可在 0.05 的水平下认为未达到 Hardy-Weinberg 平衡态.

在文檔中 7-3: 假设检验 (頁 4-10)

相關文件